导航:首页 > 数据行情 > 数据拟合股票

数据拟合股票

发布时间:2023-10-25 03:10:55

❶ 如何利用统计模型预测股票市场的价格动态

预测股票市场的价格动态是证券市场的一项重要工作。统计模型可以帮助分析市场价格走势并预测行情。下面是一些常用的统计模型及其应用:
1.时间序列模型
时间序列模型可以对历史数据进行拟合并预测未来股价的波动趋势。常用的时间序列模型有ARIMA模型和GARCH模型。
2.多元回归模型
多元回归模型可以利用经济数据及公司财务数据等因返码素对股票价格进行建模预测。主要包括线性回归、逻辑回归与决策树等。
3.人工神经网络模型
人工神经网络模型可以模拟股票市场价格动漏蔽哪态的非线性关系。它能够自动学习、预测股票价格走势并较好地应对误差。
4.蒙特卡洛模拟模型
蒙特卡洛模拟模型可以模拟随机股价走势,通过估计大量随机走势下的收益与风险,帮助投资者做出更好的投资决策。
综上所述,利用统计模型预测股票市场的价格动态需要根据不同的应用场景选择不同的模型。同时,投资者应该充分了解市场背景以及数据特征,在建并此立合理的统计模型的基础上,结合自己的投资经验,制定出有效的股票投资策略。

❷ 如何用Arma模型做股票估计

时间序列分析是经济领域应用研究最广泛的工具之一,它用恰当的模型描述历史数据随时间变化的规律,并分析预测变量值。ARMA模型是一种最常见的重要时间序列模型,被广泛应用到经济领域预测中。给出ARMA模型的模式和实现方法,然后结合具体股票数据揭示股票变换的规律性,并运用ARMA模型对股票价格进行预测。
选取长江证券股票具体数据进行实证分析
1.数据选取。
由于时间序列模型往往需要大样本,所以这里我选取长江证券从09/03/20到09/06/19日开盘价,前后约三个月,共计60个样本,基本满足ARMA建模要求。
数据来源:大智慧股票分析软件导出的数据(股价趋势图如下)
从上图可看出有一定的趋势走向,应为非平稳过程,对其取对数lnS,再观察其平稳性。
2.数据平稳性分析。
先用EVIEWS生成新序列lnS并用ADF检验其平稳性。
(1)ADF平稳性检验,首先直接对数据平稳检验,没通过检验,即不平稳。
可以看出lnS没有通过检验,也是一个非平稳过程,那么我们想到要对其进行差分。
(2)一阶差分后平稳性检验,ADF检验结果如下,通过1%的显着检验,即数据一阶差分后平稳。
可以看出差分后,明显看出ADF Test Statistic 为-5.978381绝对值是大于1%的显着水平下的临界值的,所以可以通过平稳性检验。
3.确定适用模型,并定阶。可以先生成原始数据的一阶差分数据dls,并观测其相关系数AC和偏自相关系数PAC,以确定其是为AR,MA或者是ARMA模型。
(1)先观测一阶差分数据dls的AC和PAC图。经检验可以看出AC和PAC皆没有明显的截尾性,尝试用ARMA模型,具体的滞后项p,q值还需用AIC和SC具体确定。
(2)尝试不同模型,根据AIC和SC最小化的原理确定模型ARMA(p,q)。经多轮比较不同ARMA(p,q)模型,可以得出相对应AIC 和 SC的值。
经过多次比较最终发现ARMA(1,1)过程的AIC和SC都是最小的。最终选取ARIMA(1,1,1)模型作为预测模型。并得出此模型的具体表达式为:
DLS t = 0.9968020031 DLS (t-1)- 1.164830718 U (t-1) + U t
4.ARMA模型的检验。选取ARIMA(1,1,1)模型,定阶和做参数估计后,还应对其残差序列进行检验,对其残差的AC和Q统计检验发现其残差自相关基本在0附近,且Q值基本通过检验,残差不明显存在相关,即可认为残差中没有包含太多信息,模型拟合基本符合。
5.股价预测。利用以上得出的模型,然后对长江证券6月22日、23日、24日股价预测得出预测值并与实际值比较如下。
有一定的误差,但相比前期的涨跌趋势基本吻合,这里出现第一个误差超出预想的是因为6月22日正好是礼拜一,波动较大,这里正验证了有研究文章用GARCH方法得出的礼拜一波动大的结果。除了礼拜一的误差大点,其他日期的误差皆在接受范围内。
综上所述,ARMA模型较好的解决了非平稳时间序列的建模问题,可以在时间序列的预测方面有很好的表现。借助EViews软件,可以很方便地将ARMA模型应用于金融等时间序列问题的研究和预测方面,为决策者提供决策指导和帮助。当然,由于金融时间序列的复杂性,很好的模拟还需要更进一步的研究和探讨。在后期,将继续在这方面做出自己的摸索。

❸ 股票直线拟合是什么意思

就是针对某段行情,找到一条直线,使得这段行情在该线附近振荡。
如果严格说的话,假设一段行情从t0开始,到T结束,时间单位是dt,我们把股票行情记为f(t), t是时间。而直线就可以表示为line = a t, a是斜率,t是时间。
目的就是找到一个最好的a来拟合f(t):
即 min {SUM_t0^T (f(t)-at)^2}

❹ 如何用GARCH(1,1)求股票的具体波动率数据

以哈飞股份(600038)为例,运用GARCH(1,1)模型计算股票市场价值的波动率。

GARCH(1,1)模型为:

(1)

(2)

其中, 为回报系数, 为滞后系数, 和 均大于或等于0。

(1)式给出的均值方程是一个带有误差项的外生变量的函数。由于是以前面信息为基础的一期向前预测方差,所以称为条件均值方程。

(2)式给出的方程中: 为常数项, (ARCH项)为用均值方程的残差平方的滞后项, (GARCH项)为上一期的预测方差。此方程又称条件方差方程,说明时间序列条件方差的变化特征。

通过以下六步进行求解:

本文选取哈飞股份2009年全年的股票日收盘价,采用Eviews 6.0的GARCH工具预测股票收益率波动率。具体计算过程如下:

第一步:计算日对数收益率并对样本的日收益率进行基本统计分析,结果如图1和图2。

日收益率采用JP摩根集团的对数收益率概念,计算如下:

其中Si,Si-1分别为第i日和第i-1日股票收盘价。

图1 日收益率的JB统计图

对图1日收益率的JB统计图进行分析可知:

(1)标准正态分布的K值为3,而该股票的收益率曲线表现出微量峰度(Kurtosis=3.748926>3),分布的凸起程度大于正态分布,说明存在着较为明显的“尖峰厚尾”形态;

(2)偏度值与0有一定的差别,序列分布有长的左拖尾,拒绝均值为零的原假设,不属于正态分布的特征;

(3)该股票的收益率的JB统计量大于5%的显着性水平上的临界值5.99,所以可以拒绝其收益分布正态的假设,并初步认定其收益分布呈现“厚尾”特征。

以上分析证明,该股票收益率呈现出非正态的“尖峰厚尾”分布特征,因此利用GARCH模型来对波动率进行拟合具有合理性。

第二步:检验收益序列平稳性

在进行时间序列分析之前,必须先确定其平稳性。从图2日收益序列的路径图来看,有比较明显的大的波动,可以大致判断该序列是一个非平稳时间序列。这还需要严格的统计检验方法来验证,目前流行也是最为普遍应用的检验方法是单位根检验,鉴于ADF有更好的性能,故本文采用ADF方法检验序列的平稳性。

从表1可以看出,检验t统计量的绝对值均大于1%、5%和10%标准下的临界值的绝对值,因此,序列在1%的显着水平下拒绝原假设,不存在单位根,是平稳序列,所以利用GARCH(1,1)模型进行检验是有效的。

图2 日收益序列图

表1ADF单位根检验结果

第三步:检验收益序列相关性

收益序列的自相关函数ACF和偏自相关函数PACF以及Ljung-Box-Pierce Q检验的结果如表3(滞后阶数 =15)。从表4.3可以看出,在大部分时滞上,日收益率序列的自相关函数和偏自相关函数值都很小,均小于0.1,表明收益率序列并不具有自相关性,因此,不需要引入自相关性的描述部分。Ljung-Box-Pierce Q检验的结果也说明日收益率序列不存在明显的序列相关性。

表2自相关检验结果

第四步:建立波动性模型

由于哈飞股份收益率序列为平稳序列,且不存在自相关,根据以上结论,建立如下日收益率方程:

(3)

(4)

第五步:对收益率残差进行ARCH检验

平稳序列的条件方差可能是常数值,此时就不必建立GARCH模型。故在建模前应对收益率的残差序列εt进行ARCH检验,考察其是否存在条件异方差,收益序列残差ARCH检验结果如表3。可以发现,在滞后10阶时,ARCH检验的伴随概率小于显着性水平0.05,拒绝原假设,残差序列存在条件异方差。在条件异方差的理论中,滞后项太多的情况下,适宜采用GARCH(1,1)模型替代ARCH模型,这也说明了使用GARCH(1,1)模型的合理性。

表3日收益率残差ARCH检验结果

第六步:估计GARCH模型参数,并检验

建立GARCH(1,1)模型,并得到参数估计和检验结果如表4。其中,RESID(-1)^2表示GARCH模型中的参数α,GARCH(-1)表示GARCH模型中的参数β,根据约束条件α+β<1,有RESID(-1)^2+GARCH(-1)=0.95083<1,满足约束条件。同时模型中的AIC和SC值比较小,可以认为该模型较好地拟合了数据。

表4日收益率波动率的GARCH(1,1)模型的参数估计

❺ 如何利用计量经济学方法估计金融市场的波动率,并预测未来的股票价格走势

估计金融市场波动率的方法之一是使用GARCH模型。GARCH模型是一个非线性的时间序列模型,用来描述金融市场波动率的异方差性(volatilityclustering)。该模型可以通过历史数据来估计未来波动率的水平和方向。以下是利用GARCH模型估计波动率和预测未来股票价格走势的一般步骤:
1.收集历史股票价格数据以及与该公司相关的其他经济指标数据。这些数据可以从各种来源(比如财经新闻、股票网站等)收集。
2.进行数据清理和预处理。这涉及到处理异常值、缺失值和季节性等。
3.使用GARCH模型估计波动率。该模型可以包括ARCH(自回归条件异方差)和GARCH(广义自回归条件异方差)模型。
4.模型拟合完成后,进行模型检验。这包括残差分析和模型拟合优度的检验。
5.利用已估计出的波动率进行未来股票价格的预测。这可以通过将已估计出的波动率斗悉雀带入股票价格的确定性模型来实现。
需要注意的是,GARCH模型仅能够空早反映历史数据中的波动率,无法准确地预测未来变化,因此预测结果仅供参考。同时,由于金融市场的复杂性和不确定性,建议在进行金融决策时,需综合考虑各种因素,而不能仅仅依赖统计模型的预测陆余。

❻ 什么是拟合指数

拟合指数 Simulation Index/fit index/Agreement Index
拟合是《计量经济学》研究的范畴,所谓拟合指数简单的说就是选择的变量与被解释变量之间的相关关系
股票\基金拟合指数:

指数基金是一种拟合目标指数、跟踪目标指数变化为原则,实现与市场同步成长的基金品种。指数基金的投资采取拟合目标指数收益率的投资策略,分散投资于目标指数的成分股,力求股票组合的收益率拟合该目标指数所代表的资本市场平均收益率。

操作简单透明度高

从理论上讲,指数基金的运作方法简单,只要根据每一种证券在指数中所占的比例购买相应比例的证券,长期持有就可。

其次,指数基金费用低廉。由于指数基金采取持有策略,不用经常换股,交易成本远远低于积极管理的基金。

此外,指数基金的业绩透明度较高。投资人看到指数型基金跟踪的目标基准指数涨了,就会知道自己投资的指数型基金今天净值大约能升多少。所以很多机构投资人和一些看得清大势、看不准个股的个人投资者比较喜欢投资指数型基金,不必再有“赚了指数不赚钱”的苦恼。

有效规避非系统性风险

与其他基金相比,指数基金的优点首先在于能够有效规避非系统性风险,因而指数基金广泛地分散投资,任何单个股票的波动都不会对指数基金的整体表现构成影响,从而分散风险。另一个方面,由于指数基金所钉住的指数一般都具有较长的历史可以追踪,在一定程度上指数基金的风险是可以预测的。

因此,从长期来看,指数基金投资业绩优于其他基金。2006年,市场上的指数基金以平均125.87%的年累计净值增长率成为最赚钱的基金品种。这种基金不会对某些特定的证券或行业投入过量资金。它一般会保持全额投资而不进行市场投机。

关键因素拟合指数化投资方法的实证研究

指数化投资是一种试图完全复制某一证券价格指数或者按照证券价格指数编制原理构建投资组合而进行的证券投资。按此种方式投资的基金称为指数基金,其收益水平目标是所基指数的变化幅度。自20世纪90年代以来,美国华尔街上大多数股票基金管理人的业绩都低于同期市场指数的表现,这样,以复制市场指数走势为核心思想的指数基金在全球范围内迅速发展壮大起来,并对传统的证券投资思维形成巨大的冲击与挑战。在美国,指数基金的收益超过65~80%的共同基金,因而越来越受到欢迎。流入共同基金市场的新增资金中,流入指数基金的比例由1994年的2%增加到1999年的31%。1999年末美国指数基金总资金量达到3380亿美元,占全美股票基金总量的8.37%。最大的指数基金、也是全美最大的共同基金Vanguard S&P 500管理着1050亿美元的资金。
我国的指数化投资出现较晚,这主要是因为我国的证券市场还比较年轻,还在不断探索和发展,我国的投资者群体还不成熟,缺乏科学的投资观念,市场行为的监管还欠完善,庄家炒作等非市场行为对股指有较大影响。由于这些原因的共同影响,我国股票指数常常与市场背离,不能反映市场的真实情况。
就指数化投资方法而言,市场上常用的方法主要是完全复制某一证券价格指数或者按照证券价格指数编制原理构建投资组合。这种传统的指数化投资方法相对比较被动,在大盘正常运行的时候可以良好运作,但是当部分样本股出现异常的快速上扬或急速下跌时,将失去进一步盈利和及时止损的机会。为了弥补这一不足,各种替代方法应运而生。
Francesco Corielli与Massimiliano Marcellino(2002)认为跟踪指数是要建立指数的替代投资组合(replica),这个替代投资组合包含的股票要远远少于指数所包含的股票,并且跟踪误差中不包含非经常性成份,他们运用动态因子提取方法建立指数替代投资组合,用蒙特.卡罗经验指数和EURO STOXX50指数进行了验证。验证结果令人鼓舞,替代投资组合基本完成了跟踪曲线[7]。吴冲锋(2000)运用未定因素含义法分析1998年7月8日至1999年3月29日期间上证30指数样本股,得出由6只股票的投资组合替代上证30指数的结论[6]。
从以上研究我们发现,指数化投资方法不一定非要按照证券价格指数编制原理构建投资组合,可以通过构建替代投资组合对指数进行跟踪。在此基础上,笔者提出关键因素拟合指数化投资方法,该方法认为,股票指数由其样本股按照证券价格指数编制原理构成,它的走势体现了这些样本股的共同作用,但并不是每一只样本股对指数的贡献都一样,股票指数中存在关键性因素,这些关键因素对股指的影响体现在各自所代表的样本股的表现之上。同样,也并不是每一种关键因素所代表的样本股对它的贡献都一样,关键因素中存在最具代表性的关键样本股,正是这些最具代表性的关键样本股对股票指数起着举足轻重的作用,我们只要抓住了它们就抓住了股票指数,换句话说,我们只要投资于这些关键因素拟合的组合就等于投资了这个股票指数了。另外,同一关键因素中具有代表性的关键样本股之间具有可替代性,可以使对股票指数的投资更加灵活,又不会影响投资组合的指数化性质,在一定程度上弥补了传统方法的不足。
下面我们将以上证50指数为研究对象,对关键因素指数化投资方法进行实证研究。论文的结构安排如下:首先,我们进行研究设计,确定研究的程序、模型、样本及数据;然后,我们对数据进行因子分析,提取出上证50指数的关键因素;在此基础上,我们将按关键因素构造出的投资组合与实际的上证50指数进行相关性检验和回归分析以验证该方法;最后得出结论。
研究设计

一、 研究程序与模型设计
第一步,我们要找出影响上证50指数走势的关键性因素。
我们以上证50指数成份股个股的日收益率为基础进行因子分析,提取出反映上证50指数走势的n个共同因子,这n个共同因子即代表了影响上证50指数走势的n个关键因素的。构造多因素模型如下:
Index50=A1*F1+A2*F2+……+An*Fn+ε
式中:Index50为上证50指数;Fn为第n个共同因子;An为第n个共同因子对上证50指数的贡献率;ε为残差。
在找出这n个关键因素之后,我们要进一步找出这n种关键性的共同因子所代表的样本股。对应关系如下:
F1~a1(stock11)+a2(stock12)+……
F2~b1(stock21)+b2(stock22)+……
…………………………………
Fn~n1(stockn1)+n2(stockn2)+……
式中:Fn为第n个共同因子;stock为共同因子所代表的样本股;a、b……n为样本股对共同因子的贡献率,即因子负荷。
观察共同因子的因子负荷强弱,我们可以分析判断出各个共同因子所反映的关键因素,并对它们进行相应的解释。
第二步,为了证明我们找出的这n个关键因素是否真的能够反映上证50指数的走势。我们用它们中最具代表性的一组样本股构造出一个投资组合Portfolio50,与上证50指数Index50进行比较,验证是否Portfolio50与Index50等价。
为此,我们找出对这n个关键因素最有代表性的i个样本股,按照其方差对总方差解释的贡献率所占比重作为权重构造投资组合如下:
Portfolio50=w1*STOCK1+w2*STOCK2+……+wi*STOCKi
式中:Portfolio50为构造的投资组合的日收益率;STOCKi为参与构造投资组合的第i个最有代表性的样本股的日收益率;wi为第i只样本股的权重。
计算出投资组合Portfolio50的日收益率和上证50指数的日收益率Index50,在通过相关性检验之后,将Portfolio50与Index50进行线性回归分析。构造回归模型如下:
Portfolio50=a+b*(Index50)+ε
式中:Portfolio50为构造的投资组合的日收益率;Index50为上证50指数的日收益率;a为常数项;b为回归系数;ε为残差。
如果该模型经检验成立,并且a趋近于0,同时b趋近于1,那么Portfolio50≈Index50,即Portfolio50与Index50等价,说明我们找出的这n各关键性因素能够真实地反映上证50指数的走势,Portfolio50可以代替上证50指数进行指数化投资。
二、 模型变量计算
上证50指数成份股个股日收益率用相对收益率计算,假如碰到配股、送股、送现金红利的情况,则用下面的公式计算:

式中:rit为第i种股票的第t日收益率;Pt、Pt-1分别为t日和t-1日的收盘价;C为以t-1日为基准的t日每股现金红利;As为以t-1日为基准的t日每股配股比例;S为以t-1日为基准的t日每股配股价;Ad为以t-1日为基准的t日每股送股比例。
上证50指数日收益率Index50同样用相对收益率计算,公式如下:

式中:Rt为上证50指数的第t日收益率;Pt、Pt-1分别为上证50指数t日和t-1日的收盘价。
三、 研究样本选择
本文研究中所需的上证50指数收盘价、成份股个股的收盘价、现金红利等原始交易数据来源于上海万国股市测评咨询有限公司制作的“大智慧证券信息平台V5.00”。
因子分析过程中,样本数据时期为2002年12月03日至2004年03月18日,每只样本股包含309条数据记录。由于各种原因引起暂时停牌而产生的缺失值采用相邻数据平均法填补。
考虑到个别新上市公司样本股上市日期太短,样本数据数量不充分,业绩容易出现非正常波动,而且公司内部各方面的运行机制还不够健全和完善,为使检验不受少部分数据干扰,将其剔出样本股,在关键因素确立之后再根据专业知识单独判断其属性。剔出样本股共五只,分别为:白云机场(600004)、华夏银行(600015)、南方航空(600029)、中信证券(600030)和长江电力(600900)。
综上,因子分析样本股中共纳入45只上证50指数样本股,每只含309条日收益率记录,共计309组,13905条日收益率记录。
相关性检验与回归分析过程中,由于上证50指数自2004年1月2日起正式发布,指数简称上证50,指数代码000016,基日为2003年12月31日。到目前为止数据量太小,所以我们无法直接用它计算。但是上海证券交易所为上证50的顺利推出,于2003年1月2日起发布上证50板块概念指数993265。其编制方法与走势和上证50基本相同,只是所取的基数有所不同。在此我们用上证50板块概念指数993265数据代替上证50指数000016数据进行计算。计算的时间跨度为前面分析时期的子集区间2003年07月22日至2004年03月12日,同样,缺失值的处理方法采用相邻数据平均数填补法,共计155组数据。

因子分析

表1 KMO统计量和Bartlett’s球形检验表
Kaiser-Meyer-Olkin Measure of Sampling Adequacy. .958
Bartlett's Test of Sphericity Approx. Chi-Square 9857.426
df 990
Sig. .000
首先,我们对各样本股日收益率数据采用KMO统计量和Bartlett’s球形检验,以判断样本数据是否符合因子分析的前提条件。可以看出,表格中检验变量间偏相关性的KMO统计量,数值为0.958,接近1,表明各变量间的相关程度无太大差异,数据非常适合做因子分析。同时,Bartlett’s球形假设检验的结果也被拒绝,强烈认可了变量之间的相关性,说明各样本股日收益率之间存在共同信息,符合提取共同因子的前提条件。见表1。
本文采用的因子提取方法为主成分分析法(Principal Components Analysis)。考虑到共同因子的可解释性,在提取因子的过程中采用正交旋转,具体旋转方法为方差最大化正交旋转(Varimax)。根据提取的主成分共同因子的累积贡献率达到约85%以上为标准,一共提取20个共同因子。信息提取的充分性检验表(略)告诉我们,按照上诉共同因子提取标准,样本股信息的提取基本是充分的。
表2 共同因子所解释的方差百分比表
Factor F1 F2 F3 F4 F5 F6 F7 F8 F9 F10
%of Variance 42.311 6.849 4.540 3.208 2.395 2.856 2.367 2.133 2.035 1.844
Cumulative% 42.311 49.160 53.700 56.908 59.764 62.158 64.525 66.658 68.693 70.537
Factor F11 F12 F13 F14 F15 F16 F17 F18 F19 F20
%of Variance 1.728 1.674 1.553 1.491 1.410 1.324 1.286 1.261 1.201 1.154
Cumulative% 72.265 73.939 75.491 76.982 78.392 79.716 81.002 82.263 83.464 84.618
我们把共同因子所解释的方差百分比(表2)作为因子对指数所贡献的权重,相应的多因素模型如下:
Index50=0.4231*F1+0.0685*F2+0.0454*F3+0.0321*F4+0.0286*F5+0.0239*F6+0.0237*F7+0.0213*F8+0.0204*F9+0.0184*F10+0.0173*F11+0.0167*F12+0.0155*F13+0.0149*F14+0.0141*F15+0.0132*F16+0.0129*F17+0.0126*F18+0.0120*F19+0.0115*F20+ε
经过方差最大化正交旋转之后,将因子和变量之间因子负荷大于0.4的变量提出来,再根据同一样本股对共同因子的贡献大小取相对较大的值。我们得到以下20个共同因子所主要代表的样本股列表,见表3。

表4 共同因子代表样本股列表
F1 600028 中国石化 F5 600664 哈药集团
600808 马钢股份 600038 哈飞股份
600688 上海石化 F6 600839 四川长虹
600019 宝钢股份 600033 福建高速
600026 中海发展 600008 首创股份
600569 安阳钢铁 F7 600591 上海航空
600050 中国联通 600221 海南航空
600036 招商银行 F8 600795 国电电力
600350 山东基建 600011 华能国际
600649 原水股份 600642 申能股份
600000 浦发银行 F9 600643 爱建股份
F2 600602 广电电子 F10 600887 伊利股份
600832 东方明珠 600597 光明乳业
600637 广电信息 F11 600016 民生银行
600100 清华同方 F12 600811 东方集团
600171 上海贝岭 F13 600652 爱使股份
600601 方正科技 F14 600006 东风汽车
F3 600609 金杯汽车 F15 600812 华北制药
600805 悦达投资 F16 600705 北亚集团
600104 上海汽车 F17 600895 张江高科
F4 600717 天津港 F18 600863 内蒙华电
600018 上港集箱 F19 600098 广州控股
600009 上海机场 F20 - -
各个共同因子与样本股的因子负荷对应关系如下:
F1~0.84(600028)+0.84(600808)+0.83(600688)+0.82(600019)+0.65(600026)+0.61(600569)+0.61(600050)+0.55(600036)+0.53(600350)+0.46(600649)+0.45(600000)
F2~0.88(600602)+0.86(600832)+0.85(600637)+0.78(600100)+0.69(600171)+0.49(600601)
F3~0.81(600609)+0.75(600805)+0.63(600104)
F4~0.76(600717)+0.67(600018)+0.46(600009)
F5~0.88(600664)+0.85(600038)
F6~0.66(600839)+0.49(600033)+0.46(600008)
F7~0.72(600591)+0.67(600221)
F8~0.56(600795)+0.55(600011)+0.52(600642)
F9~0.83(600643)
F10~0.75(600887)+0.40(600597)
F11~0.80(600016)
F12~0.81(600811)
F13~0.81(600652)
F14~0.97(600006)
F15~0.80(600812)
F16~0.77(600705)
F17~0.78(600895)
F18~0.75(600863)
F19~0.52(600098)
F20~----------------
观察共同因子代表样本股列表与因子负荷对应关系,我们可以分析判断出各个共同因子所反映的关键因素如下:
F1对应的样本股分别为:600028中国石化、600808马钢股份、600688上海石化、600019宝钢股份、600026中海发展、600569安阳钢铁、600050中国联通、600036招商银行、600350山东基建、600649原水股份、600000浦发银行,这些都是广大股民所熟知的经营业绩优秀,净资产收益率很高的大盘蓝筹股,其中也包含了几只银行股,可以说是大盘中的大盘,蓝筹中的蓝筹,我们可以定义因子F1为“大盘深蓝股”。
F2对应的样本股分别为:600602广电电子、600832东方明珠、600637广电信息、600100清华同方、600171上海贝岭、600601方正科技,这几只股票是高科技行业的杰出代表,主营计算机、微电子和信息产业,具有高成长性,我们可以定义因子F2为“高科技成长股”。
F3对应的样本股分别为:600609金杯汽车、600805悦达投资、600104上海汽车,属于典型的汽车类股票,随着近几年汽车行业的崛起,业绩呈现稳步增长,我们可以定义因子F3为“汽车蓝筹股”。
F4对应的样本股分别为:600717天津港、600018上港集箱、600009上海机场,与水陆空港口物流和运输有密切关系,我们可以定义因子F4为“港口物流股”。
F5对应的样本股分别为:600664哈药集团、600038哈飞股份,具有明显的地域色彩,触摸到东北老工业基地的发展脉搏,我们可以定义因子F5为“东北老工业股”。
F6对应的样本股分别为:600839四川长虹、600033福建高速、600008首创股份,其中600033福建高速、600008首创股份主要是经营公益事业和基础设施,我们可以定义因子F6为“基础公益股”。但600839四川长虹的主营是电视机、空调等家用电器产品,业绩彪炳,被归于此类可以算是因统计之外原因引起的一个例外。
F7对应的样本股分别为:600591上海航空、600221海南航空,国内航空运输业的两只优质股票,我们可以定义因子F7为“航空运输股”。
F8对应的样本股分别为:600795国电电力、600011华能国际、600642申能股份,显然代表电力能源,我们可以定义因子F8为“电力能源股”。
F9对应的样本股为:600643爱建股份,是上证50成份股中的非银行类金融股,我们可以定义因子F9为“非银行金融股”。
F10对应的样本股分别为:600887伊利股份、600597光明乳业,皆为乳品业龙头,乳业产品的消费与老百姓日常生活息息相关,其业绩从一定角度上也体现了老百姓生活的富裕程度,我们可以定义因子F10为“乳品消费股”。
F11对应的样本股为:600016民生银行,银行类股票。F12对应的样本股为:600811东方集团,一只综合类股票,涉猎金融、电子商务、建材、通讯等领域。F13对应的样本股为:600652爱使股份,主营计算机硬件及网络设备。F14对应的样本股为:600006东风汽车,汽车行业股票。F15对应的样本股为:600812华北制药,医药化工产品的生产和销售。F16对应的样本股为:600705北亚集团,主营运输物流及贸易。F17对应的样本股为:600895张江高科,房地产类个股。F18对应的样本股为:600863内蒙华电,主营活力发电、供热。F19对应的样本股为:600098广州控股,从事能源、物流、基础设施等综合类股票。这些因子所代表的个股具有很强的针对性,虽然有些个股可以归结为前面几种共同因子,但从统计学角度来说,应单独列出,以保证对原始信息的完整反映。F20对应的样本股因子负荷均小于0.4,说明其可解释性很小,体现的样本股散乱,从专业的角度看没有分析价值,故此将它剔出。
对于白云机场(600004)、华夏银行 (600015)、南方航空(600029)、中信证券(600030)和长江电力(600900)这五只由于上市时间不长而被剔出的个股,我们可以运用专业知识将其归类,并在今后的分析中予以验证。白云机场(600004)主营空港物流,可归为F4;华夏银行(600015)属于银行股,可归为F11;南方航空(600029)主营航空运输业,可归为F7;中信证券(600030)为非银行金融股,可归为F9和长江电力(600900)主营电力能源,可归为F8。
综上所述,通过对上证50指数成份股个股的日收益率数据因子分析,我们提取出有实际意义的F1~F19这19个共同因子,代表了影响上证50指数走势的19个关键因素。构造多因素模型如下:
Index50=0.4231*F1+0.0685*F2+0.0454*F3+0.0321*F4+0.0286*F5+0.0239*F6+0.0237*F7+0.0213*F8+0.0204*F9+0.0184*F10+0.0173*F11+0.0167*F12+0.0155*F13+0.0149*F14+0.0141*F15+0.0132*F16+0.0129*F17+0.0126*F18+0.0120*F19 +ε

相关性检验与回归分析
我们将因子分析中提取的19种共同因子中有代表性的样本股加权组合构造出一个投资组合Portfolio50,每个样本股的权重就等于每种共同因子所解释的方差百分比在累积百分比之中所占的比重。比如:共同因子F1的权重等于(42.311/83.464=0.5069)。考虑到F1因子所代表的股票较多,且权重比例较大,故选入排名前四位的4只股票,每只股票权重取F1因子权重的四分之一,共计22只样本股。
构造投资组合如下:
Portfolio50=0.1267*((600028)+(600808)+(600688)+(600019))+0.0821*(600602)+0.0544*(600609)+0.0384*(600717)+0.0342*(600664)+0.0287*(600839)+0.0284*(600591)+0.0256*(600795)+0.0244*(600643)+0.0221*(600887)+0.0207*(600016)+0.0201*(600811)+0.0186*(600652)+0.0179*(600006)+0.0169*(600812)+0.0159*(600705)+0.0154*(600895)+0.0151*(600863)
Portfolio50与Index50相关性检验表(略)显示,Portfolio50与Index50的相关系数在0.01置信水平下为0.943,说明Portfolio50与Index50高度相关。
表4 回归模型与检验结果表
Model Sum of Squares df Mean Square F Sig.
1 Regression .025 1 .025 1238.863 .000
Resial .003 153 .000
Total .028 154

表5 回归系数与检验结果表
Model Unstandardized Coefficients Standardized Coefficients t Sig. Correlations
B Std. Error Beta Zero-order Partial Part
1 (Constant) 7.235E-04 .000 2.004 .047
INDEX50 1.021 .029 .943 35.197 .000 .943 .943 .943
从回归模型与检验结果(表4)我们可以看出该回归模型具有明显的统计学意义。从回归系数与检验结果(表5)我们可以看出该回归模型系数b具有明显的统计学意义,且b值为1.021。对于常数项的检验虽然没有统计学意义,但这无关紧要,出于常识,我们一般都将其保留在方程中,a值为0.0007235。
据此我们可以构建回归模型如下:
Portfolio50=0.0007235+1.021*(Index50)
式中:常数项a=0.0007235,非常接近于0,回归系数b=1.021,也同样接近于1。所以我们可以认为Portfolio50≈Index50。
最后,我们进行回归模型拟合效力评价分析(过程略)。由拟合模型的拟合优度简报和Durbin-Watson统计量我们可以得出确定系数R2为0.89,校正的确定系数Adjusted R2为0.889,说明该模型拟合效果显着。Durbin-Watson统计量为1.786,取值在2附近。可见残差间没有明显的相关性。为了进一步分析模型的正态性,即的残差ε是否服从正态分布,我们做出残差分布直方图和正态PP图(见图1、图2)。可见,该模型残差基本服从正态分布。

图1 残差分布直方图 图2 残差的正态PP图

结论

根据以上实证研究,我们得出如下结论:
1.在2002年12月3日至2004年3月18日期间,上证50指数的50种样本股的收益率受到19种关键因素的影响。这19种关键因素中最有代表性的是600028中国石化、600602广电电子等22只样本股。从另外一个角度看,这22只样本股的总体走势基本上反映了上证50指数的50只样本股的走势。
2.影响上证50指数的关键因素具有很强的板块效应,企业性质、经营主业、地域特征和管理业绩相同或相近的股票走势高度相关,可归为同一关键因素。但同时个股的表现也同样突出,几乎每个板块中都有个别股票表现与众不同,这些特立独行的个股由于经营、资本运作等众多原因,走出了自己的特色,成为了市场不可或缺的亮点,对指数有着重要的贡献。
3.从个股对上证50指数关键因素的影响来看,如果一个关键因素所代表的样本股的个数少,则说明这些样本股更加具有代表性。相反,如果一个关键因素所代表的样本股的个数多,则说明这些样本股之间具有可替代性,也就是说,如果需要调整投资组合,就可以在代表多数样本股的因子中进行调整,这样不会影响投资组合的代表性。
4.如果要对上证50指数进行指数化投资,不需要投资于所有的50种样本股,只需要投资于19种关键因素中最有代表性的22只关键样本股即可,构造投资组合如下:Portfolio50=0.1267*((600028)+(600808)+(600688)+(600019))+0.0821*(600602)+0.0544*(600609)+0.0384*(600717)+0.0342*(600664)+0.0287*(600839)+0.0284*(600591)+0.0256*(600795)+0.0244*(600643)+0.0221*(600887)+0.0207*(600016)+0.0201*(600811)+0.0186*(600652)+0.0179*(600006)+0.0169*(600812)+0.0159*(600705)+0.0154*(600895)+0.0151*(600863)。检验结果表明,这22种具有代表性的关键样本股构造的投资组合Portfolio50的收益率基本上反映了上证50指数Index50的收益率,并且两者的风险处在同一水平上,即可以用投资组合Portfolio50来替代上证50指数进行指数化投资。另外,由于同一关键因素所代表的股票具有可替代性,使得投资组合Portfolio50的构造更加灵活,我们可以根据市场的具体情况对该投资组合Portfolio50进行调整,同时还不会影响它对指数的反映。
以上结论说明,我们从实证研究的角度验证了关键因素拟合指数化投资方法,即指数化投资不必完全复制股票指数,股票指数中存在关键因素,利用这些关键因素构造的投资组合可以拟合出相应的股票指数,用来进行指数化投资。这种方法能够适用于多种指数,并且操作灵活积极,基金经理可以同时结合其他的分析工具,根据市场的具体情况对拟合的投资组合进行调整,从而达到最佳的投资绩效。

阅读全文

与数据拟合股票相关的资料

热点内容
壁仞科技股票 浏览:317
股票前st是啥 浏览:643
002505股票历史数据 浏览:948
通达信股票行情软件的日线文件 浏览:571
协创数据股票主要业务 浏览:907
金发科技券股票 浏览:47
通达信软件键盘打不出股票 浏览:600
股票登录资金账户 浏览:966
怎样知道股票的涨幅 浏览:445
四月中国股票 浏览:27
st的股票会开板交易吗 浏览:26
实用的股票app 浏览:262
银河证券app怎么分析股票 浏览:16
股票红三兵k线怎么看的视频 浏览:818
股票资产里总资产有参考价值 浏览:588
600808股票资金流入 浏览:618
中国生产日用品的股票 浏览:901
众合科技股票趋势分析 浏览:522
股票投资用什么软件 浏览:811
股票账户被尖了怎么办 浏览:166