導航:首頁 > 行情中心 > 主成分分析股票走勢

主成分分析股票走勢

發布時間:2022-07-25 14:20:22

A. 主成分分析法 評價值能反映什麼

主成分分析法和層次分析法異同 1.基於相關性分析的指標篩選原理兩個指標之間的相關系數,反映了兩個指標之間的相關性。相關系數越大,兩個指標反映的信息相關性就越高。而為了使評價指標體系簡潔有效,就需要避免指標反映信息重復。通過計算同一準則層中各個評價指標之間的相關系數,刪除相關系數較大的指標,避免了評價指標所反映的信息重復。通過相關性分析,簡化了指標體系,保證了指標體系的簡潔有效。 2.基於主成分分析的指標篩選原理(1)因子載荷的原理通過對剩餘多個指標進行主成分分析,得到每個指標的因子載荷。因子載荷的絕對值小於等於1,而絕對值越是趨向於1,指標對評價結果越重要。(2)基於主成分分析的指標篩選原理因子載荷反映指標對評價結果的影響程度,因子載荷絕對值越大表示指標對評價結果越重要,越應該保留;反之,越應該刪除。通過對相關性分析篩選後的指標進行主成分分析,得到每個指標的因子載荷,從而刪除因子載荷小的指標,保證篩選出重要的指標。 3.相關性分析和主成分分析相同點一是,基於相關性分析的指標篩選和基於主成分分析的指標篩選,均是在准則層內進行指標的篩選處理,准則層之間不進行篩選。這種做法的原因是,通過人為地劃分不同准則層,反映評價事物不同層面的狀況,避免誤刪反應信息不同的重要指標。二是,基於相關性分析的指標篩選和基於主成分分析的指標篩選的思路,均是篩選出少量具有代表性的指標。 4.相關性分析和主成分分析不同點一是,兩次篩選的目的不同:基於相關性分析的指標篩選的目的是刪除反應信息冗餘的評價指標。基於主成分分析的指標篩選的目的是刪除對評價結果影響較小的評價指標。二是,兩次篩選的作用不同:基於相關性分析的指標篩選的作用是保證蹄選出的評價指標體系簡潔明快。基於主成分分析的指標簡選的目的是篩選出重要的指標。

B. 主成分分析法(PCA)

3.2.2.1 技術原理

主成分分析方法(PCA)是常用的數據降維方法,應用於多變數大樣本的統計分析當中,大量的統計數據能夠提供豐富的信息,利於進行規律探索,但同時增加了其他非主要因素的干擾和問題分析的復雜性,增加了工作量,影響分析結果的精確程度,因此利用主成分分析的降維方法,對所收集的資料作全面的分析,減少分析指標的同時,盡量減少原指標包含信息的損失,把多個變數(指標)化為少數幾個可以反映原來多個變數的大部分信息的綜合指標。

主成分分析法的建立,假設xi1,xi2,…,xim是i個樣品的m個原有變數,是均值為零、標准差為1的標准化變數,概化為p個綜合指標F1,F2,…,Fp,則主成分可由原始變數線性表示:

地下水型飲用水水源地保護與管理:以吳忠市金積水源地為例

計算主成分模型中的各個成分載荷。通過對主成分和成分載荷的數據處理產生主成分分析結論。

3.2.2.2 方法流程

1)首先對數據進行標准化,消除不同量綱對數據的影響,標准化可採用極值法

及標准差標准化法

,其中s=

(圖3.3);

圖3.3 方法流程圖

2)根據標准化數據求出方差矩陣;

3)求出共變數矩陣的特徵根和特徵變數,根據特徵根,確定主成分;

4)結合專業知識和各主成分所蘊藏的信息給予恰當的解釋,並充分運用其來判斷樣品的特性。

3.2.2.3 適用范圍

主成分分析不能作為一個模型來描述,它只是通常的變數變換,主成分分析中主成分的個數和變數個數p相同,是將主成分表示為原始變數的線性組合,它是將一組具有相關關系的變數變換為一組互不相關的變數。適用於對具有相關性的多指標進行降維,尋求主要影響因素的統計問題。

C. 在什麼情況下需要進行主成分分析

主成分分析(Principal Component Analysis,PCA), 將多個變數通過線性變換以選出較少個數重要變數的一種多元統計分析方法。又稱主分量分析。
在實際課題中,為了全面分析問題,往往提出很多與此有關的變數(或因素),因為每個變數都在不同程度上反映這個課題的某些信息。
主成分分析首先是由K.皮爾森對非隨機變數引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。

D. 什麼是擬合指數

擬合指數 Simulation Index/fit index/Agreement Index
擬合是《計量經濟學》研究的范疇,所謂擬合指數簡單的說就是選擇的變數與被解釋變數之間的相關關系
股票\基金擬合指數:

指數基金是一種擬合目標指數、跟蹤目標指數變化為原則,實現與市場同步成長的基金品種。指數基金的投資採取擬合目標指數收益率的投資策略,分散投資於目標指數的成分股,力求股票組合的收益率擬合該目標指數所代表的資本市場平均收益率。

操作簡單透明度高

從理論上講,指數基金的運作方法簡單,只要根據每一種證券在指數中所佔的比例購買相應比例的證券,長期持有就可。

其次,指數基金費用低廉。由於指數基金採取持有策略,不用經常換股,交易成本遠遠低於積極管理的基金。

此外,指數基金的業績透明度較高。投資人看到指數型基金跟蹤的目標基準指數漲了,就會知道自己投資的指數型基金今天凈值大約能升多少。所以很多機構投資人和一些看得清大勢、看不準個股的個人投資者比較喜歡投資指數型基金,不必再有「賺了指數不賺錢」的苦惱。

有效規避非系統性風險

與其他基金相比,指數基金的優點首先在於能夠有效規避非系統性風險,因而指數基金廣泛地分散投資,任何單個股票的波動都不會對指數基金的整體表現構成影響,從而分散風險。另一個方面,由於指數基金所釘住的指數一般都具有較長的歷史可以追蹤,在一定程度上指數基金的風險是可以預測的。

因此,從長期來看,指數基金投資業績優於其他基金。2006年,市場上的指數基金以平均125.87%的年累計凈值增長率成為最賺錢的基金品種。這種基金不會對某些特定的證券或行業投入過量資金。它一般會保持全額投資而不進行市場投機。

關鍵因素擬合指數化投資方法的實證研究

指數化投資是一種試圖完全復制某一證券價格指數或者按照證券價格指數編制原理構建投資組合而進行的證券投資。按此種方式投資的基金稱為指數基金,其收益水平目標是所基指數的變化幅度。自20世紀90年代以來,美國華爾街上大多數股票基金管理人的業績都低於同期市場指數的表現,這樣,以復制市場指數走勢為核心思想的指數基金在全球范圍內迅速發展壯大起來,並對傳統的證券投資思維形成巨大的沖擊與挑戰。在美國,指數基金的收益超過65~80%的共同基金,因而越來越受到歡迎。流入共同基金市場的新增資金中,流入指數基金的比例由1994年的2%增加到1999年的31%。1999年末美國指數基金總資金量達到3380億美元,佔全美股票基金總量的8.37%。最大的指數基金、也是全美最大的共同基金Vanguard S&P 500管理著1050億美元的資金。
我國的指數化投資出現較晚,這主要是因為我國的證券市場還比較年輕,還在不斷探索和發展,我國的投資者群體還不成熟,缺乏科學的投資觀念,市場行為的監管還欠完善,莊家炒作等非市場行為對股指有較大影響。由於這些原因的共同影響,我國股票指數常常與市場背離,不能反映市場的真實情況。
就指數化投資方法而言,市場上常用的方法主要是完全復制某一證券價格指數或者按照證券價格指數編制原理構建投資組合。這種傳統的指數化投資方法相對比較被動,在大盤正常運行的時候可以良好運作,但是當部分樣本股出現異常的快速上揚或急速下跌時,將失去進一步盈利和及時止損的機會。為了彌補這一不足,各種替代方法應運而生。
Francesco Corielli與Massimiliano Marcellino(2002)認為跟蹤指數是要建立指數的替代投資組合(replica),這個替代投資組合包含的股票要遠遠少於指數所包含的股票,並且跟蹤誤差中不包含非經常性成份,他們運用動態因子提取方法建立指數替代投資組合,用蒙特.卡羅經驗指數和EURO STOXX50指數進行了驗證。驗證結果令人鼓舞,替代投資組合基本完成了跟蹤曲線[7]。吳沖鋒(2000)運用未定因素含義法分析1998年7月8日至1999年3月29日期間上證30指數樣本股,得出由6隻股票的投資組合替代上證30指數的結論[6]。
從以上研究我們發現,指數化投資方法不一定非要按照證券價格指數編制原理構建投資組合,可以通過構建替代投資組合對指數進行跟蹤。在此基礎上,筆者提出關鍵因素擬合指數化投資方法,該方法認為,股票指數由其樣本股按照證券價格指數編制原理構成,它的走勢體現了這些樣本股的共同作用,但並不是每一隻樣本股對指數的貢獻都一樣,股票指數中存在關鍵性因素,這些關鍵因素對股指的影響體現在各自所代表的樣本股的表現之上。同樣,也並不是每一種關鍵因素所代表的樣本股對它的貢獻都一樣,關鍵因素中存在最具代表性的關鍵樣本股,正是這些最具代表性的關鍵樣本股對股票指數起著舉足輕重的作用,我們只要抓住了它們就抓住了股票指數,換句話說,我們只要投資於這些關鍵因素擬合的組合就等於投資了這個股票指數了。另外,同一關鍵因素中具有代表性的關鍵樣本股之間具有可替代性,可以使對股票指數的投資更加靈活,又不會影響投資組合的指數化性質,在一定程度上彌補了傳統方法的不足。
下面我們將以上證50指數為研究對象,對關鍵因素指數化投資方法進行實證研究。論文的結構安排如下:首先,我們進行研究設計,確定研究的程序、模型、樣本及數據;然後,我們對數據進行因子分析,提取出上證50指數的關鍵因素;在此基礎上,我們將按關鍵因素構造出的投資組合與實際的上證50指數進行相關性檢驗和回歸分析以驗證該方法;最後得出結論。
研究設計

一、 研究程序與模型設計
第一步,我們要找出影響上證50指數走勢的關鍵性因素。
我們以上證50指數成份股個股的日收益率為基礎進行因子分析,提取出反映上證50指數走勢的n個共同因子,這n個共同因子即代表了影響上證50指數走勢的n個關鍵因素的。構造多因素模型如下:
Index50=A1*F1+A2*F2+……+An*Fn+ε
式中:Index50為上證50指數;Fn為第n個共同因子;An為第n個共同因子對上證50指數的貢獻率;ε為殘差。
在找出這n個關鍵因素之後,我們要進一步找出這n種關鍵性的共同因子所代表的樣本股。對應關系如下:
F1~a1(stock11)+a2(stock12)+……
F2~b1(stock21)+b2(stock22)+……
…………………………………
Fn~n1(stockn1)+n2(stockn2)+……
式中:Fn為第n個共同因子;stock為共同因子所代表的樣本股;a、b……n為樣本股對共同因子的貢獻率,即因子負荷。
觀察共同因子的因子負荷強弱,我們可以分析判斷出各個共同因子所反映的關鍵因素,並對它們進行相應的解釋。
第二步,為了證明我們找出的這n個關鍵因素是否真的能夠反映上證50指數的走勢。我們用它們中最具代表性的一組樣本股構造出一個投資組合Portfolio50,與上證50指數Index50進行比較,驗證是否Portfolio50與Index50等價。
為此,我們找出對這n個關鍵因素最有代表性的i個樣本股,按照其方差對總方差解釋的貢獻率所佔比重作為權重構造投資組合如下:
Portfolio50=w1*STOCK1+w2*STOCK2+……+wi*STOCKi
式中:Portfolio50為構造的投資組合的日收益率;STOCKi為參與構造投資組合的第i個最有代表性的樣本股的日收益率;wi為第i只樣本股的權重。
計算出投資組合Portfolio50的日收益率和上證50指數的日收益率Index50,在通過相關性檢驗之後,將Portfolio50與Index50進行線性回歸分析。構造回歸模型如下:
Portfolio50=a+b*(Index50)+ε
式中:Portfolio50為構造的投資組合的日收益率;Index50為上證50指數的日收益率;a為常數項;b為回歸系數;ε為殘差。
如果該模型經檢驗成立,並且a趨近於0,同時b趨近於1,那麼Portfolio50≈Index50,即Portfolio50與Index50等價,說明我們找出的這n各關鍵性因素能夠真實地反映上證50指數的走勢,Portfolio50可以代替上證50指數進行指數化投資。
二、 模型變數計算
上證50指數成份股個股日收益率用相對收益率計算,假如碰到配股、送股、送現金紅利的情況,則用下面的公式計算:

式中:rit為第i種股票的第t日收益率;Pt、Pt-1分別為t日和t-1日的收盤價;C為以t-1日為基準的t日每股現金紅利;As為以t-1日為基準的t日每股配股比例;S為以t-1日為基準的t日每股配股價;Ad為以t-1日為基準的t日每股送股比例。
上證50指數日收益率Index50同樣用相對收益率計算,公式如下:

式中:Rt為上證50指數的第t日收益率;Pt、Pt-1分別為上證50指數t日和t-1日的收盤價。
三、 研究樣本選擇
本文研究中所需的上證50指數收盤價、成份股個股的收盤價、現金紅利等原始交易數據來源於上海萬國股市測評咨詢有限公司製作的「大智慧證券信息平台V5.00」。
因子分析過程中,樣本數據時期為2002年12月03日至2004年03月18日,每隻樣本股包含309條數據記錄。由於各種原因引起暫時停牌而產生的缺失值採用相鄰數據平均法填補。
考慮到個別新上市公司樣本股上市日期太短,樣本數據數量不充分,業績容易出現非正常波動,而且公司內部各方面的運行機制還不夠健全和完善,為使檢驗不受少部分數據干擾,將其剔出樣本股,在關鍵因素確立之後再根據專業知識單獨判斷其屬性。剔出樣本股共五隻,分別為:白雲機場(600004)、華夏銀行(600015)、南方航空(600029)、中信證券(600030)和長江電力(600900)。
綜上,因子分析樣本股中共納入45隻上證50指數樣本股,每隻含309條日收益率記錄,共計309組,13905條日收益率記錄。
相關性檢驗與回歸分析過程中,由於上證50指數自2004年1月2日起正式發布,指數簡稱上證50,指數代碼000016,基日為2003年12月31日。到目前為止數據量太小,所以我們無法直接用它計算。但是上海證券交易所為上證50的順利推出,於2003年1月2日起發布上證50板塊概念指數993265。其編制方法與走勢和上證50基本相同,只是所取的基數有所不同。在此我們用上證50板塊概念指數993265數據代替上證50指數000016數據進行計算。計算的時間跨度為前面分析時期的子集區間2003年07月22日至2004年03月12日,同樣,缺失值的處理方法採用相鄰數據平均數填補法,共計155組數據。

因子分析

表1 KMO統計量和Bartlett』s球形檢驗表
Kaiser-Meyer-Olkin Measure of Sampling Adequacy. .958
Bartlett's Test of Sphericity Approx. Chi-Square 9857.426
df 990
Sig. .000
首先,我們對各樣本股日收益率數據採用KMO統計量和Bartlett』s球形檢驗,以判斷樣本數據是否符合因子分析的前提條件。可以看出,表格中檢驗變數間偏相關性的KMO統計量,數值為0.958,接近1,表明各變數間的相關程度無太大差異,數據非常適合做因子分析。同時,Bartlett』s球形假設檢驗的結果也被拒絕,強烈認可了變數之間的相關性,說明各樣本股日收益率之間存在共同信息,符合提取共同因子的前提條件。見表1。
本文採用的因子提取方法為主成分分析法(Principal Components Analysis)。考慮到共同因子的可解釋性,在提取因子的過程中採用正交旋轉,具體旋轉方法為方差最大化正交旋轉(Varimax)。根據提取的主成分共同因子的累積貢獻率達到約85%以上為標准,一共提取20個共同因子。信息提取的充分性檢驗表(略)告訴我們,按照上訴共同因子提取標准,樣本股信息的提取基本是充分的。
表2 共同因子所解釋的方差百分比表
Factor F1 F2 F3 F4 F5 F6 F7 F8 F9 F10
%of Variance 42.311 6.849 4.540 3.208 2.395 2.856 2.367 2.133 2.035 1.844
Cumulative% 42.311 49.160 53.700 56.908 59.764 62.158 64.525 66.658 68.693 70.537
Factor F11 F12 F13 F14 F15 F16 F17 F18 F19 F20
%of Variance 1.728 1.674 1.553 1.491 1.410 1.324 1.286 1.261 1.201 1.154
Cumulative% 72.265 73.939 75.491 76.982 78.392 79.716 81.002 82.263 83.464 84.618
我們把共同因子所解釋的方差百分比(表2)作為因子對指數所貢獻的權重,相應的多因素模型如下:
Index50=0.4231*F1+0.0685*F2+0.0454*F3+0.0321*F4+0.0286*F5+0.0239*F6+0.0237*F7+0.0213*F8+0.0204*F9+0.0184*F10+0.0173*F11+0.0167*F12+0.0155*F13+0.0149*F14+0.0141*F15+0.0132*F16+0.0129*F17+0.0126*F18+0.0120*F19+0.0115*F20+ε
經過方差最大化正交旋轉之後,將因子和變數之間因子負荷大於0.4的變數提出來,再根據同一樣本股對共同因子的貢獻大小取相對較大的值。我們得到以下20個共同因子所主要代表的樣本股列表,見表3。

表4 共同因子代表樣本股列表
F1 600028 中國石化 F5 600664 哈葯集團
600808 馬鋼股份 600038 哈飛股份
600688 上海石化 F6 600839 四川長虹
600019 寶鋼股份 600033 福建高速
600026 中海發展 600008 首創股份
600569 安陽鋼鐵 F7 600591 上海航空
600050 中國聯通 600221 海南航空
600036 招商銀行 F8 600795 國電電力
600350 山東基建 600011 華能國際
600649 原水股份 600642 申能股份
600000 浦發銀行 F9 600643 愛建股份
F2 600602 廣電電子 F10 600887 伊利股份
600832 東方明珠 600597 光明乳業
600637 廣電信息 F11 600016 民生銀行
600100 清華同方 F12 600811 東方集團
600171 上海貝嶺 F13 600652 愛使股份
600601 方正科技 F14 600006 東風汽車
F3 600609 金杯汽車 F15 600812 華北制葯
600805 悅達投資 F16 600705 北亞集團
600104 上海汽車 F17 600895 張江高科
F4 600717 天津港 F18 600863 內蒙華電
600018 上港集箱 F19 600098 廣州控股
600009 上海機場 F20 - -
各個共同因子與樣本股的因子負荷對應關系如下:
F1~0.84(600028)+0.84(600808)+0.83(600688)+0.82(600019)+0.65(600026)+0.61(600569)+0.61(600050)+0.55(600036)+0.53(600350)+0.46(600649)+0.45(600000)
F2~0.88(600602)+0.86(600832)+0.85(600637)+0.78(600100)+0.69(600171)+0.49(600601)
F3~0.81(600609)+0.75(600805)+0.63(600104)
F4~0.76(600717)+0.67(600018)+0.46(600009)
F5~0.88(600664)+0.85(600038)
F6~0.66(600839)+0.49(600033)+0.46(600008)
F7~0.72(600591)+0.67(600221)
F8~0.56(600795)+0.55(600011)+0.52(600642)
F9~0.83(600643)
F10~0.75(600887)+0.40(600597)
F11~0.80(600016)
F12~0.81(600811)
F13~0.81(600652)
F14~0.97(600006)
F15~0.80(600812)
F16~0.77(600705)
F17~0.78(600895)
F18~0.75(600863)
F19~0.52(600098)
F20~----------------
觀察共同因子代表樣本股列表與因子負荷對應關系,我們可以分析判斷出各個共同因子所反映的關鍵因素如下:
F1對應的樣本股分別為:600028中國石化、600808馬鋼股份、600688上海石化、600019寶鋼股份、600026中海發展、600569安陽鋼鐵、600050中國聯通、600036招商銀行、600350山東基建、600649原水股份、600000浦發銀行,這些都是廣大股民所熟知的經營業績優秀,凈資產收益率很高的大盤藍籌股,其中也包含了幾只銀行股,可以說是大盤中的大盤,藍籌中的藍籌,我們可以定義因子F1為「大盤深藍股」。
F2對應的樣本股分別為:600602廣電電子、600832東方明珠、600637廣電信息、600100清華同方、600171上海貝嶺、600601方正科技,這幾只股票是高科技行業的傑出代表,主營計算機、微電子和信息產業,具有高成長性,我們可以定義因子F2為「高科技成長股」。
F3對應的樣本股分別為:600609金杯汽車、600805悅達投資、600104上海汽車,屬於典型的汽車類股票,隨著近幾年汽車行業的崛起,業績呈現穩步增長,我們可以定義因子F3為「汽車藍籌股」。
F4對應的樣本股分別為:600717天津港、600018上港集箱、600009上海機場,與水陸空港口物流和運輸有密切關系,我們可以定義因子F4為「港口物流股」。
F5對應的樣本股分別為:600664哈葯集團、600038哈飛股份,具有明顯的地域色彩,觸摸到東北老工業基地的發展脈搏,我們可以定義因子F5為「東北老工業股」。
F6對應的樣本股分別為:600839四川長虹、600033福建高速、600008首創股份,其中600033福建高速、600008首創股份主要是經營公益事業和基礎設施,我們可以定義因子F6為「基礎公益股」。但600839四川長虹的主營是電視機、空調等家用電器產品,業績彪炳,被歸於此類可以算是因統計之外原因引起的一個例外。
F7對應的樣本股分別為:600591上海航空、600221海南航空,國內航空運輸業的兩只優質股票,我們可以定義因子F7為「航空運輸股」。
F8對應的樣本股分別為:600795國電電力、600011華能國際、600642申能股份,顯然代表電力能源,我們可以定義因子F8為「電力能源股」。
F9對應的樣本股為:600643愛建股份,是上證50成份股中的非銀行類金融股,我們可以定義因子F9為「非銀行金融股」。
F10對應的樣本股分別為:600887伊利股份、600597光明乳業,皆為乳品業龍頭,乳業產品的消費與老百姓日常生活息息相關,其業績從一定角度上也體現了老百姓生活的富裕程度,我們可以定義因子F10為「乳品消費股」。
F11對應的樣本股為:600016民生銀行,銀行類股票。F12對應的樣本股為:600811東方集團,一隻綜合類股票,涉獵金融、電子商務、建材、通訊等領域。F13對應的樣本股為:600652愛使股份,主營計算機硬體及網路設備。F14對應的樣本股為:600006東風汽車,汽車行業股票。F15對應的樣本股為:600812華北制葯,醫葯化工產品的生產和銷售。F16對應的樣本股為:600705北亞集團,主營運輸物流及貿易。F17對應的樣本股為:600895張江高科,房地產類個股。F18對應的樣本股為:600863內蒙華電,主營活力發電、供熱。F19對應的樣本股為:600098廣州控股,從事能源、物流、基礎設施等綜合類股票。這些因子所代表的個股具有很強的針對性,雖然有些個股可以歸結為前面幾種共同因子,但從統計學角度來說,應單獨列出,以保證對原始信息的完整反映。F20對應的樣本股因子負荷均小於0.4,說明其可解釋性很小,體現的樣本股散亂,從專業的角度看沒有分析價值,故此將它剔出。
對於白雲機場(600004)、華夏銀行 (600015)、南方航空(600029)、中信證券(600030)和長江電力(600900)這五隻由於上市時間不長而被剔出的個股,我們可以運用專業知識將其歸類,並在今後的分析中予以驗證。白雲機場(600004)主營空港物流,可歸為F4;華夏銀行(600015)屬於銀行股,可歸為F11;南方航空(600029)主營航空運輸業,可歸為F7;中信證券(600030)為非銀行金融股,可歸為F9和長江電力(600900)主營電力能源,可歸為F8。
綜上所述,通過對上證50指數成份股個股的日收益率數據因子分析,我們提取出有實際意義的F1~F19這19個共同因子,代表了影響上證50指數走勢的19個關鍵因素。構造多因素模型如下:
Index50=0.4231*F1+0.0685*F2+0.0454*F3+0.0321*F4+0.0286*F5+0.0239*F6+0.0237*F7+0.0213*F8+0.0204*F9+0.0184*F10+0.0173*F11+0.0167*F12+0.0155*F13+0.0149*F14+0.0141*F15+0.0132*F16+0.0129*F17+0.0126*F18+0.0120*F19 +ε

相關性檢驗與回歸分析
我們將因子分析中提取的19種共同因子中有代表性的樣本股加權組合構造出一個投資組合Portfolio50,每個樣本股的權重就等於每種共同因子所解釋的方差百分比在累積百分比之中所佔的比重。比如:共同因子F1的權重等於(42.311/83.464=0.5069)。考慮到F1因子所代表的股票較多,且權重比例較大,故選入排名前四位的4隻股票,每隻股票權重取F1因子權重的四分之一,共計22隻樣本股。
構造投資組合如下:
Portfolio50=0.1267*((600028)+(600808)+(600688)+(600019))+0.0821*(600602)+0.0544*(600609)+0.0384*(600717)+0.0342*(600664)+0.0287*(600839)+0.0284*(600591)+0.0256*(600795)+0.0244*(600643)+0.0221*(600887)+0.0207*(600016)+0.0201*(600811)+0.0186*(600652)+0.0179*(600006)+0.0169*(600812)+0.0159*(600705)+0.0154*(600895)+0.0151*(600863)
Portfolio50與Index50相關性檢驗表(略)顯示,Portfolio50與Index50的相關系數在0.01置信水平下為0.943,說明Portfolio50與Index50高度相關。
表4 回歸模型與檢驗結果表
Model Sum of Squares df Mean Square F Sig.
1 Regression .025 1 .025 1238.863 .000
Resial .003 153 .000
Total .028 154

表5 回歸系數與檢驗結果表
Model Unstandardized Coefficients Standardized Coefficients t Sig. Correlations
B Std. Error Beta Zero-order Partial Part
1 (Constant) 7.235E-04 .000 2.004 .047
INDEX50 1.021 .029 .943 35.197 .000 .943 .943 .943
從回歸模型與檢驗結果(表4)我們可以看出該回歸模型具有明顯的統計學意義。從回歸系數與檢驗結果(表5)我們可以看出該回歸模型系數b具有明顯的統計學意義,且b值為1.021。對於常數項的檢驗雖然沒有統計學意義,但這無關緊要,出於常識,我們一般都將其保留在方程中,a值為0.0007235。
據此我們可以構建回歸模型如下:
Portfolio50=0.0007235+1.021*(Index50)
式中:常數項a=0.0007235,非常接近於0,回歸系數b=1.021,也同樣接近於1。所以我們可以認為Portfolio50≈Index50。
最後,我們進行回歸模型擬合效力評價分析(過程略)。由擬合模型的擬合優度簡報和Durbin-Watson統計量我們可以得出確定系數R2為0.89,校正的確定系數Adjusted R2為0.889,說明該模型擬合效果顯著。Durbin-Watson統計量為1.786,取值在2附近。可見殘差間沒有明顯的相關性。為了進一步分析模型的正態性,即的殘差ε是否服從正態分布,我們做出殘差分布直方圖和正態PP圖(見圖1、圖2)。可見,該模型殘差基本服從正態分布。

圖1 殘差分布直方圖 圖2 殘差的正態PP圖

結論

根據以上實證研究,我們得出如下結論:
1.在2002年12月3日至2004年3月18日期間,上證50指數的50種樣本股的收益率受到19種關鍵因素的影響。這19種關鍵因素中最有代表性的是600028中國石化、600602廣電電子等22隻樣本股。從另外一個角度看,這22隻樣本股的總體走勢基本上反映了上證50指數的50隻樣本股的走勢。
2.影響上證50指數的關鍵因素具有很強的板塊效應,企業性質、經營主業、地域特徵和管理業績相同或相近的股票走勢高度相關,可歸為同一關鍵因素。但同時個股的表現也同樣突出,幾乎每個板塊中都有個別股票表現與眾不同,這些特立獨行的個股由於經營、資本運作等眾多原因,走出了自己的特色,成為了市場不可或缺的亮點,對指數有著重要的貢獻。
3.從個股對上證50指數關鍵因素的影響來看,如果一個關鍵因素所代表的樣本股的個數少,則說明這些樣本股更加具有代表性。相反,如果一個關鍵因素所代表的樣本股的個數多,則說明這些樣本股之間具有可替代性,也就是說,如果需要調整投資組合,就可以在代表多數樣本股的因子中進行調整,這樣不會影響投資組合的代表性。
4.如果要對上證50指數進行指數化投資,不需要投資於所有的50種樣本股,只需要投資於19種關鍵因素中最有代表性的22隻關鍵樣本股即可,構造投資組合如下:Portfolio50=0.1267*((600028)+(600808)+(600688)+(600019))+0.0821*(600602)+0.0544*(600609)+0.0384*(600717)+0.0342*(600664)+0.0287*(600839)+0.0284*(600591)+0.0256*(600795)+0.0244*(600643)+0.0221*(600887)+0.0207*(600016)+0.0201*(600811)+0.0186*(600652)+0.0179*(600006)+0.0169*(600812)+0.0159*(600705)+0.0154*(600895)+0.0151*(600863)。檢驗結果表明,這22種具有代表性的關鍵樣本股構造的投資組合Portfolio50的收益率基本上反映了上證50指數Index50的收益率,並且兩者的風險處在同一水平上,即可以用投資組合Portfolio50來替代上證50指數進行指數化投資。另外,由於同一關鍵因素所代表的股票具有可替代性,使得投資組合Portfolio50的構造更加靈活,我們可以根據市場的具體情況對該投資組合Portfolio50進行調整,同時還不會影響它對指數的反映。
以上結論說明,我們從實證研究的角度驗證了關鍵因素擬合指數化投資方法,即指數化投資不必完全復制股票指數,股票指數中存在關鍵因素,利用這些關鍵因素構造的投資組合可以擬合出相應的股票指數,用來進行指數化投資。這種方法能夠適用於多種指數,並且操作靈活積極,基金經理可以同時結合其他的分析工具,根據市場的具體情況對擬合的投資組合進行調整,從而達到最佳的投資績效。

E. 主成分分析的內容

主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。
主成分分析,是考察多個變數間相關性一種多元統計方法,研究如何通過少數幾個主成分來揭示多個變數間的內部結構,即從原始變數中導出少數幾個主成分,使它們盡可能多地保留原始變數的信息,且彼此間互不相關.通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。
最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現在F2中,用數學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。 Fp = a1i*ZX1 + a2i*ZX2 + …… + api*ZXp
其中a1i, a2i, ……,api(i=1,……,m)為X的協方差陣Σ的特徵值所對應的特徵向量,ZX1, ZX2, ……, ZXp是原始變數經過標准化處理的值,因為在實際應用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數據標准化,本文所採用的數據就存在量綱影響[註:本文指的數據標准化是指Z標准化。
A = (aij)p×m = (a1,a2,…am,), Rai = λiai,
R為相關系數矩陣,λi、ai是相應的特徵值和單位特徵向量, λ1 ≥ λ2 ≥ …≥ λp ≥ 0 。
進行主成分分析主要步驟如下:
1. 指標數據標准化(SPSS軟體自動執行);
2. 指標之間的相關性判定;
3. 確定主成分個數m;
4. 主成分Fi表達式;
5. 主成分Fi命名;

F. 主成分分析結果怎麼看

一般要讀KMO、碎石圖、累計解釋率、共同度、因子最大正交旋轉後的rotate圖

G. 主成分分析有什麼用

主成分分析最主要的用途在於「降維」。
舉個例子,你要做一項分析,選中了20個指標,你覺得都很重要,但是20個指標對於你的分析確實太過繁瑣,這時候,你就可以採用主成分分析的方法進行降維。
20個指標之間會有這樣那樣的相互關系,相互之間會有影響,通過主成分分析後,得到4個或者5個主成分指標。此時,這幾個主成分指標既涵蓋了你20個指標中的絕大部分信息,又讓你的分析得到了簡化(從20維降到4、5維),簡化了分析過程,增加了結果精度。

H. 主成分分析法

在對災毀土地復墾效益進行分析時,會碰到眾多因素,各因素間又相互關聯,將這些存在相關關系的因素通過數學方法綜合成少數幾個最終參評因素,使這幾個新的因素既包含原來因素的信息又相互獨立。簡化問題並抓住其本質是分析過程中的關鍵,主成分分析法可以解決這個難題。

(一)主成分分析的基本原理

主成分分析法(Principal Components Analysis,PCA)是把原來多個變數化為少數幾個綜合指標的一種統計分析方法。從數學角度來看,這是一種降維處理方法,即通過對原始指標相關矩陣內部結果關系的研究,將原來指標重新組合成一組新的相互獨立的指標,並從中選取幾個綜合指標來反映原始指標的信息。假定有n個評價單元,每個評價單元用m個因素來描述,這樣就構成一個n×m階數據矩陣:

災害損毀土地復墾

如果記m個因素為 x1,x2,…,xm,它們的綜合因素為 z1,z2,…,zp(p≤m),則:

災害損毀土地復墾

系數lij由下列原則來決定:

(1)zi與zj(i≠j,i,j=1,2,…,p)相互無關;

(2)z1是x1,x2,…,xm的一切線性組合中方差最大者,依此類推。

依據該原則確定的綜合變數指標z1,z2,…,zp分別稱為原始指標的第1、第2、…、第p個主成分,分析時可只挑選前幾個方差最大的主成分。

(二)主成分分析法的步驟

(1)將原始數據進行標准化處理,以消除原始數據在數量級或量綱上的差異。

(2)計算標准化的相關數據矩陣:

災害損毀土地復墾

(3)用雅克比法求相關系數矩陣R的特徵值(λ1,λ2,…,λp)和與之相對應的特徵向量 αi=(αi1,αi2,…,αip),i=1,2,…,p。

(4)選擇重要的主成分,並寫出其表達式。

主成分分析可以得到P個主成分,但是由於各個主成分的方差與其包含的信息量皆是遞減的,所以在實際分析時,一般不選取P個主成分,而是根據各個主成分所累計的貢獻率的大小來選取前K個主成分,這里的貢獻率是指某個主成分的方差在全部方差中所佔的比重,實際上也是某個特徵值在全部特徵值合計中所佔的比重。即:

災害損毀土地復墾

這說明,主成分所包含的原始變數的信息越強,貢獻率也就越大。主成分的累計貢獻率決定了主成分個數K的選取情況,為了保證綜合變數能包括原始變數的絕大多數信息,一般要求累計貢獻率達到85%以上。

另外,在實際應用過程中,選擇主成分之後,還要注意主成分實際含義的解釋。如何給主成分賦予新的含義,給出合理的解釋是主成分分析中一個相當關鍵的問題。一般來說,這個解釋需要根據主成分表達式的系數而定,並與定性分析來進行有效結合。主成分是原來變數的線性組合,在這個線性組合中各變數的系數有正有負、有大有小,有的又大小相當,因此不能簡單地把這個主成分看作是某個原變數的屬性作用。線性組合中各變數系數的絕對值越大表明該主成分主要包含了該變數;如果有幾個大小相當的變數系數時,則認為這一主成分是這幾個變數的綜合,而這幾個變數綜合在一起具有什麼樣的實際意義,就需要結合具體的問題和專業,給出合理的解釋,進而才能達到准確分析的目的。

(5)計算主成分得分。根據標准化的原始數據,將各個樣品分別代入主成分表達式,就可以得到各主成分下的各個樣品的新數據,即為主成分得分。具體形式可如下:

災害損毀土地復墾

(6)依據主成分得分的數據,則可以進行進一步的統計分析。其中,常見的應用有主成分回歸,變數子集合的選擇,綜合評價等。

(三)主成分分析法的評價

通過主成分分析法來評價復墾產生的效益,可將多個指標轉化成盡可能少的綜合性指標,使綜合指標間互不相干,既減少了原指標信息的重疊度,又不丟失原指標信息的總含量。該方法不僅將多個指標轉化成綜合性指標,而且也能對每個主成分的影響因素進行分析,從而判別出影響整個評價體系的關鍵因素,並且主成分分析法在確定權重時可以科學地賦值,以避免主觀因素的影響。

需要注意的是,主成分分析法雖然可以對每個主成分的權重進行科學、定量的計算,避免人為因素及主觀因素的影響,但是有時候賦權的結果可能與客觀實際有一定誤差。因此,利用主成分分析法確定權重後,再結合不同專家給的權重,是最好的解決辦法。這樣可以在定量的基礎上作出定性的分析,通過一定的數理方法將兩種數據結合起來考慮。

I. 主成分分析數據怎麼找

主成分分析的主要目的就是:減少決策變數的數目,也就是降維,另一個目的是防範多重共線性。
主成分分析包含以下流程:1.原始數據標准化。2.計算標准化變數間的相關系數矩陣。3.計算相關系數矩陣的特徵值和特徵向量。4.計算主成分變數值。5.統計結果分析,提取所需的主成分。

閱讀全文

與主成分分析股票走勢相關的資料

熱點內容
股票模擬軟體自定義數據 瀏覽:128
股票場內總資產 瀏覽:482
粵高速股票投資價值分析報告 瀏覽:932
股票頻繁交易怎麼賺錢 瀏覽:530
委託別人操作股票賬戶合法嗎 瀏覽:716
信用賬戶交易股票 瀏覽:197
吉林化纖股票2020走勢 瀏覽:859
股票分時走勢買賣點 瀏覽:848
股票賬戶資金賬戶一碼通 瀏覽:558
基金和股票是一個賬戶嗎 瀏覽:313
大灣區投資控股的股票行情 瀏覽:561
銀行股票手機號碼 瀏覽:634
被st股票名單 瀏覽:875
長城汽車股票下周走勢 瀏覽:782
股票重組一定變ST嗎 瀏覽:562
股票會不會受到疫情的影響 瀏覽:934
股票商湯科技董事長 瀏覽:593
股票資金凈流出還漲 瀏覽:869
中播控股的股票市值最新排名 瀏覽:223
新城控股香港股票行情 瀏覽:181