『壹』 什麼是擬合指數
擬合指數 Simulation Index/fit index/Agreement Index
擬合是《計量經濟學》研究的范疇,所謂擬合指數簡單的說就是選擇的變數與被解釋變數之間的相關關系
股票\基金擬合指數:
指數基金是一種擬合目標指數、跟蹤目標指數變化為原則,實現與市場同步成長的基金品種。指數基金的投資採取擬合目標指數收益率的投資策略,分散投資於目標指數的成分股,力求股票組合的收益率擬合該目標指數所代表的資本市場平均收益率。
操作簡單透明度高
從理論上講,指數基金的運作方法簡單,只要根據每一種證券在指數中所佔的比例購買相應比例的證券,長期持有就可。
其次,指數基金費用低廉。由於指數基金採取持有策略,不用經常換股,交易成本遠遠低於積極管理的基金。
此外,指數基金的業績透明度較高。投資人看到指數型基金跟蹤的目標基準指數漲了,就會知道自己投資的指數型基金今天凈值大約能升多少。所以很多機構投資人和一些看得清大勢、看不準個股的個人投資者比較喜歡投資指數型基金,不必再有「賺了指數不賺錢」的苦惱。
有效規避非系統性風險
與其他基金相比,指數基金的優點首先在於能夠有效規避非系統性風險,因而指數基金廣泛地分散投資,任何單個股票的波動都不會對指數基金的整體表現構成影響,從而分散風險。另一個方面,由於指數基金所釘住的指數一般都具有較長的歷史可以追蹤,在一定程度上指數基金的風險是可以預測的。
因此,從長期來看,指數基金投資業績優於其他基金。2006年,市場上的指數基金以平均125.87%的年累計凈值增長率成為最賺錢的基金品種。這種基金不會對某些特定的證券或行業投入過量資金。它一般會保持全額投資而不進行市場投機。
關鍵因素擬合指數化投資方法的實證研究
指數化投資是一種試圖完全復制某一證券價格指數或者按照證券價格指數編制原理構建投資組合而進行的證券投資。按此種方式投資的基金稱為指數基金,其收益水平目標是所基指數的變化幅度。自20世紀90年代以來,美國華爾街上大多數股票基金管理人的業績都低於同期市場指數的表現,這樣,以復制市場指數走勢為核心思想的指數基金在全球范圍內迅速發展壯大起來,並對傳統的證券投資思維形成巨大的沖擊與挑戰。在美國,指數基金的收益超過65~80%的共同基金,因而越來越受到歡迎。流入共同基金市場的新增資金中,流入指數基金的比例由1994年的2%增加到1999年的31%。1999年末美國指數基金總資金量達到3380億美元,佔全美股票基金總量的8.37%。最大的指數基金、也是全美最大的共同基金Vanguard S&P 500管理著1050億美元的資金。
我國的指數化投資出現較晚,這主要是因為我國的證券市場還比較年輕,還在不斷探索和發展,我國的投資者群體還不成熟,缺乏科學的投資觀念,市場行為的監管還欠完善,莊家炒作等非市場行為對股指有較大影響。由於這些原因的共同影響,我國股票指數常常與市場背離,不能反映市場的真實情況。
就指數化投資方法而言,市場上常用的方法主要是完全復制某一證券價格指數或者按照證券價格指數編制原理構建投資組合。這種傳統的指數化投資方法相對比較被動,在大盤正常運行的時候可以良好運作,但是當部分樣本股出現異常的快速上揚或急速下跌時,將失去進一步盈利和及時止損的機會。為了彌補這一不足,各種替代方法應運而生。
Francesco Corielli與Massimiliano Marcellino(2002)認為跟蹤指數是要建立指數的替代投資組合(replica),這個替代投資組合包含的股票要遠遠少於指數所包含的股票,並且跟蹤誤差中不包含非經常性成份,他們運用動態因子提取方法建立指數替代投資組合,用蒙特.卡羅經驗指數和EURO STOXX50指數進行了驗證。驗證結果令人鼓舞,替代投資組合基本完成了跟蹤曲線[7]。吳沖鋒(2000)運用未定因素含義法分析1998年7月8日至1999年3月29日期間上證30指數樣本股,得出由6隻股票的投資組合替代上證30指數的結論[6]。
從以上研究我們發現,指數化投資方法不一定非要按照證券價格指數編制原理構建投資組合,可以通過構建替代投資組合對指數進行跟蹤。在此基礎上,筆者提出關鍵因素擬合指數化投資方法,該方法認為,股票指數由其樣本股按照證券價格指數編制原理構成,它的走勢體現了這些樣本股的共同作用,但並不是每一隻樣本股對指數的貢獻都一樣,股票指數中存在關鍵性因素,這些關鍵因素對股指的影響體現在各自所代表的樣本股的表現之上。同樣,也並不是每一種關鍵因素所代表的樣本股對它的貢獻都一樣,關鍵因素中存在最具代表性的關鍵樣本股,正是這些最具代表性的關鍵樣本股對股票指數起著舉足輕重的作用,我們只要抓住了它們就抓住了股票指數,換句話說,我們只要投資於這些關鍵因素擬合的組合就等於投資了這個股票指數了。另外,同一關鍵因素中具有代表性的關鍵樣本股之間具有可替代性,可以使對股票指數的投資更加靈活,又不會影響投資組合的指數化性質,在一定程度上彌補了傳統方法的不足。
下面我們將以上證50指數為研究對象,對關鍵因素指數化投資方法進行實證研究。論文的結構安排如下:首先,我們進行研究設計,確定研究的程序、模型、樣本及數據;然後,我們對數據進行因子分析,提取出上證50指數的關鍵因素;在此基礎上,我們將按關鍵因素構造出的投資組合與實際的上證50指數進行相關性檢驗和回歸分析以驗證該方法;最後得出結論。
研究設計
一、 研究程序與模型設計
第一步,我們要找出影響上證50指數走勢的關鍵性因素。
我們以上證50指數成份股個股的日收益率為基礎進行因子分析,提取出反映上證50指數走勢的n個共同因子,這n個共同因子即代表了影響上證50指數走勢的n個關鍵因素的。構造多因素模型如下:
Index50=A1*F1+A2*F2+……+An*Fn+ε
式中:Index50為上證50指數;Fn為第n個共同因子;An為第n個共同因子對上證50指數的貢獻率;ε為殘差。
在找出這n個關鍵因素之後,我們要進一步找出這n種關鍵性的共同因子所代表的樣本股。對應關系如下:
F1~a1(stock11)+a2(stock12)+……
F2~b1(stock21)+b2(stock22)+……
…………………………………
Fn~n1(stockn1)+n2(stockn2)+……
式中:Fn為第n個共同因子;stock為共同因子所代表的樣本股;a、b……n為樣本股對共同因子的貢獻率,即因子負荷。
觀察共同因子的因子負荷強弱,我們可以分析判斷出各個共同因子所反映的關鍵因素,並對它們進行相應的解釋。
第二步,為了證明我們找出的這n個關鍵因素是否真的能夠反映上證50指數的走勢。我們用它們中最具代表性的一組樣本股構造出一個投資組合Portfolio50,與上證50指數Index50進行比較,驗證是否Portfolio50與Index50等價。
為此,我們找出對這n個關鍵因素最有代表性的i個樣本股,按照其方差對總方差解釋的貢獻率所佔比重作為權重構造投資組合如下:
Portfolio50=w1*STOCK1+w2*STOCK2+……+wi*STOCKi
式中:Portfolio50為構造的投資組合的日收益率;STOCKi為參與構造投資組合的第i個最有代表性的樣本股的日收益率;wi為第i只樣本股的權重。
計算出投資組合Portfolio50的日收益率和上證50指數的日收益率Index50,在通過相關性檢驗之後,將Portfolio50與Index50進行線性回歸分析。構造回歸模型如下:
Portfolio50=a+b*(Index50)+ε
式中:Portfolio50為構造的投資組合的日收益率;Index50為上證50指數的日收益率;a為常數項;b為回歸系數;ε為殘差。
如果該模型經檢驗成立,並且a趨近於0,同時b趨近於1,那麼Portfolio50≈Index50,即Portfolio50與Index50等價,說明我們找出的這n各關鍵性因素能夠真實地反映上證50指數的走勢,Portfolio50可以代替上證50指數進行指數化投資。
二、 模型變數計算
上證50指數成份股個股日收益率用相對收益率計算,假如碰到配股、送股、送現金紅利的情況,則用下面的公式計算:
式中:rit為第i種股票的第t日收益率;Pt、Pt-1分別為t日和t-1日的收盤價;C為以t-1日為基準的t日每股現金紅利;As為以t-1日為基準的t日每股配股比例;S為以t-1日為基準的t日每股配股價;Ad為以t-1日為基準的t日每股送股比例。
上證50指數日收益率Index50同樣用相對收益率計算,公式如下:
式中:Rt為上證50指數的第t日收益率;Pt、Pt-1分別為上證50指數t日和t-1日的收盤價。
三、 研究樣本選擇
本文研究中所需的上證50指數收盤價、成份股個股的收盤價、現金紅利等原始交易數據來源於上海萬國股市測評咨詢有限公司製作的「大智慧證券信息平台V5.00」。
因子分析過程中,樣本數據時期為2002年12月03日至2004年03月18日,每隻樣本股包含309條數據記錄。由於各種原因引起暫時停牌而產生的缺失值採用相鄰數據平均法填補。
考慮到個別新上市公司樣本股上市日期太短,樣本數據數量不充分,業績容易出現非正常波動,而且公司內部各方面的運行機制還不夠健全和完善,為使檢驗不受少部分數據干擾,將其剔出樣本股,在關鍵因素確立之後再根據專業知識單獨判斷其屬性。剔出樣本股共五隻,分別為:白雲機場(600004)、華夏銀行(600015)、南方航空(600029)、中信證券(600030)和長江電力(600900)。
綜上,因子分析樣本股中共納入45隻上證50指數樣本股,每隻含309條日收益率記錄,共計309組,13905條日收益率記錄。
相關性檢驗與回歸分析過程中,由於上證50指數自2004年1月2日起正式發布,指數簡稱上證50,指數代碼000016,基日為2003年12月31日。到目前為止數據量太小,所以我們無法直接用它計算。但是上海證券交易所為上證50的順利推出,於2003年1月2日起發布上證50板塊概念指數993265。其編制方法與走勢和上證50基本相同,只是所取的基數有所不同。在此我們用上證50板塊概念指數993265數據代替上證50指數000016數據進行計算。計算的時間跨度為前面分析時期的子集區間2003年07月22日至2004年03月12日,同樣,缺失值的處理方法採用相鄰數據平均數填補法,共計155組數據。
因子分析
表1 KMO統計量和Bartlett』s球形檢驗表
Kaiser-Meyer-Olkin Measure of Sampling Adequacy. .958
Bartlett's Test of Sphericity Approx. Chi-Square 9857.426
df 990
Sig. .000
首先,我們對各樣本股日收益率數據採用KMO統計量和Bartlett』s球形檢驗,以判斷樣本數據是否符合因子分析的前提條件。可以看出,表格中檢驗變數間偏相關性的KMO統計量,數值為0.958,接近1,表明各變數間的相關程度無太大差異,數據非常適合做因子分析。同時,Bartlett』s球形假設檢驗的結果也被拒絕,強烈認可了變數之間的相關性,說明各樣本股日收益率之間存在共同信息,符合提取共同因子的前提條件。見表1。
本文採用的因子提取方法為主成分分析法(Principal Components Analysis)。考慮到共同因子的可解釋性,在提取因子的過程中採用正交旋轉,具體旋轉方法為方差最大化正交旋轉(Varimax)。根據提取的主成分共同因子的累積貢獻率達到約85%以上為標准,一共提取20個共同因子。信息提取的充分性檢驗表(略)告訴我們,按照上訴共同因子提取標准,樣本股信息的提取基本是充分的。
表2 共同因子所解釋的方差百分比表
Factor F1 F2 F3 F4 F5 F6 F7 F8 F9 F10
%of Variance 42.311 6.849 4.540 3.208 2.395 2.856 2.367 2.133 2.035 1.844
Cumulative% 42.311 49.160 53.700 56.908 59.764 62.158 64.525 66.658 68.693 70.537
Factor F11 F12 F13 F14 F15 F16 F17 F18 F19 F20
%of Variance 1.728 1.674 1.553 1.491 1.410 1.324 1.286 1.261 1.201 1.154
Cumulative% 72.265 73.939 75.491 76.982 78.392 79.716 81.002 82.263 83.464 84.618
我們把共同因子所解釋的方差百分比(表2)作為因子對指數所貢獻的權重,相應的多因素模型如下:
Index50=0.4231*F1+0.0685*F2+0.0454*F3+0.0321*F4+0.0286*F5+0.0239*F6+0.0237*F7+0.0213*F8+0.0204*F9+0.0184*F10+0.0173*F11+0.0167*F12+0.0155*F13+0.0149*F14+0.0141*F15+0.0132*F16+0.0129*F17+0.0126*F18+0.0120*F19+0.0115*F20+ε
經過方差最大化正交旋轉之後,將因子和變數之間因子負荷大於0.4的變數提出來,再根據同一樣本股對共同因子的貢獻大小取相對較大的值。我們得到以下20個共同因子所主要代表的樣本股列表,見表3。
表4 共同因子代表樣本股列表
F1 600028 中國石化 F5 600664 哈葯集團
600808 馬鋼股份 600038 哈飛股份
600688 上海石化 F6 600839 四川長虹
600019 寶鋼股份 600033 福建高速
600026 中海發展 600008 首創股份
600569 安陽鋼鐵 F7 600591 上海航空
600050 中國聯通 600221 海南航空
600036 招商銀行 F8 600795 國電電力
600350 山東基建 600011 華能國際
600649 原水股份 600642 申能股份
600000 浦發銀行 F9 600643 愛建股份
F2 600602 廣電電子 F10 600887 伊利股份
600832 東方明珠 600597 光明乳業
600637 廣電信息 F11 600016 民生銀行
600100 清華同方 F12 600811 東方集團
600171 上海貝嶺 F13 600652 愛使股份
600601 方正科技 F14 600006 東風汽車
F3 600609 金杯汽車 F15 600812 華北制葯
600805 悅達投資 F16 600705 北亞集團
600104 上海汽車 F17 600895 張江高科
F4 600717 天津港 F18 600863 內蒙華電
600018 上港集箱 F19 600098 廣州控股
600009 上海機場 F20 - -
各個共同因子與樣本股的因子負荷對應關系如下:
F1~0.84(600028)+0.84(600808)+0.83(600688)+0.82(600019)+0.65(600026)+0.61(600569)+0.61(600050)+0.55(600036)+0.53(600350)+0.46(600649)+0.45(600000)
F2~0.88(600602)+0.86(600832)+0.85(600637)+0.78(600100)+0.69(600171)+0.49(600601)
F3~0.81(600609)+0.75(600805)+0.63(600104)
F4~0.76(600717)+0.67(600018)+0.46(600009)
F5~0.88(600664)+0.85(600038)
F6~0.66(600839)+0.49(600033)+0.46(600008)
F7~0.72(600591)+0.67(600221)
F8~0.56(600795)+0.55(600011)+0.52(600642)
F9~0.83(600643)
F10~0.75(600887)+0.40(600597)
F11~0.80(600016)
F12~0.81(600811)
F13~0.81(600652)
F14~0.97(600006)
F15~0.80(600812)
F16~0.77(600705)
F17~0.78(600895)
F18~0.75(600863)
F19~0.52(600098)
F20~----------------
觀察共同因子代表樣本股列表與因子負荷對應關系,我們可以分析判斷出各個共同因子所反映的關鍵因素如下:
F1對應的樣本股分別為:600028中國石化、600808馬鋼股份、600688上海石化、600019寶鋼股份、600026中海發展、600569安陽鋼鐵、600050中國聯通、600036招商銀行、600350山東基建、600649原水股份、600000浦發銀行,這些都是廣大股民所熟知的經營業績優秀,凈資產收益率很高的大盤藍籌股,其中也包含了幾只銀行股,可以說是大盤中的大盤,藍籌中的藍籌,我們可以定義因子F1為「大盤深藍股」。
F2對應的樣本股分別為:600602廣電電子、600832東方明珠、600637廣電信息、600100清華同方、600171上海貝嶺、600601方正科技,這幾只股票是高科技行業的傑出代表,主營計算機、微電子和信息產業,具有高成長性,我們可以定義因子F2為「高科技成長股」。
F3對應的樣本股分別為:600609金杯汽車、600805悅達投資、600104上海汽車,屬於典型的汽車類股票,隨著近幾年汽車行業的崛起,業績呈現穩步增長,我們可以定義因子F3為「汽車藍籌股」。
F4對應的樣本股分別為:600717天津港、600018上港集箱、600009上海機場,與水陸空港口物流和運輸有密切關系,我們可以定義因子F4為「港口物流股」。
F5對應的樣本股分別為:600664哈葯集團、600038哈飛股份,具有明顯的地域色彩,觸摸到東北老工業基地的發展脈搏,我們可以定義因子F5為「東北老工業股」。
F6對應的樣本股分別為:600839四川長虹、600033福建高速、600008首創股份,其中600033福建高速、600008首創股份主要是經營公益事業和基礎設施,我們可以定義因子F6為「基礎公益股」。但600839四川長虹的主營是電視機、空調等家用電器產品,業績彪炳,被歸於此類可以算是因統計之外原因引起的一個例外。
F7對應的樣本股分別為:600591上海航空、600221海南航空,國內航空運輸業的兩只優質股票,我們可以定義因子F7為「航空運輸股」。
F8對應的樣本股分別為:600795國電電力、600011華能國際、600642申能股份,顯然代表電力能源,我們可以定義因子F8為「電力能源股」。
F9對應的樣本股為:600643愛建股份,是上證50成份股中的非銀行類金融股,我們可以定義因子F9為「非銀行金融股」。
F10對應的樣本股分別為:600887伊利股份、600597光明乳業,皆為乳品業龍頭,乳業產品的消費與老百姓日常生活息息相關,其業績從一定角度上也體現了老百姓生活的富裕程度,我們可以定義因子F10為「乳品消費股」。
F11對應的樣本股為:600016民生銀行,銀行類股票。F12對應的樣本股為:600811東方集團,一隻綜合類股票,涉獵金融、電子商務、建材、通訊等領域。F13對應的樣本股為:600652愛使股份,主營計算機硬體及網路設備。F14對應的樣本股為:600006東風汽車,汽車行業股票。F15對應的樣本股為:600812華北制葯,醫葯化工產品的生產和銷售。F16對應的樣本股為:600705北亞集團,主營運輸物流及貿易。F17對應的樣本股為:600895張江高科,房地產類個股。F18對應的樣本股為:600863內蒙華電,主營活力發電、供熱。F19對應的樣本股為:600098廣州控股,從事能源、物流、基礎設施等綜合類股票。這些因子所代表的個股具有很強的針對性,雖然有些個股可以歸結為前面幾種共同因子,但從統計學角度來說,應單獨列出,以保證對原始信息的完整反映。F20對應的樣本股因子負荷均小於0.4,說明其可解釋性很小,體現的樣本股散亂,從專業的角度看沒有分析價值,故此將它剔出。
對於白雲機場(600004)、華夏銀行 (600015)、南方航空(600029)、中信證券(600030)和長江電力(600900)這五隻由於上市時間不長而被剔出的個股,我們可以運用專業知識將其歸類,並在今後的分析中予以驗證。白雲機場(600004)主營空港物流,可歸為F4;華夏銀行(600015)屬於銀行股,可歸為F11;南方航空(600029)主營航空運輸業,可歸為F7;中信證券(600030)為非銀行金融股,可歸為F9和長江電力(600900)主營電力能源,可歸為F8。
綜上所述,通過對上證50指數成份股個股的日收益率數據因子分析,我們提取出有實際意義的F1~F19這19個共同因子,代表了影響上證50指數走勢的19個關鍵因素。構造多因素模型如下:
Index50=0.4231*F1+0.0685*F2+0.0454*F3+0.0321*F4+0.0286*F5+0.0239*F6+0.0237*F7+0.0213*F8+0.0204*F9+0.0184*F10+0.0173*F11+0.0167*F12+0.0155*F13+0.0149*F14+0.0141*F15+0.0132*F16+0.0129*F17+0.0126*F18+0.0120*F19 +ε
相關性檢驗與回歸分析
我們將因子分析中提取的19種共同因子中有代表性的樣本股加權組合構造出一個投資組合Portfolio50,每個樣本股的權重就等於每種共同因子所解釋的方差百分比在累積百分比之中所佔的比重。比如:共同因子F1的權重等於(42.311/83.464=0.5069)。考慮到F1因子所代表的股票較多,且權重比例較大,故選入排名前四位的4隻股票,每隻股票權重取F1因子權重的四分之一,共計22隻樣本股。
構造投資組合如下:
Portfolio50=0.1267*((600028)+(600808)+(600688)+(600019))+0.0821*(600602)+0.0544*(600609)+0.0384*(600717)+0.0342*(600664)+0.0287*(600839)+0.0284*(600591)+0.0256*(600795)+0.0244*(600643)+0.0221*(600887)+0.0207*(600016)+0.0201*(600811)+0.0186*(600652)+0.0179*(600006)+0.0169*(600812)+0.0159*(600705)+0.0154*(600895)+0.0151*(600863)
Portfolio50與Index50相關性檢驗表(略)顯示,Portfolio50與Index50的相關系數在0.01置信水平下為0.943,說明Portfolio50與Index50高度相關。
表4 回歸模型與檢驗結果表
Model Sum of Squares df Mean Square F Sig.
1 Regression .025 1 .025 1238.863 .000
Resial .003 153 .000
Total .028 154
表5 回歸系數與檢驗結果表
Model Unstandardized Coefficients Standardized Coefficients t Sig. Correlations
B Std. Error Beta Zero-order Partial Part
1 (Constant) 7.235E-04 .000 2.004 .047
INDEX50 1.021 .029 .943 35.197 .000 .943 .943 .943
從回歸模型與檢驗結果(表4)我們可以看出該回歸模型具有明顯的統計學意義。從回歸系數與檢驗結果(表5)我們可以看出該回歸模型系數b具有明顯的統計學意義,且b值為1.021。對於常數項的檢驗雖然沒有統計學意義,但這無關緊要,出於常識,我們一般都將其保留在方程中,a值為0.0007235。
據此我們可以構建回歸模型如下:
Portfolio50=0.0007235+1.021*(Index50)
式中:常數項a=0.0007235,非常接近於0,回歸系數b=1.021,也同樣接近於1。所以我們可以認為Portfolio50≈Index50。
最後,我們進行回歸模型擬合效力評價分析(過程略)。由擬合模型的擬合優度簡報和Durbin-Watson統計量我們可以得出確定系數R2為0.89,校正的確定系數Adjusted R2為0.889,說明該模型擬合效果顯著。Durbin-Watson統計量為1.786,取值在2附近。可見殘差間沒有明顯的相關性。為了進一步分析模型的正態性,即的殘差ε是否服從正態分布,我們做出殘差分布直方圖和正態PP圖(見圖1、圖2)。可見,該模型殘差基本服從正態分布。
圖1 殘差分布直方圖 圖2 殘差的正態PP圖
結論
根據以上實證研究,我們得出如下結論:
1.在2002年12月3日至2004年3月18日期間,上證50指數的50種樣本股的收益率受到19種關鍵因素的影響。這19種關鍵因素中最有代表性的是600028中國石化、600602廣電電子等22隻樣本股。從另外一個角度看,這22隻樣本股的總體走勢基本上反映了上證50指數的50隻樣本股的走勢。
2.影響上證50指數的關鍵因素具有很強的板塊效應,企業性質、經營主業、地域特徵和管理業績相同或相近的股票走勢高度相關,可歸為同一關鍵因素。但同時個股的表現也同樣突出,幾乎每個板塊中都有個別股票表現與眾不同,這些特立獨行的個股由於經營、資本運作等眾多原因,走出了自己的特色,成為了市場不可或缺的亮點,對指數有著重要的貢獻。
3.從個股對上證50指數關鍵因素的影響來看,如果一個關鍵因素所代表的樣本股的個數少,則說明這些樣本股更加具有代表性。相反,如果一個關鍵因素所代表的樣本股的個數多,則說明這些樣本股之間具有可替代性,也就是說,如果需要調整投資組合,就可以在代表多數樣本股的因子中進行調整,這樣不會影響投資組合的代表性。
4.如果要對上證50指數進行指數化投資,不需要投資於所有的50種樣本股,只需要投資於19種關鍵因素中最有代表性的22隻關鍵樣本股即可,構造投資組合如下:Portfolio50=0.1267*((600028)+(600808)+(600688)+(600019))+0.0821*(600602)+0.0544*(600609)+0.0384*(600717)+0.0342*(600664)+0.0287*(600839)+0.0284*(600591)+0.0256*(600795)+0.0244*(600643)+0.0221*(600887)+0.0207*(600016)+0.0201*(600811)+0.0186*(600652)+0.0179*(600006)+0.0169*(600812)+0.0159*(600705)+0.0154*(600895)+0.0151*(600863)。檢驗結果表明,這22種具有代表性的關鍵樣本股構造的投資組合Portfolio50的收益率基本上反映了上證50指數Index50的收益率,並且兩者的風險處在同一水平上,即可以用投資組合Portfolio50來替代上證50指數進行指數化投資。另外,由於同一關鍵因素所代表的股票具有可替代性,使得投資組合Portfolio50的構造更加靈活,我們可以根據市場的具體情況對該投資組合Portfolio50進行調整,同時還不會影響它對指數的反映。
以上結論說明,我們從實證研究的角度驗證了關鍵因素擬合指數化投資方法,即指數化投資不必完全復制股票指數,股票指數中存在關鍵因素,利用這些關鍵因素構造的投資組合可以擬合出相應的股票指數,用來進行指數化投資。這種方法能夠適用於多種指數,並且操作靈活積極,基金經理可以同時結合其他的分析工具,根據市場的具體情況對擬合的投資組合進行調整,從而達到最佳的投資績效。
『貳』 如何用Python和機器學習炒股賺錢
相信很多人都想過讓人工智慧來幫你賺錢,但到底該如何做呢?瑞士日內瓦的一位金融數據顧問 Gaëtan Rickter 近日發表文章介紹了他利用 Python 和機器學習來幫助炒股的經驗,其最終成果的收益率跑贏了長期處於牛市的標准普爾 500 指數。雖然這篇文章並沒有將他的方法完全徹底公開,但已公開的內容或許能給我們帶來如何用人工智慧炒股的啟迪。
我終於跑贏了標准普爾 500 指數 10 個百分點!聽起來可能不是很多,但是當我們處理的是大量流動性很高的資本時,對沖基金的利潤就相當可觀。更激進的做法還能得到更高的回報。
這一切都始於我閱讀了 Gur Huberman 的一篇題為《Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar》的論文。該研究描述了一件發生在 1998 年的涉及到一家上市公司 EntreMed(當時股票代碼是 ENMD)的事件:
「星期天《紐約時報》上發表的一篇關於癌症治療新葯開發潛力的文章導致 EntreMed 的股價從周五收盤時的 12.063 飆升至 85,在周一收盤時接近 52。在接下來的三周,它的收盤價都在 30 以上。這股投資熱情也讓其它生物科技股得到了溢價。但是,這個癌症研究方面的可能突破在至少五個月前就已經被 Nature 期刊和各種流行的報紙報道過了,其中甚至包括《泰晤士報》!因此,僅僅是熱情的公眾關注就能引發股價的持續上漲,即便實際上並沒有出現真正的新信息。」
在研究者給出的許多有見地的觀察中,其中有一個總結很突出:
「(股價)運動可能會集中於有一些共同之處的股票上,但這些共同之處不一定要是經濟基礎。」
我就想,能不能基於通常所用的指標之外的其它指標來劃分股票。我開始在資料庫裡面挖掘,幾周之後我發現了一個,其包含了一個分數,描述了股票和元素周期表中的元素之間的「已知和隱藏關系」的強度。
我有計算基因組學的背景,這讓我想起了基因和它們的細胞信號網路之間的關系是如何地不為人所知。但是,當我們分析數據時,我們又會開始看到我們之前可能無法預測的新關系和相關性。
如果你使用機器學習,就可能在具有已知和隱藏關系的上市公司的寄生、共生和共情關系之上搶佔先機,這是很有趣而且可以盈利的。最後,一個人的盈利能力似乎完全關乎他在生成這些類別的數據時想出特徵標簽(即概念(concept))的強大組合的能力。
我在這類模型上的下一次迭代應該會包含一個用於自動生成特徵組合或獨特列表的單獨演算法。也許會基於近乎實時的事件,這可能會影響那些具有隻有配備了無監督學習演算法的人類才能預測的隱藏關系的股票組。