導航:首頁 > 數據行情 > 從股票數據里提取數據擬合

從股票數據里提取數據擬合

發布時間:2023-08-14 16:27:55

⑴ 如何提取股票1分鍾k線數據股票分時數據導出成文本格式

你得看什麼軟體假如是通曉信的話默認1分鍾周期是不克不及看到那麼久的即使看到屏幕顯示也是個問題。導不出文本格局。

⑵ 如何用excel獲取網頁上的股票數據,並按照日期製成表格

打開通達信行情軟體,切換到某個股票的K線圖狀態,再按F1,菜單「系統」里選擇「數據導出」,點「高級導出」,文件名「.TXT」改為「.XLS",點「添加品種」找到自己保存的股票,再點「開始導出」就OK了。

⑶ 如何編程從免費股票軟體中提取實時數據

自己寫程序的話,一種方法是從已提供的信息源,例如webservice獲取數據。還有種辦法就是去連接提供即時信息的網頁硬解析。

代碼舉例如下:

Created on Thu Jul 23 09:17:27 2015
@author: jet
"""
DAY_PRICE_COLS = ['date', 'open', 'high', 'close', 'low', 'volume',
'chg', '%chg', 'ma5', 'ma10', 'ma20',
'vma5', 'vma10', 'vma20', 'turnover']
DAY_PRICE_URL = '%sapi.finance.%s/%s/?code=%s&type=last'
INDEX_KEY = ['SH', 'SZ', 'HS300', 'SZ50', 'GEB', 'SMEB']
INDEX_LIST = {'SH': 'sh000001', 'SZ': 'sz399001', 'HS300': 'sz399300',
'SZ50': 'sh000016', 'GEB': 'sz399006', 'SMEB': 'sz399005'}
INDEX_DAY_PRICE_COLS= ['date', 'open', 'high', 'close', 'low', 'volume',
'chg', '%chg', 'ma5', 'ma10', 'ma20',
'vma5', 'vma10', 'vma20']
K_TYPE_KEY = ['D', 'W', 'M']
K_TYPE_MIN_KEY = ['5', '15', '30', '60']
K_TYPE = {'D': 'akdaily', 'W': 'akweekly', 'M': 'akmonthly'}
MIN_PRICE_URL = '%sapi.finance.%s/akmin?scode=%s&type=%s'
PAGE_TYPE = {'http': 'http://', 'ftp': 'ftp://'}
PAGE_DOMAIN = {'sina': 'sina.com.cn', 'ifeng': 'ifeng.com'}
URL_ERROR_MSG = '獲取失敗,請檢查網路狀態,或者API埠URL已經不匹配!'

get_hist_data.py
# -*- coding: utf-8 -*-
"""
Created on Thu Jul 23 09:15:40 2015
@author: jet
"""
import const as ct
import pandas as pd
import json
from urllib2 import urlopen,Request

def get_hist_data(code = None, start = None, end = None, ktype = 'D'):
"""
功能:
獲取個股歷史交易數據
--------
輸入:
--------
code:string
股票代碼 比如:601989
start:string
開始日期 格式:YYYY-MM-DD 為空時取到API所提供的最早日期數據
end:string
結束日期 格式:YYYY-MM-DD 為空時取到最近一個交易日數據
ktype:string(default=D, 函數內部自動統一為大寫)
數據類型 D=日K線,W=周K線,M=月K線,5=5分鍾,15=15分鍾
30=30分鍾,60=60分鍾
輸出:
--------
DataFrame
date 日期
open 開盤價
high 最高價
close 收盤價
low 最低價
chg 漲跌額
p_chg 漲跌幅
ma5 5日均價
ma10 10日均價
ma20 20日均價
vma5 5日均量
vma10 10日均量
vma20 20日均量
turnover換手率(指數無此項)
"""
code = code_to_APIcode(code.upper())
ktype = ktype.upper()

url = ''
url = get_url(ktype, code)
print(url)

js = json.loads(ping_API(url))
cols = []

if len(js['record'][0]) == 14:
cols = ct.INDEX_DAY_PRICE_COLS
else:
cols = ct.DAY_PRICE_COLS
df = pd.DataFrame(js['record'], columns=cols)

if ktype in ct.K_TYPE_KEY:
df = df.applymap(lambda x:x.replace(u',', u''))
for col in cols[1:]:
df[col]=df[col].astype(float)
if start is not None:
df = df [df.date >= start]
if end is not None:
df = df[df.date <= end]
df = df.set_index('date')
return df

def code_to_APIcode(code):
"""
功能:
驗證輸入的股票代碼是否正確,若正確則返回API對應使用的股票代碼
"""
print(code)
if code in ct.INDEX_KEY:
return ct.INDEX_LIST[code]
else:
if len(code) != 6:
raise IOError('code input error!')
else:
return 'sh%s'%code if code[:1] in ['5', '6'] else 'sz%s'%code

def get_url(ktype, code):
"""
功能:
驗證輸入的K線類型是否正確,若正確則返回url
"""
if ktype in ct.K_TYPE_KEY:
url = ct.DAY_PRICE_URL % (ct.PAGE_TYPE['http'], ct.PAGE_DOMAIN['ifeng'],
ct.K_TYPE[ktype], code)
return url
elif ktype in ct.K_TYPE_MIN_KEY:
url = ct.MIN_PRICE_URL % (ct.PAGE_TYPE['http'], ct.PAGE_DOMAIN['ifeng'],
code, ktype)
return url
else:
raise IOError('ktype input error!')

def ping_API(url):
"""
功能:
向API發送數據請求,若鏈接正常返回數據
"""
text = ''
try:
req = Request(url)
text = urlopen(req,timeout=10).read()
if len(text) < 15:
raise IOError('no data!')
except Exception as e:
print(e)
else:
return text

#測試入口
print(get_hist_data('601989','2015-07-11','2015-07-22'))

⑷ 如何根據一組數據進行曲線擬合

您好,這樣的:一、
單一變數的曲線逼近
matlab有一個功能強大的曲線擬合工具箱
cftool
,使用方便,能實現多種類型的線性、非線
性曲線擬合。下面結合我使用的
matlab
r2007b
來簡單介紹如何使用這個工具箱。
假設我們要擬合的函數形式是
y=a*x*x
+
b*x,
且a>0,b>0

1、在命令行輸入數據:
》x=[110.3323
148.7328
178.064
202.8258033
224.7105
244.5711
262.908
280.0447
296.204
311.5475]
》y=[5
10
15
20
25
30
35
40
45
50]
2、啟動曲線擬合工具箱
》cftool
3、進入曲線擬合工具箱界面「curve
fitting
tool」
(1)點擊「data」按鈕,彈出「data」窗口;
(2)利用x
data和y
data的下拉菜單讀入數據x,y,可修改數據集名「data
set
name」,然
後點擊「create
data
set」按鈕,退出「data」窗口,返回工具箱界面,這時會自動畫出數
據集的曲線圖;
(3)點擊「fitting」按鈕,彈出「fitting」窗口;
(4)點擊「new
fit」按鈕,可修改擬合項目名稱「fit
name」,通過「data
set」下拉菜單
選擇數據集,然後通過下拉菜單「type
of
fit」選擇擬合曲線的類型,工具箱提供的擬合類
型有:
custom
equations:用戶自定義的函數類型
exponential:指數逼近,有2種類型,
a*exp(b*x)

a*exp(b*x)
+
c*exp(d*x)
fourier:傅立葉逼近,有7種類型,基礎型是
a0
+
a1*cos(x*w)
+
b1*sin(x*w)
gaussian:高斯逼近,有8種類型,基礎型是
a1*exp(-((x-b1)/c1)^2)
interpolant:插值逼近,有4種類型,linear、nearest
neighbor、cubic
spline、shape-
preserving
polynomial:多形式逼近,有9種類型,linear
~、quadratic
~、cubic
~、4-9th
degree
~
power:冪逼近,有2種類型,a*x^b
、a*x^b
+
c
rational:有理數逼近,分子、分母共有的類型是linear
~、quadratic
~、cubic
~、4-5th
degree
~;此外,分子還包括constant型
smoothing
spline:平滑逼近(翻譯的不大恰當,不好意思)
sum
of
sin
functions:正弦曲線逼近,有8種類型,基礎型是
a1*sin(b1*x
+
c1)
weibull:只有一種,a*b*x^(b-1)*exp(-a*x^b)
選擇好所需的擬合曲線類型及其子類型,並進行相關設置:
——如果是非自定義的類型,根據實際需要點擊「fit
options」按鈕,設置擬合演算法、修改
待估計參數的上下限等參數;
——如果選custom
equations,點擊「new」按鈕,彈出自定義函數等式窗口,有「linear
equations線性等式」和「general
equations構造等式」兩種標簽。
在本例中選custom
equations,點擊「new」按鈕,選擇「general
equations」標簽,輸入函
數類型y=a*x*x
+
b*x,設置參數a、b的上下限,然後點擊ok。

⑸ 什麼是擬合指數

擬合指數 Simulation Index/fit index/Agreement Index
擬合是《計量經濟學》研究的范疇,所謂擬合指數簡單的說就是選擇的變數與被解釋變數之間的相關關系
股票\基金擬合指數:

指數基金是一種擬合目標指數、跟蹤目標指數變化為原則,實現與市場同步成長的基金品種。指數基金的投資採取擬合目標指數收益率的投資策略,分散投資於目標指數的成分股,力求股票組合的收益率擬合該目標指數所代表的資本市場平均收益率。

操作簡單透明度高

從理論上講,指數基金的運作方法簡單,只要根據每一種證券在指數中所佔的比例購買相應比例的證券,長期持有就可。

其次,指數基金費用低廉。由於指數基金採取持有策略,不用經常換股,交易成本遠遠低於積極管理的基金。

此外,指數基金的業績透明度較高。投資人看到指數型基金跟蹤的目標基準指數漲了,就會知道自己投資的指數型基金今天凈值大約能升多少。所以很多機構投資人和一些看得清大勢、看不準個股的個人投資者比較喜歡投資指數型基金,不必再有「賺了指數不賺錢」的苦惱。

有效規避非系統性風險

與其他基金相比,指數基金的優點首先在於能夠有效規避非系統性風險,因而指數基金廣泛地分散投資,任何單個股票的波動都不會對指數基金的整體表現構成影響,從而分散風險。另一個方面,由於指數基金所釘住的指數一般都具有較長的歷史可以追蹤,在一定程度上指數基金的風險是可以預測的。

因此,從長期來看,指數基金投資業績優於其他基金。2006年,市場上的指數基金以平均125.87%的年累計凈值增長率成為最賺錢的基金品種。這種基金不會對某些特定的證券或行業投入過量資金。它一般會保持全額投資而不進行市場投機。

關鍵因素擬合指數化投資方法的實證研究

指數化投資是一種試圖完全復制某一證券價格指數或者按照證券價格指數編制原理構建投資組合而進行的證券投資。按此種方式投資的基金稱為指數基金,其收益水平目標是所基指數的變化幅度。自20世紀90年代以來,美國華爾街上大多數股票基金管理人的業績都低於同期市場指數的表現,這樣,以復制市場指數走勢為核心思想的指數基金在全球范圍內迅速發展壯大起來,並對傳統的證券投資思維形成巨大的沖擊與挑戰。在美國,指數基金的收益超過65~80%的共同基金,因而越來越受到歡迎。流入共同基金市場的新增資金中,流入指數基金的比例由1994年的2%增加到1999年的31%。1999年末美國指數基金總資金量達到3380億美元,佔全美股票基金總量的8.37%。最大的指數基金、也是全美最大的共同基金Vanguard S&P 500管理著1050億美元的資金。
我國的指數化投資出現較晚,這主要是因為我國的證券市場還比較年輕,還在不斷探索和發展,我國的投資者群體還不成熟,缺乏科學的投資觀念,市場行為的監管還欠完善,莊家炒作等非市場行為對股指有較大影響。由於這些原因的共同影響,我國股票指數常常與市場背離,不能反映市場的真實情況。
就指數化投資方法而言,市場上常用的方法主要是完全復制某一證券價格指數或者按照證券價格指數編制原理構建投資組合。這種傳統的指數化投資方法相對比較被動,在大盤正常運行的時候可以良好運作,但是當部分樣本股出現異常的快速上揚或急速下跌時,將失去進一步盈利和及時止損的機會。為了彌補這一不足,各種替代方法應運而生。
Francesco Corielli與Massimiliano Marcellino(2002)認為跟蹤指數是要建立指數的替代投資組合(replica),這個替代投資組合包含的股票要遠遠少於指數所包含的股票,並且跟蹤誤差中不包含非經常性成份,他們運用動態因子提取方法建立指數替代投資組合,用蒙特.卡羅經驗指數和EURO STOXX50指數進行了驗證。驗證結果令人鼓舞,替代投資組合基本完成了跟蹤曲線[7]。吳沖鋒(2000)運用未定因素含義法分析1998年7月8日至1999年3月29日期間上證30指數樣本股,得出由6隻股票的投資組合替代上證30指數的結論[6]。
從以上研究我們發現,指數化投資方法不一定非要按照證券價格指數編制原理構建投資組合,可以通過構建替代投資組合對指數進行跟蹤。在此基礎上,筆者提出關鍵因素擬合指數化投資方法,該方法認為,股票指數由其樣本股按照證券價格指數編制原理構成,它的走勢體現了這些樣本股的共同作用,但並不是每一隻樣本股對指數的貢獻都一樣,股票指數中存在關鍵性因素,這些關鍵因素對股指的影響體現在各自所代表的樣本股的表現之上。同樣,也並不是每一種關鍵因素所代表的樣本股對它的貢獻都一樣,關鍵因素中存在最具代表性的關鍵樣本股,正是這些最具代表性的關鍵樣本股對股票指數起著舉足輕重的作用,我們只要抓住了它們就抓住了股票指數,換句話說,我們只要投資於這些關鍵因素擬合的組合就等於投資了這個股票指數了。另外,同一關鍵因素中具有代表性的關鍵樣本股之間具有可替代性,可以使對股票指數的投資更加靈活,又不會影響投資組合的指數化性質,在一定程度上彌補了傳統方法的不足。
下面我們將以上證50指數為研究對象,對關鍵因素指數化投資方法進行實證研究。論文的結構安排如下:首先,我們進行研究設計,確定研究的程序、模型、樣本及數據;然後,我們對數據進行因子分析,提取出上證50指數的關鍵因素;在此基礎上,我們將按關鍵因素構造出的投資組合與實際的上證50指數進行相關性檢驗和回歸分析以驗證該方法;最後得出結論。
研究設計

一、 研究程序與模型設計
第一步,我們要找出影響上證50指數走勢的關鍵性因素。
我們以上證50指數成份股個股的日收益率為基礎進行因子分析,提取出反映上證50指數走勢的n個共同因子,這n個共同因子即代表了影響上證50指數走勢的n個關鍵因素的。構造多因素模型如下:
Index50=A1*F1+A2*F2+……+An*Fn+ε
式中:Index50為上證50指數;Fn為第n個共同因子;An為第n個共同因子對上證50指數的貢獻率;ε為殘差。
在找出這n個關鍵因素之後,我們要進一步找出這n種關鍵性的共同因子所代表的樣本股。對應關系如下:
F1~a1(stock11)+a2(stock12)+……
F2~b1(stock21)+b2(stock22)+……
…………………………………
Fn~n1(stockn1)+n2(stockn2)+……
式中:Fn為第n個共同因子;stock為共同因子所代表的樣本股;a、b……n為樣本股對共同因子的貢獻率,即因子負荷。
觀察共同因子的因子負荷強弱,我們可以分析判斷出各個共同因子所反映的關鍵因素,並對它們進行相應的解釋。
第二步,為了證明我們找出的這n個關鍵因素是否真的能夠反映上證50指數的走勢。我們用它們中最具代表性的一組樣本股構造出一個投資組合Portfolio50,與上證50指數Index50進行比較,驗證是否Portfolio50與Index50等價。
為此,我們找出對這n個關鍵因素最有代表性的i個樣本股,按照其方差對總方差解釋的貢獻率所佔比重作為權重構造投資組合如下:
Portfolio50=w1*STOCK1+w2*STOCK2+……+wi*STOCKi
式中:Portfolio50為構造的投資組合的日收益率;STOCKi為參與構造投資組合的第i個最有代表性的樣本股的日收益率;wi為第i只樣本股的權重。
計算出投資組合Portfolio50的日收益率和上證50指數的日收益率Index50,在通過相關性檢驗之後,將Portfolio50與Index50進行線性回歸分析。構造回歸模型如下:
Portfolio50=a+b*(Index50)+ε
式中:Portfolio50為構造的投資組合的日收益率;Index50為上證50指數的日收益率;a為常數項;b為回歸系數;ε為殘差。
如果該模型經檢驗成立,並且a趨近於0,同時b趨近於1,那麼Portfolio50≈Index50,即Portfolio50與Index50等價,說明我們找出的這n各關鍵性因素能夠真實地反映上證50指數的走勢,Portfolio50可以代替上證50指數進行指數化投資。
二、 模型變數計算
上證50指數成份股個股日收益率用相對收益率計算,假如碰到配股、送股、送現金紅利的情況,則用下面的公式計算:

式中:rit為第i種股票的第t日收益率;Pt、Pt-1分別為t日和t-1日的收盤價;C為以t-1日為基準的t日每股現金紅利;As為以t-1日為基準的t日每股配股比例;S為以t-1日為基準的t日每股配股價;Ad為以t-1日為基準的t日每股送股比例。
上證50指數日收益率Index50同樣用相對收益率計算,公式如下:

式中:Rt為上證50指數的第t日收益率;Pt、Pt-1分別為上證50指數t日和t-1日的收盤價。
三、 研究樣本選擇
本文研究中所需的上證50指數收盤價、成份股個股的收盤價、現金紅利等原始交易數據來源於上海萬國股市測評咨詢有限公司製作的「大智慧證券信息平台V5.00」。
因子分析過程中,樣本數據時期為2002年12月03日至2004年03月18日,每隻樣本股包含309條數據記錄。由於各種原因引起暫時停牌而產生的缺失值採用相鄰數據平均法填補。
考慮到個別新上市公司樣本股上市日期太短,樣本數據數量不充分,業績容易出現非正常波動,而且公司內部各方面的運行機制還不夠健全和完善,為使檢驗不受少部分數據干擾,將其剔出樣本股,在關鍵因素確立之後再根據專業知識單獨判斷其屬性。剔出樣本股共五隻,分別為:白雲機場(600004)、華夏銀行(600015)、南方航空(600029)、中信證券(600030)和長江電力(600900)。
綜上,因子分析樣本股中共納入45隻上證50指數樣本股,每隻含309條日收益率記錄,共計309組,13905條日收益率記錄。
相關性檢驗與回歸分析過程中,由於上證50指數自2004年1月2日起正式發布,指數簡稱上證50,指數代碼000016,基日為2003年12月31日。到目前為止數據量太小,所以我們無法直接用它計算。但是上海證券交易所為上證50的順利推出,於2003年1月2日起發布上證50板塊概念指數993265。其編制方法與走勢和上證50基本相同,只是所取的基數有所不同。在此我們用上證50板塊概念指數993265數據代替上證50指數000016數據進行計算。計算的時間跨度為前面分析時期的子集區間2003年07月22日至2004年03月12日,同樣,缺失值的處理方法採用相鄰數據平均數填補法,共計155組數據。

因子分析

表1 KMO統計量和Bartlett』s球形檢驗表
Kaiser-Meyer-Olkin Measure of Sampling Adequacy. .958
Bartlett's Test of Sphericity Approx. Chi-Square 9857.426
df 990
Sig. .000
首先,我們對各樣本股日收益率數據採用KMO統計量和Bartlett』s球形檢驗,以判斷樣本數據是否符合因子分析的前提條件。可以看出,表格中檢驗變數間偏相關性的KMO統計量,數值為0.958,接近1,表明各變數間的相關程度無太大差異,數據非常適合做因子分析。同時,Bartlett』s球形假設檢驗的結果也被拒絕,強烈認可了變數之間的相關性,說明各樣本股日收益率之間存在共同信息,符合提取共同因子的前提條件。見表1。
本文採用的因子提取方法為主成分分析法(Principal Components Analysis)。考慮到共同因子的可解釋性,在提取因子的過程中採用正交旋轉,具體旋轉方法為方差最大化正交旋轉(Varimax)。根據提取的主成分共同因子的累積貢獻率達到約85%以上為標准,一共提取20個共同因子。信息提取的充分性檢驗表(略)告訴我們,按照上訴共同因子提取標准,樣本股信息的提取基本是充分的。
表2 共同因子所解釋的方差百分比表
Factor F1 F2 F3 F4 F5 F6 F7 F8 F9 F10
%of Variance 42.311 6.849 4.540 3.208 2.395 2.856 2.367 2.133 2.035 1.844
Cumulative% 42.311 49.160 53.700 56.908 59.764 62.158 64.525 66.658 68.693 70.537
Factor F11 F12 F13 F14 F15 F16 F17 F18 F19 F20
%of Variance 1.728 1.674 1.553 1.491 1.410 1.324 1.286 1.261 1.201 1.154
Cumulative% 72.265 73.939 75.491 76.982 78.392 79.716 81.002 82.263 83.464 84.618
我們把共同因子所解釋的方差百分比(表2)作為因子對指數所貢獻的權重,相應的多因素模型如下:
Index50=0.4231*F1+0.0685*F2+0.0454*F3+0.0321*F4+0.0286*F5+0.0239*F6+0.0237*F7+0.0213*F8+0.0204*F9+0.0184*F10+0.0173*F11+0.0167*F12+0.0155*F13+0.0149*F14+0.0141*F15+0.0132*F16+0.0129*F17+0.0126*F18+0.0120*F19+0.0115*F20+ε
經過方差最大化正交旋轉之後,將因子和變數之間因子負荷大於0.4的變數提出來,再根據同一樣本股對共同因子的貢獻大小取相對較大的值。我們得到以下20個共同因子所主要代表的樣本股列表,見表3。

表4 共同因子代表樣本股列表
F1 600028 中國石化 F5 600664 哈葯集團
600808 馬鋼股份 600038 哈飛股份
600688 上海石化 F6 600839 四川長虹
600019 寶鋼股份 600033 福建高速
600026 中海發展 600008 首創股份
600569 安陽鋼鐵 F7 600591 上海航空
600050 中國聯通 600221 海南航空
600036 招商銀行 F8 600795 國電電力
600350 山東基建 600011 華能國際
600649 原水股份 600642 申能股份
600000 浦發銀行 F9 600643 愛建股份
F2 600602 廣電電子 F10 600887 伊利股份
600832 東方明珠 600597 光明乳業
600637 廣電信息 F11 600016 民生銀行
600100 清華同方 F12 600811 東方集團
600171 上海貝嶺 F13 600652 愛使股份
600601 方正科技 F14 600006 東風汽車
F3 600609 金杯汽車 F15 600812 華北制葯
600805 悅達投資 F16 600705 北亞集團
600104 上海汽車 F17 600895 張江高科
F4 600717 天津港 F18 600863 內蒙華電
600018 上港集箱 F19 600098 廣州控股
600009 上海機場 F20 - -
各個共同因子與樣本股的因子負荷對應關系如下:
F1~0.84(600028)+0.84(600808)+0.83(600688)+0.82(600019)+0.65(600026)+0.61(600569)+0.61(600050)+0.55(600036)+0.53(600350)+0.46(600649)+0.45(600000)
F2~0.88(600602)+0.86(600832)+0.85(600637)+0.78(600100)+0.69(600171)+0.49(600601)
F3~0.81(600609)+0.75(600805)+0.63(600104)
F4~0.76(600717)+0.67(600018)+0.46(600009)
F5~0.88(600664)+0.85(600038)
F6~0.66(600839)+0.49(600033)+0.46(600008)
F7~0.72(600591)+0.67(600221)
F8~0.56(600795)+0.55(600011)+0.52(600642)
F9~0.83(600643)
F10~0.75(600887)+0.40(600597)
F11~0.80(600016)
F12~0.81(600811)
F13~0.81(600652)
F14~0.97(600006)
F15~0.80(600812)
F16~0.77(600705)
F17~0.78(600895)
F18~0.75(600863)
F19~0.52(600098)
F20~----------------
觀察共同因子代表樣本股列表與因子負荷對應關系,我們可以分析判斷出各個共同因子所反映的關鍵因素如下:
F1對應的樣本股分別為:600028中國石化、600808馬鋼股份、600688上海石化、600019寶鋼股份、600026中海發展、600569安陽鋼鐵、600050中國聯通、600036招商銀行、600350山東基建、600649原水股份、600000浦發銀行,這些都是廣大股民所熟知的經營業績優秀,凈資產收益率很高的大盤藍籌股,其中也包含了幾只銀行股,可以說是大盤中的大盤,藍籌中的藍籌,我們可以定義因子F1為「大盤深藍股」。
F2對應的樣本股分別為:600602廣電電子、600832東方明珠、600637廣電信息、600100清華同方、600171上海貝嶺、600601方正科技,這幾只股票是高科技行業的傑出代表,主營計算機、微電子和信息產業,具有高成長性,我們可以定義因子F2為「高科技成長股」。
F3對應的樣本股分別為:600609金杯汽車、600805悅達投資、600104上海汽車,屬於典型的汽車類股票,隨著近幾年汽車行業的崛起,業績呈現穩步增長,我們可以定義因子F3為「汽車藍籌股」。
F4對應的樣本股分別為:600717天津港、600018上港集箱、600009上海機場,與水陸空港口物流和運輸有密切關系,我們可以定義因子F4為「港口物流股」。
F5對應的樣本股分別為:600664哈葯集團、600038哈飛股份,具有明顯的地域色彩,觸摸到東北老工業基地的發展脈搏,我們可以定義因子F5為「東北老工業股」。
F6對應的樣本股分別為:600839四川長虹、600033福建高速、600008首創股份,其中600033福建高速、600008首創股份主要是經營公益事業和基礎設施,我們可以定義因子F6為「基礎公益股」。但600839四川長虹的主營是電視機、空調等家用電器產品,業績彪炳,被歸於此類可以算是因統計之外原因引起的一個例外。
F7對應的樣本股分別為:600591上海航空、600221海南航空,國內航空運輸業的兩只優質股票,我們可以定義因子F7為「航空運輸股」。
F8對應的樣本股分別為:600795國電電力、600011華能國際、600642申能股份,顯然代表電力能源,我們可以定義因子F8為「電力能源股」。
F9對應的樣本股為:600643愛建股份,是上證50成份股中的非銀行類金融股,我們可以定義因子F9為「非銀行金融股」。
F10對應的樣本股分別為:600887伊利股份、600597光明乳業,皆為乳品業龍頭,乳業產品的消費與老百姓日常生活息息相關,其業績從一定角度上也體現了老百姓生活的富裕程度,我們可以定義因子F10為「乳品消費股」。
F11對應的樣本股為:600016民生銀行,銀行類股票。F12對應的樣本股為:600811東方集團,一隻綜合類股票,涉獵金融、電子商務、建材、通訊等領域。F13對應的樣本股為:600652愛使股份,主營計算機硬體及網路設備。F14對應的樣本股為:600006東風汽車,汽車行業股票。F15對應的樣本股為:600812華北制葯,醫葯化工產品的生產和銷售。F16對應的樣本股為:600705北亞集團,主營運輸物流及貿易。F17對應的樣本股為:600895張江高科,房地產類個股。F18對應的樣本股為:600863內蒙華電,主營活力發電、供熱。F19對應的樣本股為:600098廣州控股,從事能源、物流、基礎設施等綜合類股票。這些因子所代表的個股具有很強的針對性,雖然有些個股可以歸結為前面幾種共同因子,但從統計學角度來說,應單獨列出,以保證對原始信息的完整反映。F20對應的樣本股因子負荷均小於0.4,說明其可解釋性很小,體現的樣本股散亂,從專業的角度看沒有分析價值,故此將它剔出。
對於白雲機場(600004)、華夏銀行 (600015)、南方航空(600029)、中信證券(600030)和長江電力(600900)這五隻由於上市時間不長而被剔出的個股,我們可以運用專業知識將其歸類,並在今後的分析中予以驗證。白雲機場(600004)主營空港物流,可歸為F4;華夏銀行(600015)屬於銀行股,可歸為F11;南方航空(600029)主營航空運輸業,可歸為F7;中信證券(600030)為非銀行金融股,可歸為F9和長江電力(600900)主營電力能源,可歸為F8。
綜上所述,通過對上證50指數成份股個股的日收益率數據因子分析,我們提取出有實際意義的F1~F19這19個共同因子,代表了影響上證50指數走勢的19個關鍵因素。構造多因素模型如下:
Index50=0.4231*F1+0.0685*F2+0.0454*F3+0.0321*F4+0.0286*F5+0.0239*F6+0.0237*F7+0.0213*F8+0.0204*F9+0.0184*F10+0.0173*F11+0.0167*F12+0.0155*F13+0.0149*F14+0.0141*F15+0.0132*F16+0.0129*F17+0.0126*F18+0.0120*F19 +ε

相關性檢驗與回歸分析
我們將因子分析中提取的19種共同因子中有代表性的樣本股加權組合構造出一個投資組合Portfolio50,每個樣本股的權重就等於每種共同因子所解釋的方差百分比在累積百分比之中所佔的比重。比如:共同因子F1的權重等於(42.311/83.464=0.5069)。考慮到F1因子所代表的股票較多,且權重比例較大,故選入排名前四位的4隻股票,每隻股票權重取F1因子權重的四分之一,共計22隻樣本股。
構造投資組合如下:
Portfolio50=0.1267*((600028)+(600808)+(600688)+(600019))+0.0821*(600602)+0.0544*(600609)+0.0384*(600717)+0.0342*(600664)+0.0287*(600839)+0.0284*(600591)+0.0256*(600795)+0.0244*(600643)+0.0221*(600887)+0.0207*(600016)+0.0201*(600811)+0.0186*(600652)+0.0179*(600006)+0.0169*(600812)+0.0159*(600705)+0.0154*(600895)+0.0151*(600863)
Portfolio50與Index50相關性檢驗表(略)顯示,Portfolio50與Index50的相關系數在0.01置信水平下為0.943,說明Portfolio50與Index50高度相關。
表4 回歸模型與檢驗結果表
Model Sum of Squares df Mean Square F Sig.
1 Regression .025 1 .025 1238.863 .000
Resial .003 153 .000
Total .028 154

表5 回歸系數與檢驗結果表
Model Unstandardized Coefficients Standardized Coefficients t Sig. Correlations
B Std. Error Beta Zero-order Partial Part
1 (Constant) 7.235E-04 .000 2.004 .047
INDEX50 1.021 .029 .943 35.197 .000 .943 .943 .943
從回歸模型與檢驗結果(表4)我們可以看出該回歸模型具有明顯的統計學意義。從回歸系數與檢驗結果(表5)我們可以看出該回歸模型系數b具有明顯的統計學意義,且b值為1.021。對於常數項的檢驗雖然沒有統計學意義,但這無關緊要,出於常識,我們一般都將其保留在方程中,a值為0.0007235。
據此我們可以構建回歸模型如下:
Portfolio50=0.0007235+1.021*(Index50)
式中:常數項a=0.0007235,非常接近於0,回歸系數b=1.021,也同樣接近於1。所以我們可以認為Portfolio50≈Index50。
最後,我們進行回歸模型擬合效力評價分析(過程略)。由擬合模型的擬合優度簡報和Durbin-Watson統計量我們可以得出確定系數R2為0.89,校正的確定系數Adjusted R2為0.889,說明該模型擬合效果顯著。Durbin-Watson統計量為1.786,取值在2附近。可見殘差間沒有明顯的相關性。為了進一步分析模型的正態性,即的殘差ε是否服從正態分布,我們做出殘差分布直方圖和正態PP圖(見圖1、圖2)。可見,該模型殘差基本服從正態分布。

圖1 殘差分布直方圖 圖2 殘差的正態PP圖

結論

根據以上實證研究,我們得出如下結論:
1.在2002年12月3日至2004年3月18日期間,上證50指數的50種樣本股的收益率受到19種關鍵因素的影響。這19種關鍵因素中最有代表性的是600028中國石化、600602廣電電子等22隻樣本股。從另外一個角度看,這22隻樣本股的總體走勢基本上反映了上證50指數的50隻樣本股的走勢。
2.影響上證50指數的關鍵因素具有很強的板塊效應,企業性質、經營主業、地域特徵和管理業績相同或相近的股票走勢高度相關,可歸為同一關鍵因素。但同時個股的表現也同樣突出,幾乎每個板塊中都有個別股票表現與眾不同,這些特立獨行的個股由於經營、資本運作等眾多原因,走出了自己的特色,成為了市場不可或缺的亮點,對指數有著重要的貢獻。
3.從個股對上證50指數關鍵因素的影響來看,如果一個關鍵因素所代表的樣本股的個數少,則說明這些樣本股更加具有代表性。相反,如果一個關鍵因素所代表的樣本股的個數多,則說明這些樣本股之間具有可替代性,也就是說,如果需要調整投資組合,就可以在代表多數樣本股的因子中進行調整,這樣不會影響投資組合的代表性。
4.如果要對上證50指數進行指數化投資,不需要投資於所有的50種樣本股,只需要投資於19種關鍵因素中最有代表性的22隻關鍵樣本股即可,構造投資組合如下:Portfolio50=0.1267*((600028)+(600808)+(600688)+(600019))+0.0821*(600602)+0.0544*(600609)+0.0384*(600717)+0.0342*(600664)+0.0287*(600839)+0.0284*(600591)+0.0256*(600795)+0.0244*(600643)+0.0221*(600887)+0.0207*(600016)+0.0201*(600811)+0.0186*(600652)+0.0179*(600006)+0.0169*(600812)+0.0159*(600705)+0.0154*(600895)+0.0151*(600863)。檢驗結果表明,這22種具有代表性的關鍵樣本股構造的投資組合Portfolio50的收益率基本上反映了上證50指數Index50的收益率,並且兩者的風險處在同一水平上,即可以用投資組合Portfolio50來替代上證50指數進行指數化投資。另外,由於同一關鍵因素所代表的股票具有可替代性,使得投資組合Portfolio50的構造更加靈活,我們可以根據市場的具體情況對該投資組合Portfolio50進行調整,同時還不會影響它對指數的反映。
以上結論說明,我們從實證研究的角度驗證了關鍵因素擬合指數化投資方法,即指數化投資不必完全復制股票指數,股票指數中存在關鍵因素,利用這些關鍵因素構造的投資組合可以擬合出相應的股票指數,用來進行指數化投資。這種方法能夠適用於多種指數,並且操作靈活積極,基金經理可以同時結合其他的分析工具,根據市場的具體情況對擬合的投資組合進行調整,從而達到最佳的投資績效。

⑹ 如何將兩個表中相同股票代碼所在行的內容提取出來合並成一個表

這個可以通過VLOOKUP()語句來實現
【VLOOKUP】
VLOOKUP用於在表格或數值數組的首列查找指定的數值,並由此返回表格或數組當前行中指定列處的數值,其語法形式為:
VLOOKUP(lookup_value,table_array,col_index_num,range_lookup) 【按列(col)查找】
 其中::
1、Lookup_value:表示要查找的值,它必須位於自定義查找區域的最左列。
Lookup_value 可以為數值、引用或文字串。

2、Table_array:查找的區域,用於查找數據的區域,上面的查找值必須位於這個區域的
最左列。可以使用對區域或區域名稱的引用。

 3、Row_index_num:為 table_array 中待返回的匹配值的行序號。
Row_index_num 為1 時,返回 table_array 第一行的數值;
row_index_num 為 2 時,返回 table_array 第二行的數值;
依次類推。

 4、Col_index_num:為相對列號。最左列為1,其右邊一列為2,依次類推。

 5、Range_lookup:為一邏輯值,指明函數VLOOKUP 查找時是精確匹配,還是近似匹配。
Range_lookup為:FALSE ,VLOOKUP將只查找精確匹配值。
如果Table_array 的第一列中有兩個或更多值與 lookup_value 匹配,
則使用第一個找到的值。如果找不到精確匹配值,則返回錯誤值 #N/A
Range_lookup為:TRUE 或被省略,則返回精確匹配值或近似
匹配值。如果找不到精確匹配值,則返回小於 lookup_value 的最大
值。並且,必須按升序排列 Table_array 第一列中的值;否則,
VLOOKUP 可能無法返回正確的值。
【TRUE 或被省略,返回的值有兩種,因此,精確查找則選用參數FALSE。】

如果 Table_array 的第一列中有兩個或更多值與 lookup_value 匹配,則使用從上往下,第一個升序排列段的最後一個值,如果排列段後面還有值與lookup_value 匹配。此時,反饋的還是使用從上往下,第一個升序排列段的最後一個值。

⑺ 如何快速批量導出炒股軟體F10里的部分信息,最終匯總生成EXCEL文件

1.打開行情軟體,點擊主頁最左上角的【系統】/【數據導出】,如下圖所示

⑻ 股票直線擬合是什麼意思

就是針對某段行情,找到一條直線,使得這段行情在該線附近振盪。
如果嚴格說的話,假設一段行情從t0開始,到T結束,時間單位是dt,我們把股票行情記為f(t), t是時間。而直線就可以表示為line = a t, a是斜率,t是時間。
目的就是找到一個最好的a來擬合f(t):
即 min {SUM_t0^T (f(t)-at)^2}

⑼ 怎麼將股票中的數據導出到excel

1、首先在電腦桌面上打開股票軟體。

閱讀全文

與從股票數據里提取數據擬合相關的資料

熱點內容
股票會被提前ST的原因有哪些 瀏覽:863
中國石油股票股價為啥一直跌 瀏覽:923
大股東擔心股票ST嗎 瀏覽:520
中國石油股票現在適合購買嗎 瀏覽:348
st椰島股票十大股東 瀏覽:330
股票長期投資的方法是 瀏覽:537
能夠劃線的股票app 瀏覽:387
金溢科技股票走勢 瀏覽:573
標普小盤股增長etf股票分析 瀏覽:743
股票漲幅大核查嘛意思 瀏覽:500
上海機場股票今天的走勢 瀏覽:419
怎麼看股票退市風險 瀏覽:281
藍思科技股票編碼 瀏覽:769
怎麼用同花順導出股票數據 瀏覽:199
r怎麼導入股票數據格式 瀏覽:454
再升科技股票股價 瀏覽:166
東方紅股票期貨智能分析系統 瀏覽:715
股票用什麼賺錢嗎 瀏覽:464
ST股票莫名翻倍 瀏覽:560
萬得股票下載app 瀏覽:729