① 如何用Python和機器學習炒股賺錢
如何用Python和機器學習炒股賺錢?(圖片太多未貼,可以去找原文)
我終於跑贏了標准普爾 500 指數 10 個百分點!聽起來可能不是很多,但是當我們處理的是大量流動性很高的資本時,對沖基金的利潤就相當可觀。更激進的做法還能得到更高的回報。
這一切都始於我閱讀了 Gur Huberman 的一篇題為《Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar》的論文。該研究描述了一件發生在 1998 年的涉及到一家上市公司 EntreMed(當時股票代碼是 ENMD)的事件:
「星期天《紐約時報》上發表的一篇關於癌症治療新葯開發潛力的文章導致 EntreMed 的股價從周五收盤時的 12.063 飆升至 85,在周一收盤時接近 52。在接下來的三周,它的收盤價都在 30 以上。這股投資熱情也讓其它生物科技股得到了溢價。但是,這個癌症研究方面的可能突破在至少五個月前就已經被 Nature 期刊和各種流行的報紙報道過了,其中甚至包括《泰晤士報》!因此,僅僅是熱情的公眾關注就能引發股價的持續上漲,即便實際上並沒有出現真正的新信息。」
在研究者給出的許多有見地的觀察中,其中有一個總結很突出:
「(股價)運動可能會集中於有一些共同之處的股票上,但這些共同之處不一定要是經濟基礎。」
我就想,能不能基於通常所用的指標之外的其它指標來劃分股票。我開始在資料庫裡面挖掘,幾周之後我發現了一個,其包含了一個分數,描述了股票和元素周期表中的元素之間的「已知和隱藏關系」的強度。
我有計算基因組學的背景,這讓我想起了基因和它們的細胞信號網路之間的關系是如何地不為人所知。但是,當我們分析數據時,我們又會開始看到我們之前可能無法預測的新關系和相關性。
選擇出的涉及細胞可塑性、生長和分化的信號通路的基因的表達模式
和基因一樣,股票也會受到一個巨型網路的影響,其中各個因素之間都有或強或弱的隱藏關系。其中一些影響和關系是可以預測的。
我的一個目標是創建長的和短的股票聚類,我稱之為「籃子聚類(basket clusters)」,我可以將其用於對沖或單純地從中獲利。這需要使用一個無監督機器學習方法來創建股票的聚類,從而使這些聚類之間有或強或弱的關系。這些聚類將會翻倍作為我的公司可以交易的股票的「籃子(basket)」。
首先我下載了一個數據集:http://54.174.116.134/recommend/datasets/supercolumns-elements-08.html,這個數據集基於元素周期表中的元素和上市公司之間的關系。
然後我使用了 Python 和一些常用的機器學習工具——scikit-learn、numpy、pandas、matplotlib 和 seaborn,我開始了解我正在處理的數據集的分布形狀。為此我參考了一個題為《Principal Component Analysis with KMeans visuals》的 Kaggle Kernel:https://www.kaggle.com/arthurtok/principal-component-analysis-with-kmeans-visuals
importnumpy asnp
importpandas aspd
fromsklearn.decomposition
importPCA
fromsklearn.cluster
importKMeans
importmatplotlib.pyplot asplt
importseaborn assbnp.seterr(divide= 'ignore', invalid= 'ignore')
# Quick way to test just a few column features
# stocks = pd.read_csv('supercolumns-elements-nasdaq-nyse-otcbb-general-UPDATE-2017-03-01.csv', usecols=range(1,16))
stocks = pd.read_csv( 'supercolumns-elements-nasdaq-nyse-otcbb-general-UPDATE-2017-03-01.csv')print(stocks.head())str_list = []
forcolname, colvalue instocks.iteritems():
iftype(colvalue[ 1]) == str: str_list.append(colname)
# Get to the numeric columns by inversion
num_list = stocks.columns.difference(str_list)stocks_num = stocks[num_list]print(stocks_num.head())
輸出:簡單看看前面 5 行:
概念特徵的皮爾遜相關性(Pearson Correlation)。在這里案例中,是指來自元素周期表的礦物和元素:
stocks_num = stocks_num.fillna(value= 0, axis= 1)X = stocks_num.values
fromsklearn.preprocessing importStandardScalerX_std = StandardScaler().fit_transform(X)f, ax = plt.subplots(figsize=( 12, 10))plt.title( 'Pearson Correlation of Concept Features (Elements & Minerals)')
# Draw the heatmap using seaborn
sb.heatmap(stocks_num.astype(float).corr(),linewidths= 0.25,vmax= 1.0, square= True, cmap= "YlGnBu", linecolor= 'black', annot= True)sb.plt.show()
輸出:(這個可視化例子是在前 16 個樣本上運行得到的)。看到元素周期表中的元素和上市公司關聯起來真的很有意思。在某種程度時,我想使用這些數據基於公司與相關元素或材料的相關性來預測其可能做出的突破。
測量「已解釋方差(Explained Variance)」和主成分分析(PCA)
已解釋方差=總方差-殘差方差(explained variance = total variance - resial variance)。應該值得關注的 PCA 投射組件的數量可以通過已解釋方差度量(Explained Variance Measure)來引導。Sebastian Raschka 的關於 PCA 的文章對此進行了很好的描述,參閱:http://sebastianraschka.com/Articles/2015_pca_in_3_steps.html
# Calculating Eigenvectors and eigenvalues of Cov matirx
mean_vec = np.mean(X_std, axis= 0)cov_mat = np.cov(X_std.T)eig_vals, eig_vecs = np.linalg.eig(cov_mat)
# Create a list of (eigenvalue, eigenvector) tuples
eig_pairs = [ (np.abs(eig_vals[i]),eig_vecs[:,i]) fori inrange(len(eig_vals))]
# Sort from high to low
eig_pairs.sort(key = lambdax: x[ 0], reverse= True)
# Calculation of Explained Variance from the eigenvaluestot = sum(eig_vals)var_exp = [(i/tot)* 100fori insorted(eig_vals, reverse= True)] cum_var_exp = np.cumsum(var_exp)
# Cumulative explained variance# Variances plot
max_cols = len(stocks.columns) - 1plt.figure(figsize=( 10, 5))plt.bar(range(max_cols), var_exp, alpha= 0.3333, align= 'center', label= 'indivial explained variance', color = 'g')plt.step(range(max_cols), cum_var_exp, where= 'mid',label= 'cumulative explained variance')plt.ylabel( 'Explained variance ratio')plt.xlabel( 'Principal components')plt.legend(loc= 'best')plt.show()
輸出:
從這個圖表中我們可以看到大量方差都來自於預測主成分的前 85%。這是個很高的數字,所以讓我們從低端的開始,先只建模少數幾個主成分。更多有關分析主成分合理數量的信息可參閱:http://setosa.io/ev/principal-component-analysis
使用 scikit-learn 的 PCA 模塊,讓我們設 n_components = 9。代碼的第二行調用了 fit_transform 方法,其可以使用標准化的電影數據 X_std 來擬合 PCA 模型並在該數據集上應用降維(dimensionality rection)。
pca = PCA(n_components= 9)x_9d = pca.fit_transform(X_std)plt.figure(figsize = ( 9, 7))plt.scatter(x_9d[:, 0],x_9d[:, 1], c= 'goldenrod',alpha= 0.5)plt.ylim( -10, 30)plt.show()
輸出:
這里我們甚至沒有真正觀察到聚類的些微輪廓,所以我們很可能應該繼續調節 n_component 的值直到我們得到我們想要的結果。這就是數據科學與藝術(data science and art)中的「藝術」部分。
現在,我們來試試 K-均值,看看我們能不能在下一章節可視化任何明顯的聚類。
K-均值聚類(K-Means Clustering)
我們將使用 PCA 投射數據來實現一個簡單的 K-均值。使用 scikit-learn 的 KMeans() 調用和 fit_predict 方法,我們可以計算聚類中心並為第一和第三個 PCA 投射預測聚類索引(以便了解我們是否可以觀察到任何合適的聚類)。然後我們可以定義我們自己的配色方案並繪制散點圖,代碼如下所示:
# Set a 3 KMeans clustering
kmeans = KMeans(n_clusters= 3)
# Compute cluster centers and predict cluster indices
X_clustered = kmeans.fit_predict(x_9d) # Define our own color map
LABEL_COLOR_MAP = { 0: 'r', 1: 'g', 2: 'b'}label_color = [LABEL_COLOR_MAP[l] forl inX_clustered]
# Plot the scatter digram
plt.figure(figsize = ( 7, 7))plt.scatter(x_9d[:, 0],x_9d[:, 2], c= label_color, alpha= 0.5)plt.show()
輸出:
這個 K-均值散點圖看起來更有希望,好像我們簡單的聚類模型假設就是正確的一樣。我們可以通過這種顏色可視化方案觀察到 3 個可區分開的聚類。
當然,聚類和可視化數據集的方法還有很多,參考:https://goo.gl/kGy3ra使用 seaborn 方便的 pairplot 函數,我可以以成對的方式在數據框中自動繪制所有的特徵。我們可以一個對一個地 pairplot 前面 3 個投射並可視化:
# Create a temp dataframe from our PCA projection data "x_9d"
df = pd.DataFrame(x_9d)df = df[[ 0, 1, 2]]df[ 'X_cluster'] = X_clustered
# Call Seaborn's pairplot to visualize our KMeans clustering on the PCA projected data
sb.pairplot(df, hue= 'X_cluster', palette= 'Dark2', diag_kind= 'kde', size= 1.85)sb.plt.show()
輸出:
構建籃子聚類(Basket Clusters)
你應該自己決定如何微調你的聚類。這方面沒有什麼萬靈葯,具體的方法取決於你操作的環境。在這個案例中是由隱藏關系所定義的股票和金融市場。
一旦你的聚類使你滿意了,你就可以設置分數閾值來控制特定的股票是否有資格進入一個聚類,然後你可以為一個給定的聚類提取股票,將它們作為籃子進行交易或使用這些籃子作為信號。你可以使用這種方法做的事情很大程度就看你自己的創造力以及你在使用深度學習變體來進行優化的水平,從而基於聚類或數據點的概念優化每個聚類的回報,比如 short interest 或 short float(公開市場中的可用股份)。
你可以注意到了這些聚類被用作籃子交易的方式一些有趣特徵。有時候標准普爾和一般市場會存在差異。這可以提供本質上基於「信息套利(information arbitrage)」的套利機會。一些聚類則和谷歌搜索趨勢相關。
看到聚類和材料及它們的供應鏈相關確實很有意思,正如這篇文章說的一樣:https://www.fairphone.com/en/2017/05/04/zooming-in-10-materials-and-their-supply-chains/
我僅僅使用該數據集操作了 Cobalt(鈷)、Copper(銅)、Gallium(鎵)和 Graphene(石墨烯)這幾個列標簽,只是為了看我是否可能發現從事這一領域或受到這一領域的風險的上市公司之間是否有任何隱藏的聯系。這些籃子和標准普爾的回報進行了比較。
通過使用歷史價格數據(可直接在 Quantopian、Numerai、Quandl 或 Yahoo Finance 使用),然後你可以匯總價格數據來生成預計收益,其可使用 HighCharts 進行可視化:
我從該聚類中獲得的回報超過了標准普爾相當一部分,這意味著你每年的收益可以比標准普爾還多 10%(標准普爾近一年來的漲幅為 16%)。我還見過更加激進的方法可以凈掙超過 70%。現在我必須承認我還做了一些其它的事情,但因為我工作的本質,我必須將那些事情保持黑箱。但從我目前觀察到的情況來看,至少圍繞這種方法探索和包裝新的量化模型可以證明是非常值得的,而其唯一的缺點是它是一種不同類型的信號,你可以將其輸入其它系統的流程中。
生成賣空籃子聚類(short basket clusters)可能比生成買空籃子聚類(long basket clusters)更有利可圖。這種方法值得再寫一篇文章,最好是在下一個黑天鵝事件之前。
如果你使用機器學習,就可能在具有已知和隱藏關系的上市公司的寄生、共生和共情關系之上搶佔先機,這是很有趣而且可以盈利的。最後,一個人的盈利能力似乎完全關乎他在生成這些類別的數據時想出特徵標簽(即概念(concept))的強大組合的能力。
我在這類模型上的下一次迭代應該會包含一個用於自動生成特徵組合或獨特列表的單獨演算法。也許會基於近乎實時的事件,這可能會影響那些具有隻有配備了無監督學習演算法的人類才能預測的隱藏關系的股票組。
② 常用的15個數據源網站,可以滿足你95%的日常取數需求!趕緊收藏
前面介紹過實用的效率小工具,真的幫了我很多忙,這次給小夥伴們再種草一些數據源網站。
現在有很多免費的數據可以供使用分析,不過很少有人能找的到,或者沒能力找,這就是所謂的信息差吧。其實數據獲取分為兩方面,一是「拿來的」數據,也就是現成的;二是「爬來的」數據,這種一般通過爬蟲等手段去採集數據。
「拿來的」數據可以在各大官方平台或者社區去找,一般各行各業都會有自己的資料庫。我常用的數據網站有以下這些:
網路指數: 網路搜索匯總的數據,能看到各種關鍵詞的搜索熱度趨勢,優點數據量大,能反映真實的話題熱度變化,適合做需求洞察、用戶畫像、輿情監測、市場分析。
網路指數規則,是以網民在網路的搜索量為數據基礎,以關鍵詞為統計對象,科學分析並計算出各個關鍵詞在網路網頁搜索中搜索頻次的加權和。
微信指數: 微信生態的大數據,反映關鍵詞熱度,和網路指數類似。但微信指數數據來源微信各種內容渠道,包括搜一搜、視頻號、公眾號等,適合做微信生態人群畫像、內容推廣、輿情監控的研究。
Google Trends: 和網路指數類似的產品,基於google生態匯總的大數據。比網路數據來源更豐富也更廣泛,包含了google、youtube等,畢竟是全球應用。缺點是對國內搜索分析的指導意義不大,還是網路指數更具指導意義。
微博指數: 微博內容提及量、閱讀量、互動量加權得出的綜合指數,優點比較有時效性,而且數據基數大,可以實時反映熱度變化情況,適合實時捕捉當前 社會 熱點事件、熱點話題等,快速響應輿論走向等。
這種數據包含了網站、APP、自媒體賬號等監測數據,大多是商業付費類
Alexa: 用於查詢全球網站排名和流量的平台,可以看到PV、UV、排名、區域分布等信息。
新榜: 新媒體專屬的數據平台,用於查看抖音、快手、公眾號、小紅書等平台KOL賬號的數據。數據包括了粉絲、瀏覽、互動、聲量等,一般用於廣告投放監測、自媒體數據運營等。
貓眼數據: 影視相關數據。匯總了電影票房、網播熱度、電視收視等數據,適合做票房預測、節目熱度監測。
艾瑞指數: APP、Web、手機等排行榜數據,包括各大移動設備裝機指數、APP熱度指數、PC Web熱度指數、網路廣告指數等等,適合做廣告營銷投放等。
新浪 財經 數據中心:新浪 財經 大數據,匯總了股票、基金、期貨、黃金、貨幣等各種 財經 數據,種類很齊全,應該有數據介面。
Wind:國內比較早的金融數據服務商,數據種類最齊全,而且有各種金融分析工具,也支持Python、R等量化分析。但Wind很貴,個人很難承擔的起。
Tushare: 免費的金融資料庫,支持Python介面,數據也非常齊全,包含了股票、基金、期權、債券、外匯、公司報表等各種 財經 數據。只要你會用Python,就可以調用裡面的各種數據,非常便捷。
這種一般包含政府開放數據、統計數據,以及各種民生數據。
國家統計局: 最權威的國內宏觀數據網站,包括人口、經濟、農業等等。
上海公共數據開放平台: 上海市各行各業的免費數據,對公眾開放下載,非常適合做城市規劃分析。
其他城市官方數據:
這一類數據適合做機器學習、統計分析、演算法研究等,是學術界、工業界用於數據驅動業務典型數據。
kaggle: 全球最大的數據科學比賽平台,也是google旗下的產品。kaggle擁有豐富的數據集和各種解決方案,適合對數據感興趣的小夥伴去研究學習。
天池: 阿里雲裡面的數據比賽平台,也擁有很多比賽數據,質量相對較高。
③ Kaggle如何入門
在學習過深度學習的基礎知識之後,參與實踐是繼續提高自己的最好途徑。
在每個競賽的「Overview」選項卡上,可以看到關於比賽及其數據集的一些信息、提交有效結果的評估標准(每個競賽都略有不同),以及該競賽的 FAQ。在「Data」(數據)選項卡上,你可以看到數據的簡要說明。
需要的是這三個文件:train.csv、test.csv 和 data_description.txt,請將它們放在你可以快速訪問的文件夾里。「Discussions」(討論)選項卡就像競賽的專屬論壇,在流行的競賽中,這些討論中經常包含非常有價值的信息,因為競賽條款有時會要求參與者必須在討論版上公開他們所使用的任何信息。
數據泄露是很難避免和處理的,偶爾也會發生在競賽中。一方面,充分利用數據才能得到更高的分數贏得競賽;但另一方面,結合了數據泄露的模型通常對於實踐來說是無用的,所以也不被競賽支持。勤奮的參與者經常會在討論版上分享數據泄露以幫助競賽環境變得更好。
相關信息
Kaggle是由聯合創始人、首席執行官安東尼·高德布盧姆2010年在墨爾本創立的,主要為開發商和數據科學家提供舉辦機器學習競賽、託管資料庫、編寫和分享代碼的平台。該平台已經吸引了80萬名數據科學家的關注,這些用戶資源或許正是吸引谷歌的主要因素。
Kaggle公司是由聯合創始人兼首席執行官AnthonyGoldbloom2010年在墨爾本創立的,主要是為開發商和數據科學家提供舉辦機器學習競賽、託管資料庫、編寫和分享代碼的平台。這一平台已經吸引了許多科學家和開發者的關注,他們也紛紛入駐這一平台。