股票數據聚類分析_股指期貨對股票市場影響實證分析

㈠股指期貨對股票市場影響實證分析

股指期貨市場以期貨交易方式復制了現貨交易，猶如給原本單軌運行的股票市場又鋪了另一條軌道，對維護股市穩定、健康、可持續發展具有積極作用。長期以來，我

㈡求股票交易價格計算方法。

舉個例子：某日某股票在集合竟價時間內的買賣申報狀況如下，求集合競價成交價格。 12元價位的成交量最大，為440手，高於12.00元價位的買入委託300手和低於12.00元價位的賣出委託280手全部滿足成交願望。三個條件全部具備，因此12.00元為該股票當日的集合競價的成交價格，即當日開盤。

股票的理論價格的計算公式是：預期股息/市場利率。
得出來的價格一般與發行價格相同，但是發行價格不得低於票面金額。其發行價格一般多於票面價格0.01元，其發行價格為1.01元。市場價格一般是指在二級市場上買賣的價格，是由股票的供求關系決定並受多種因素影響，起伏變化較大。而交易的價格又相對於發行價格而言的一種價格，是指買賣雙方對已經發行過的證券進行交易時報出或成交的價格。
股票交易成交價格是由影響股票價格的各種因素共同作用的結果。從交易技術的角度來看股票交易價格是如何產生的。
1.股票交易按價格優先、時間優先的原則竟價撮合成交。價格優先是指較高價格買進申報優先於較低價格買進申報，較低價格賣出申報優先於較高價格賣出申報。而時間優先是指買賣方向、價格相同的，先申報者優先於後申報者。先後順序按交易主機接受申報的時間確定。 2。集合競價時，成交價格的確定原則是a。成交量最大的價位b。高於成交價格的買進申報與低於成交價格的賣出申報全部成交c。與成交價格相同的買方或賣方至少有一方全部成交。兩個以上價位符合上述條件的，上交所取其中間價為成交價，深交所取距前收盤價最低的價位為成交價。集合竟價的所有交易以同一價格成交。

另外除股價外還有股票交易費。
股票交易費用是指投資者在委託買賣證券時應支付的各種稅收和費用的總和，通常包括印花稅、傭金、過戶費、其他費用等幾個方面的內容。

一、印花稅

印花稅是根據國家稅法規定，在股票(包括A股和B股)成交後對買賣雙方投資者按照規定的稅率分別徵收的稅金。印花稅的繳納是由證券經營機構在同投資者交割中代為扣收，然後在證券經營機構同證券交易所或登記結算機構的清算交割中集中結算，最後由登記結算機構統一向征稅機關繳納。其收費標準是按A股成交金額的4‰計收，基金、債券等均無此項費用。

二、傭金

傭金是指投資者在委託買賣證券成交之後按成交金額的一定比例支付給券商的費用。此項費用一般由券商的經紀傭金、證券交易所交易經手費及管理機構的監管費等構成。

三、過戶費

過戶費是指投資者委託買賣的股票、基金成交後買賣雙方為變更股權登記所支付的費用。這筆收入屬於證券登記清算機構的收入，由證券經營機構在同投資者清算交割時代為扣收。過戶費的收費標准為：上海證券交易所A股、基金交易的過戶費為成交票面金額的1‰，起點為1元，其中0.5‰由證券經營機構交登記公司;深圳證券交易所免收A股、基金、債券的交易過戶費。

四、其他費用

其他費用是指投資者在委託買賣證券時，向證券營業部繳納的委託費(通訊費)、撤單費、查詢費、開戶費、磁卡費以及電話委託、自助委託的刷卡費、超時費等。這些費用主要用於通訊、設備、單證製作等方面的開支。

其中委託費在一般情況下，投資者在上海、深圳本地買賣滬、深證券交易所的證券時，向證券營業部繳納1元委託費，異地繳納5元委託費。其他費用由券商根據需要酌情收取，一般沒有明確的收費標准，只要其收費得到當地物價部門批准即可，目前有相當多的證券經營機構出於競爭的考慮而減免部分或全部此類費用。

㈢分類數據分析中的擬合優度檢驗

知識圖譜
繼續我們的知識總結，本文總結包括：多選題研究、聚類分析研究、權重研究、非參數檢驗、數據分布。
查看本系列之前的文章，可點擊下面的鏈接：論文里的分析方法要用哪一種，SPSSAU告訴你答案論文常用數據分析方法分類總結-2
11. 多選題研究
多選題分析-SPSSAU
多選題分析可分為四種類型包括：多選題、單選-多選、多選-單選、多選-多選。
「多選題分析」是針對單個多選題的分析方法，可分析多選題各項的選擇比例情況
「單選-多選」是針對X為單選，Y為多選的情況使用的方法，可分析單選和多選題的關系。
「多選-單選」是針對X為多選，Y為單選的情況使用的方法。
「多選-多選」是針對X為多選，Y為多選的情況使用的方法。
12. 聚類分析
聚類分析-SPSSAU
聚類分析以多個研究標題作為基準，對樣本對象進行分類。
如果是按樣本聚類，則使用SPSSAU的進階方法模塊中的「聚類」功能，系統會自動識別出應該使用K-means聚類演算法還是K-prototype聚類演算法。
如果是按變數（標題）聚類，此時應該使用分層聚類，並且結合聚類樹狀圖進行綜合判定分析。
13. 權重研究
權重研究-SPSSAU
權重研究是用於分析各因素或指標在綜合體系中的重要程度，最終構建出權重體系。權重研究有多種方法包括：因子分析、熵值法、AHP層次分析法、TOPSIS、模糊綜合評價、灰色關聯等。
因子分析：因子分析可將多個題項濃縮成幾個概括性指標（因子），然後對新生成的各概括性指標計算權重。
熵值法：熵值法是利用熵值攜帶的信息計算每個指標的權重，通常可配合因子分析或主成分分析得到一級權重，利用熵值法計算二級權重。
AHP層次分析法：AHP層次分析法是一種主觀加客觀賦值的計算權重的方法。先通過專家打分構造判斷矩陣，然後量化計算每個指標的權重。
TOPSIS法：TOPSIS權重法是一種評價多個樣本綜合排名的方法，用於比較樣本的排名。
模糊綜合評價：是通過各指標的評價和權重對評價對象得出一個綜合性評價。
灰色關聯：灰色關聯是一種評價多個指標綜合排名的方法，用於判斷指標排名。
14. 非參數檢驗
非參數檢驗-SPSSAU
非參數檢驗用於研究定類數據與定量數據之間的關系情況。如果數據不滿足正態性或方差不齊，可用非參數檢驗。
單樣本Wilcoxon檢驗用於檢驗數據是否與某數字有明顯的區別。
如果X的組別為兩組，則使用MannWhitney統計量，如果組別超過兩組，則應該使用Kruskal-Wallis統計量結果，SPSSAU可自動選擇。
如果是配對數據，則使用配對樣本Wilcoxon檢驗
如果要研究多個關聯樣本的差異情況，可以用多樣本Friedman檢驗。
如果是研究定類數據與定量（等級）數據之間的差異性，還可以使用Ridit分析。
15. 數據分布
數據分布-SPSSAU
判斷數據分布是選擇正確分析方法的重要前提。
正態性：很多分析方法的使用前提都是要求數據服從正態性，比如線性回歸分析、相關分析、方差分析等，可通過正態圖、P-P/Q-Q圖、正態性檢驗查看數據正態性。
隨機性：遊程檢驗是一種非參數性統計假設的檢驗方法，可用於分析數據是否為隨機。
方差齊性：方差齊檢驗用於分析不同定類數據組別對定量數據時的波動情況是否一致，即方差齊性。方差齊是方差分析的前提，如果不滿足則不能使用方差分析。
Poisson分布：如果要判斷數據是否滿足Poisson分布，可通過Poisson檢驗判斷或者通過特徵進行判斷是否基本符合Poisson分布（三個特徵即：平穩性、獨立性和普通性）
卡方擬合優度檢驗：卡方擬合優度檢驗是一種非參數檢驗方法，其用於研究實際比例情況，是否與預期比例表現一致，但只針對於類別數據。
單樣本T檢驗：單樣本T檢驗用於分析定量數據是否與某個數字有著顯著的差異性。
上述分析方法均可在SPSSAU中使用分析，以及相關方法問題可查看SPSSAU幫助手冊。

㈣什麼演算法可以改進lstm

基於模糊聚類演算法改進lstm的預測方法。
發明的目的在於解決股票市場中的價格預測問題，提供一種基於模糊聚類演算法改進lstm的預測方法，該預測方法引入模糊聚類演算法，對已序列化的數據進行模糊聚類得到隸屬度矩陣，並利用隸屬度矩陣對經過融合的lstm網路輸出進行加權求和，最終得到股票價格預測值，可以有效的模擬股票趨勢中的波動特點及場景，使得預測結果更加准確且符合實際。

㈤請問SPSS軟體在股票和期貨等金融領域的應用

可以用到的是線性回歸分析，以及一些簡單的數據統計

㈥如何用Python和機器學習炒股賺錢

相信很多人都想過讓人工智慧來幫你賺錢，但到底該如何做呢？瑞士日內瓦的一位金融數據顧問 Gaëtan Rickter 近日發表文章介紹了他利用 Python 和機器學習來幫助炒股的經驗，其最終成果的收益率跑贏了長期處於牛市的標准普爾 500 指數。雖然這篇文章並沒有將他的方法完全徹底公開，但已公開的內容或許能給我們帶來如何用人工智慧炒股的啟迪。

我終於跑贏了標准普爾 500 指數 10 個百分點！聽起來可能不是很多，但是當我們處理的是大量流動性很高的資本時，對沖基金的利潤就相當可觀。更激進的做法還能得到更高的回報。

這一切都始於我閱讀了 Gur Huberman 的一篇題為《Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar》的論文。該研究描述了一件發生在 1998 年的涉及到一家上市公司 EntreMed（當時股票代碼是 ENMD）的事件：

「星期天《紐約時報》上發表的一篇關於癌症治療新葯開發潛力的文章導致 EntreMed 的股價從周五收盤時的 12.063 飆升至 85，在周一收盤時接近 52。在接下來的三周，它的收盤價都在 30 以上。這股投資熱情也讓其它生物科技股得到了溢價。但是，這個癌症研究方面的可能突破在至少五個月前就已經被 Nature 期刊和各種流行的報紙報道過了，其中甚至包括《泰晤士報》！因此，僅僅是熱情的公眾關注就能引發股價的持續上漲，即便實際上並沒有出現真正的新信息。」

在研究者給出的許多有見地的觀察中，其中有一個總結很突出：

「（股價）運動可能會集中於有一些共同之處的股票上，但這些共同之處不一定要是經濟基礎。」

我就想，能不能基於通常所用的指標之外的其它指標來劃分股票。我開始在資料庫裡面挖掘，幾周之後我發現了一個，其包含了一個分數，描述了股票和元素周期表中的元素之間的「已知和隱藏關系」的強度。

我有計算基因組學的背景，這讓我想起了基因和它們的細胞信號網路之間的關系是如何地不為人所知。但是，當我們分析數據時，我們又會開始看到我們之前可能無法預測的新關系和相關性。

如果你使用機器學習，就可能在具有已知和隱藏關系的上市公司的寄生、共生和共情關系之上搶佔先機，這是很有趣而且可以盈利的。最後，一個人的盈利能力似乎完全關乎他在生成這些類別的數據時想出特徵標簽（即概念（concept））的強大組合的能力。

我在這類模型上的下一次迭代應該會包含一個用於自動生成特徵組合或獨特列表的單獨演算法。也許會基於近乎實時的事件，這可能會影響那些具有隻有配備了無監督學習演算法的人類才能預測的隱藏關系的股票組。

㈦什麼是指標正向化，什麼是指標負向化

1、指標正向化即正向指標

是代表向上或向前發展、增長的指標，這些指標值越大評價就越好。正向指標也稱效益型指標或望大型指標。正向指標是越大越好，越小越不好，逆向指標是，越小越好，或者越大越不好。

定性研究可以獲得定量研究得不到的信息；所需經費較少，花費的時間相對來說也較短；研究方法較靈活，研究設計可以隨著研究的進展而不斷地加以修改；所需的技術設備較簡單。

2、指標負向化即負成交量指標又稱為負量指標

其作用與正量指標相類似，主要用途除了被利用於尋找買賣點之外，更是偵測大多頭市場的主要分析工具。PVI指標的理論觀點認為，當日的市況如果價跌量縮時，表示大戶主導市場。也就是說，PVI指標主要的功能，在於偵測行情是否屬於大戶市場。

由於散戶扮演著行情追隨者的角色，並且具有追漲殺跌的特徵。當行情出現價漲量增的走勢時，散戶的信心增加，介入市場的動機轉為積極。此時，財力雄厚的「莊家」或者「大戶」，正好趁行情活絡的機會，順勢調節股票。

(7)股票數據聚類分析擴展閱讀：

金融交易市場中，大戶資金的推波助瀾，確實扮演著重要角色。由於大戶資金雄厚，具有鎖定籌碼的功能，因此，大部分股民選擇股票時，喜歡跟隨莊家大戶進出。也就是說，一般股民認為，凡是莊家大戶積極介入的股票，大致上都有一段利潤不錯的趨勢行情。

雖然大戶的資金，對於推動股價行情，具有關鍵性的力量。但是，散戶的資金也是一股不可忽視的力量。只有大戶資金的市場，行情的發展有限。一個全面大多頭的行情，必須擁有大戶與散戶集體推動的力量。

NVI指標與PVI指標實際上是同樣的作用，只是觀察的目標不同而已。如果兩種指標的訊號同時發生，一般可視為「大多頭」行情來臨前的重要徵兆。

㈧數據挖掘演算法與生活中的應用案例

數據挖掘演算法與生活中的應用案例

如何分辨出垃圾郵件」、「如何判斷一筆交易是否屬於欺詐」、「如何判斷紅酒的品質和檔次」、「掃描王是如何做到文字識別的」、「如何判斷佚名的著作是否出自某位名家之手」、「如何判斷一個細胞是否屬於腫瘤細胞」等等，這些問題似乎都很專業，都不太好回答。但是，如果了解一點點數據挖掘的知識，你，或許會有柳暗花明的感覺。
本文，主要想簡單介紹下數據挖掘中的演算法，以及它包含的類型。然後，通過現實中觸手可及的、活生生的案例，去詮釋它的真實存在。一般來說，數據挖掘的演算法包含四種類型，即分類、預測、聚類、關聯。前兩種屬於有監督學習，後兩種屬於無監督學習，屬於描述性的模式識別和發現。
有監督學習有監督的學習，即存在目標變數，需要探索特徵變數和目標變數之間的關系，在目標變數的監督下學習和優化演算法。例如，信用評分模型就是典型的有監督學習，目標變數為「是否違約」。演算法的目的在於研究特徵變數（人口統計、資產屬性等）和目標變數之間的關系。
分類演算法分類演算法和預測演算法的最大區別在於，前者的目標變數是分類離散型（例如，是否逾期、是否腫瘤細胞、是否垃圾郵件等），後者的目標變數是連續型。一般而言，具體的分類演算法包括，邏輯回歸、決策樹、KNN、貝葉斯判別、SVM、隨機森林、神經網路等。
預測演算法預測類演算法，其目標變數一般是連續型變數。常見的演算法，包括線性回歸、回歸樹、神經網路、SVM等。
無監督學習無監督學習，即不存在目標變數，基於數據本身，去識別變數之間內在的模式和特徵。例如關聯分析，通過數據發現項目A和項目B之間的關聯性。例如聚類分析，通過距離，將所有樣本劃分為幾個穩定可區分的群體。這些都是在沒有目標變數監督下的模式識別和分析。
聚類分析聚類的目的就是實現對樣本的細分，使得同組內的樣本特徵較為相似，不同組的樣本特徵差異較大。常見的聚類演算法包括kmeans、系譜聚類、密度聚類等。
關聯分析關聯分析的目的在於，找出項目（item）之間內在的聯系。常常是指購物籃分析，即消費者常常會同時購買哪些產品（例如游泳褲、防曬霜），從而有助於商家的捆綁銷售。
基於數據挖掘的案例和應用上文所提到的四種演算法類型（分類、預測、聚類、關聯），是比較傳統和常見的。還有其他一些比較有趣的演算法分類和應用場景，例如協同過濾、異常值分析、社會網路、文本分析等。下面，想針對不同的演算法類型，具體的介紹下數據挖掘在日常生活中真實的存在。下面是能想到的、幾個比較有趣的、和生活緊密關聯的例子。
基於分類模型的案例這裡面主要想介紹兩個案例，一個是垃圾郵件的分類和判斷，另外一個是在生物醫葯領域的應用，即腫瘤細胞的判斷和分辨。
垃圾郵件的判別郵箱系統如何分辨一封Email是否屬於垃圾郵件？這應該屬於文本挖掘的范疇，通常會採用樸素貝葉斯的方法進行判別。它的主要原理是，根據郵件正文中的單詞，是否經常出現在垃圾郵件中，進行判斷。例如，如果一份郵件的正文中包含「報銷」、「發票」、「促銷」等詞彙時，該郵件被判定為垃圾郵件的概率將會比較大。
一般來說，判斷郵件是否屬於垃圾郵件，應該包含以下幾個步驟。
第一，把郵件正文拆解成單片語合，假設某篇郵件包含100個單詞。
第二，根據貝葉斯條件概率，計算一封已經出現了這100個單詞的郵件，屬於垃圾郵件的概率和正常郵件的概率。如果結果表明，屬於垃圾郵件的概率大於正常郵件的概率。那麼該郵件就會被劃為垃圾郵件。
醫學上的腫瘤判斷如何判斷細胞是否屬於腫瘤細胞呢？腫瘤細胞和普通細胞，有差別。但是，需要非常有經驗的醫生，通過病理切片才能判斷。如果通過機器學習的方式，使得系統自動識別出腫瘤細胞。此時的效率，將會得到飛速的提升。並且，通過主觀（醫生）+客觀（模型）的方式識別腫瘤細胞，結果交叉驗證，結論可能更加靠譜。
如何操作？通過分類模型識別。簡言之，包含兩個步驟。首先，通過一系列指標刻畫細胞特徵，例如細胞的半徑、質地、周長、面積、光滑度、對稱性、凹凸性等等，構成細胞特徵的數據。其次，在細胞特徵寬表的基礎上，通過搭建分類模型進行腫瘤細胞的判斷。
基於預測模型的案例這裡面主要想介紹兩個案例。即通過化學特性判斷和預測紅酒的品質。另外一個是，通過搜索引擎來預測和判斷股價的波動和趨勢。
紅酒品質的判斷如何評鑒紅酒？有經驗的人會說，紅酒最重要的是口感。而口感的好壞，受很多因素的影響，例如年份、產地、氣候、釀造的工藝等等。但是，統計學家並沒有時間去品嘗各種各樣的紅酒，他們覺得通過一些化學屬性特徵就能夠很好地判斷紅酒的品質了。並且，現在很多釀酒企業其實也都這么幹了，通過監測紅酒中化學成分的含量，從而控制紅酒的品質和口感。
那麼，如何判斷鑒紅酒的品質呢？
第一步，收集很多紅酒樣本，整理檢測他們的化學特性，例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等等。
第二步，通過分類回歸樹模型進行預測和判斷紅酒的品質和等級。
搜索引擎的搜索量和股價波動一隻南美洲熱帶雨林中的蝴蝶，偶爾扇動了幾下翅膀，可以在兩周以後，引起美國德克薩斯州的一場龍卷風。你在互聯網上的搜索是否會影響公司股價的波動？
很早之前，就已經有文獻證明，互聯網關鍵詞的搜索量（例如流感）會比疾控中心提前1到2周預測出某地區流感的爆發。
同樣，現在也有些學者發現了這樣一種現象，即公司在互聯網中搜索量的變化，會顯著影響公司股價的波動和趨勢，即所謂的投資者注意力理論。該理論認為，公司在搜索引擎中的搜索量，代表了該股票被投資者關注的程度。因此，當一隻股票的搜索頻數增加時，說明投資者對該股票的關注度提升，從而使得該股票更容易被個人投資者購買，進一步地導致股票價格上升，帶來正向的股票收益。這是已經得到無數論文驗證了的。
基於關聯分析的案例：沃爾瑪的啤酒尿布啤酒尿布是一個非常非常古老陳舊的故事。故事是這樣的，沃爾瑪發現一個非常有趣的現象，即把尿布與啤酒這兩種風馬牛不相及的商品擺在一起，能夠大幅增加兩者的銷量。原因在於，美國的婦女通常在家照顧孩子，所以，她們常常會囑咐丈夫在下班回家的路上為孩子買尿布，而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。沃爾瑪從數據中發現了這種關聯性，因此，將這兩種商品並置，從而大大提高了關聯銷售。
啤酒尿布主要講的是產品之間的關聯性，如果大量的數據表明，消費者購買A商品的同時，也會順帶著購買B產品。那麼A和B之間存在關聯性。在超市中，常常會看到兩個商品的捆綁銷售，很有可能就是關聯分析的結果。
基於聚類分析的案例：零售客戶細分對客戶的細分，還是比較常見的。細分的功能，在於能夠有效的劃分出客戶群體，使得群體內部成員具有相似性，但是群體之間存在差異性。其目的在於識別不同的客戶群體，然後針對不同的客戶群體，精準地進行產品設計和推送，從而節約營銷成本，提高營銷效率。
例如，針對商業銀行中的零售客戶進行細分，基於零售客戶的特徵變數（人口特徵、資產特徵、負債特徵、結算特徵），計算客戶之間的距離。然後，按照距離的遠近，把相似的客戶聚集為一類，從而有效的細分客戶。將全體客戶劃分為諸如，理財偏好者、基金偏好者、活期偏好者、國債偏好者、風險均衡者、渠道偏好者等。
基於異常值分析的案例：支付中的交易欺詐偵測採用支付寶支付時，或者刷信用卡支付時，系統會實時判斷這筆刷卡行為是否屬於盜刷。通過判斷刷卡的時間、地點、商戶名稱、金額、頻率等要素進行判斷。這裡面基本的原理就是尋找異常值。如果您的刷卡被判定為異常，這筆交易可能會被終止。
異常值的判斷，應該是基於一個欺詐規則庫的。可能包含兩類規則，即事件類規則和模型類規則。第一，事件類規則，例如刷卡的時間是否異常（凌晨刷卡）、刷卡的地點是否異常（非經常所在地刷卡）、刷卡的商戶是否異常（被列入黑名單的套現商戶）、刷卡金額是否異常（是否偏離正常均值的三倍標准差）、刷卡頻次是否異常（高頻密集刷卡）。第二，模型類規則，則是通過演算法判定交易是否屬於欺詐。一般通過支付數據、賣家數據、結算數據，構建模型進行分類問題的判斷。
基於協同過濾的案例：電商猜你喜歡和推薦引擎電商中的猜你喜歡，應該是大家最為熟悉的。在京東商城或者亞馬遜購物，總會有「猜你喜歡」、「根據您的瀏覽歷史記錄精心為您推薦」、「購買此商品的顧客同時也購買了商品」、「瀏覽了該商品的顧客最終購買了商品」，這些都是推薦引擎運算的結果。
這裡面，確實很喜歡亞馬遜的推薦，通過「購買該商品的人同時購買了**商品」，常常會發現一些質量比較高、較為受認可的書。一般來說，電商的「猜你喜歡」（即推薦引擎）都是在協同過濾演算法（Collaborative Filter）的基礎上，搭建一套符合自身特點的規則庫。即該演算法會同時考慮其他顧客的選擇和行為，在此基礎上搭建產品相似性矩陣和用戶相似性矩陣。基於此，找出最相似的顧客或最關聯的產品，從而完成產品的推薦。
基於社會網路分析的案例：電信中的種子客戶種子客戶和社會網路，最早出現在電信領域的研究。即，通過人們的通話記錄，就可以勾勒出人們的關系網路。電信領域的網路，一般會分析客戶的影響力和客戶流失、產品擴散的關系。
基於通話記錄，可以構建客戶影響力指標體系。採用的指標，大概包括如下，一度人脈、二度人脈、三度人脈、平均通話頻次、平均通話量等。基於社會影響力，分析的結果表明，高影響力客戶的流失會導致關聯客戶的流失。其次，在產品的擴散上，選擇高影響力客戶作為傳播的起點，很容易推動新套餐的擴散和滲透。
此外，社會網路在銀行（擔保網路）、保險（團伙欺詐）、互聯網（社交互動）中也都有很多的應用和案例。
基於文本分析的案例這裡面主要想介紹兩個案例。一個是類似「掃描王」的APP，直接把紙質文檔掃描成電子文檔。相信很多人都用過，這里准備簡單介紹下原理。另外一個是，江湖上總是傳言紅樓夢的前八十回和後四十回，好像並非都是出自曹雪芹之手，這裡面准備從統計的角度聊聊。
字元識別：掃描王APP手機拍照時會自動識別人臉，還有一些APP，例如掃描王，可以掃描書本，然後把掃描的內容自動轉化為word。這些屬於圖像識別和字元識別（Optical Character Recognition）。圖像識別比較復雜，字元識別理解起來比較容易些。
查找了一些資料，字元識別的大概原理如下，以字元S為例。
第一，把字元圖像縮小到標准像素尺寸，例如12*16。注意，圖像是由像素構成，字元圖像主要包括黑、白兩種像素。
第二，提取字元的特徵向量。如何提取字元的特徵，採用二維直方圖投影。就是把字元（12*16的像素圖）往水平方向和垂直方向上投影。水平方向有12個維度，垂直方向有16個維度。這樣分別計算水平方向上各個像素行中黑色像素的累計數量、垂直方向各個像素列上的黑色像素的累計數量。從而得到水平方向12個維度的特徵向量取值，垂直方向上16個維度的特徵向量取值。這樣就構成了包含28個維度的字元特徵向量。
第三，基於前面的字元特徵向量，通過神經網路學習，從而識別字元和有效分類。
文學著作與統計：紅樓夢歸屬這是非常著名的一個爭論，懸而未決。對於紅樓夢的作者，通常認為前80回合是曹雪芹所著，後四十回合為高鶚所寫。其實主要問題，就是想確定，前80回合和後40回合是否在遣詞造句方面存在顯著差異。
這事讓一群統計學家比較興奮了。有些學者通過統計名詞、動詞、形容詞、副詞、虛詞出現的頻次，以及不同詞性之間的相關系做判斷。有些學者通過虛詞（例如之、其、或、亦、了、的、不、把、別、好），判斷前後文風的差異。有些學者通過場景（花卉、樹木、飲食、醫葯與詩詞）頻次的差異，來做統計判斷。總而言之，主要通過一些指標量化，然後比較指標之間是否存在顯著差異，藉此進行寫作風格的判斷。

以上是小編為大家分享的關於數據挖掘演算法與生活中的應用案例的相關內容，更多信息可以關注環球青藤分享更多干貨

㈨波動聚類（volatility clustering）

經典資本市場理論在描述股票市場收益率變化時，所採用的計量模型一般都假定收益率方差保持不變。這一模型符合金融市場中有效市場理論，運用簡便，常用來預測和估算股票價格。但對金融數據的大量實證研究表明，有些假設不甚合理。一些金融時間序列常常會出現某一特徵的值成群出現的現象。如對股票收益率建模，其隨機攪動項往往在較大幅度波動後面伴隨著較大幅度的波動，在較小波動幅度後面緊接著較小幅度的波動，這種性質稱為波動率聚類(volatility clustering)。該現象的出現源於外部沖擊對股價波動的持續性影響，在收益率的分布上則表現為出尖峰厚尾（fattails）的特徵。

㈩如何進行行業分類

□大摩華鑫基金公司張靖
行業投資作為一種重要的資產配置手段，是獲取超額收益的重要來源。在國民經濟發展和宏觀經濟周期的不同階段，各個行業面臨不同的發展機遇，呈現出不同的發展態勢，表現出不同的基本面狀況，同時資本市場會產生不同的預期，最終行業間的這些差異必然在股票價格中反映出來。
進行行業投資，首先需要解決行業分類問題。MSCI和標准普爾共同構建的GICS、富時集團和道瓊斯指數公司共同構建的ICB是國際上常用的行業分類標准。國內機構推出的行業分類標准由於更多地考慮了國內在經濟發展階段、產業結構現狀、行業發展機會等方面的特徵，在A股的投資實踐中得到了更多的應用。其中考慮到行業的投資價值的同一性的一些行業分類被稱為投資型行業分類。
從行業投資角度來講，行業內部的高相似性和行業之間的高差異性是行業分類的基本原則：高相似性旨在降低來自行業內部的噪音，提高投資收益的穩定性；而行業間的高差異性將決定獲得超額收益的空間。這種相似性和差異性不僅體現在行業基本面上，同時也應體現在行業的市場表現上。
在研究行業市場表現的關聯度方面，聚類分析方法更為客觀和准確。聚類分析是一種數據統計方法，通過量化指標衡量多個樣品之間的相似性，並將一些相似程度較高的樣本聚合為一類，把另外一些彼此之間相似程度較大的樣品聚合為另一類，直到將所有樣品分配到若干個類中，使得同一類中的樣品有很大的相似性，而不同類之間的樣品有很大的差異性。為了兼顧行業基本面上的異同特性，可以直接使用現有行業分類中的細分子行業的收益率進行聚類分析的基本單元，並在聚類范圍自下而上逐步推進。
首先，從同一個小行業的細分子行業進行聚類開始，提取基本面和市場表現最為類似的細分子行業作為一類。以中信二級行業中的石油石化行業為例，其下有煉油、油品銷售及倉儲、其他石化3個細分子行業，經過聚類分析，煉油和其他石化的市場走勢相似性更大，可以合並為一個行業，而油品銷售及倉儲單獨為一個行業。
其次，將小行業內的聚類結果在大行業內部再進行聚類。將上述煉油+其他石化、油品銷售及倉儲，與所屬大行業中同級別的石油開采和油田服務再次進行聚類，結果為石油開采+煉油+其他石化組成一類，油品銷售及倉儲為一類，油田服務為一類。這與中信行業分類的區別在於取消石油石化行業，將其中油品銷售及倉儲單獨剝離出來，其他的與石油開采合並。
再次，將大行業的聚類的結果在行業群內進行聚類。由於部分行業與相關產業鏈存在緊密的依賴關系，在基本面上屬於相同的產業集群，在二級市場表現上也呈現出高度的相關性。例如，對基建投資相關的行業進行聚類時，得到了與普遍認識吻合的結果：機械行業中的工程機械、建材中的水泥、建築中的建築工程在二級市場具有非常高的同步性，因此可將以上3個行業組成一個行業。
沿著現有行業分類層級關系自下而上地進行行業收益率聚類分析，形成的行業分類體系較好地結合了基本面影響因素和市場表現，進一步提高了行業內部的相似性和行業間的差異性。

導航:首頁 > 數據行情 > 股票數據聚類分析

股票數據聚類分析

與股票數據聚類分析相關的資料