『壹』 金融數據挖掘的內容簡介
金融管理研究的一個顯著特點是數據分析量大、不確定性因素多,面對當今時代的海量金融數據,基於傳統統計技術建立的模型假設條件多,實際應用難以奏效。數據挖掘是20世紀90年代中期興起的新技術,是發現數據中有用模式的過程,其目的在於使用所發現的模式幫助解釋當前的行為或預測未來的結果,以人們容易理解的形式提供有用的決策信息。
本書可作為信息管理與金融類專業本科生和研究生的教材,也可供從事數據挖掘技術與應用研究的科研人員、金融市場數據分析人員,以及數據挖掘應用軟體的開發者參考。
目錄
叢書序
序言
前言
第1章 緒論
1.1 數據挖掘技術的興起
1.2 數據挖掘概述
1.3 數據挖掘與統計學
1.4 數據挖掘與金融
第2章 金融數據預處理
2.1 概述
2.2 數據預處理任務
2.3 常見數據預處理技術
2.4 案例:信用卡數據挖掘的預處理
2.5 金融時間序列去噪預處理研究
第3章 關聯規則挖掘技術
3.1 關聯規則的定義
3.2 關聯規則挖掘技術
3.3 案例:銀行卡的關聯規則挖掘
3.4 基於共同機制思想的時間序列關聯模式挖掘
第4章 分類技術
4.1 分類建模介紹
4.2 判別式分類
4.3 決策樹分類
4.4 貝葉斯分類
4.5 粗糙集方法
4.6 分類技術在信用卡管理中的應用
第5章 預測技術
5.1 線性回歸分析
5.2 非線性田歸分析
5.3 灰色預測技術
5.4 組合預測技術
5.5 混合預測模型在股票價格預測中的應用
第6章 神經網路與支持向量機
6.1 神經網路概述
6.2 前向型神經網路
6.3 Hopfield網路
6.4 自組織特徵映射神經網路
6.5 統計學習理論
6.6 支持向量機
6.7 支持向量機方法在金融預測中的應用
第7章 聚類分析
7.1 聚類的相關概念
7.2 數據類型及相似性度量
7.3 分割聚類演算法
7.4 層次聚類法
7.5 基於密度的聚類方法
7.6 基於模型的聚類
7.7 聚類分析技術在金融投資分析中的應用
第8章 時間序列數據挖掘
8.1 經典時間序列分析模型
8.2 金融時間序列挖掘與模型分析法的比較
8.3 時間序列挖掘的基本問題
8.4 時間序列相似性度量的一般方法
8.5 反映心理偏好的時間序列相似性度量研究
8.6 時間序列的符號化處理
8.7 時間序列事件徵兆模式挖掘研究
8.8 徵兆模式挖掘在股票市場有效性研究中的應用
第9章 異常數據挖掘
9.1 概述
9.2 異常的定義
9.3 異常的隱藏
9.4 異常挖掘的一般方法
9.5 異常數據挖掘在金融領域中的應用
參考文獻
致謝
『貳』 股票的預測模型有哪些
股票的預測模型:
1、凈現金流量折現法;
2、投資機會折現法;
3、股利折現法;
4、盈餘折現法;
除此之外,想了解更多的股票類的知識,可以下載財源滾滾APP軟體,系統學習下
『叄』 數據挖掘的應用領域有哪些
數據挖掘的應用非常廣泛,只要該產業有分析價值與需求的資料庫,皆可利用數據挖掘工具進行有目的的發掘分析。常見的應用案例多發生在零售業、製造業、財務金融保險、通訊及醫療服務:
(1)商場從顧客購買商品中發現一定的關聯規則,提供打折、購物券等促銷手段,提高銷售額;
(2)保險公司通過數據挖掘建立預測模型,辨別出可能的欺詐行為,避免道德風險,減少成本,提高利潤;
(3)在製造業中,半導體的生產和測試中都產生大量的數據,就必須對這些數據進行分析,找出存在的問題,提高質量;
(4)電子商務的作用越來越大,可以用數據挖掘對網站進行分析,識別用戶的行為模式,保留客戶,提供個性化服務,優化網站設計;
一些公司運用數據挖掘的成功案例,顯示了數據挖掘的強大生命力:
美國AutoTrader是世界上最大的汽車銷售站點,每天都會有大量的用戶對網站上的信息點擊,尋求信息,其運用了SAS軟體進行數據挖掘,每天對數據進行分析,找出用戶的訪問模式,對產品的喜歡程度進行判斷,並設特定服務,取得了成功。
Reuteres是世界著名的金融信息服務公司,其利用的數據大都是外部的數據,這樣數據的質量就是公司生存的關鍵所在,必須從數據中檢測出錯誤的成分。Reuteres用SPSS的數據挖掘工具SPSS/Clementine,建立數據挖掘模型,極大地提高了錯誤的檢測,保證了信息的正確和權威性。
Bass Export是世界最大的啤酒進出口商之一,在海外80多個市場從事交易,每個星期傳送23000份定單,這就需要了解每個客戶的習慣,如品牌的喜好等,Bass Export用IBM的Intelligent Miner很好的解決了上述問題。
『肆』 什麼是數據挖掘,簡述其作用和應用。
數據挖掘是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。
數據挖掘是指通過大量數據集進行分類的自動化過程,以通過數據分析來識別趨勢和模式,建立關系來解決業務問題。換句話說,數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。
數據挖掘的作用體現在數據挖掘的定義上,作用就是從大量的數據中搜索出隱藏於其中有用的信息。
(4)基於數據挖掘的股票分析和預測模型的設計與應用擴展閱讀:
數據挖掘分析方法:
數據挖掘分為有指導的數據挖掘和無指導的數據挖掘。有指導的數據挖掘是利用可用的數據建立一個模型,這個模型是對一個特定屬性的描述。無指導的數據挖掘是在所有的屬性中尋找某種關系。具體而言,分類、估值和預測屬於有指導的數據挖掘;關聯規則和聚類屬於無指導的數據挖掘。
1、分類,它首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘技術,建立一個分類模型,再將該模型用於對沒有分類的數據進行分類。
2、估值,估值與分類類似,但估值最終的輸出結果是連續型的數值,估值的量並非預先確定。估值可以作為分類的准備工作。
3、預測,它是通過分類或估值來進行,通過分類或估值的訓練得出一個模型,如果對於檢驗樣本組而言該模型具有較高的准確率,可將該模型用於對新樣本的未知變數進行預測。
4、相關性分組或關聯規則。其目的是發現哪些事情總是一起發生。
5、聚類,它是自動尋找並建立分組規則的方法,它通過判斷樣本之間的相似性,把相似樣本劃分在一個簇中。
參考資料來源:網路-數據挖掘
『伍』 數據挖掘演算法與生活中的應用案例
數據挖掘演算法與生活中的應用案例
如何分辨出垃圾郵件」、「如何判斷一筆交易是否屬於欺詐」、「如何判斷紅酒的品質和檔次」、「掃描王是如何做到文字識別的」、「如何判斷佚名的著作是否出自某位名家之手」、「如何判斷一個細胞是否屬於腫瘤細胞」等等,這些問題似乎都很專業,都不太好回答。但是,如果了解一點點數據挖掘的知識,你,或許會有柳暗花明的感覺。
本文,主要想簡單介紹下數據挖掘中的演算法,以及它包含的類型。然後,通過現實中觸手可及的、活生生的案例,去詮釋它的真實存在。 一般來說,數據挖掘的演算法包含四種類型,即分類、預測、聚類、關聯。前兩種屬於有監督學習,後兩種屬於無監督學習,屬於描述性的模式識別和發現。
有監督學習有監督的學習,即存在目標變數,需要探索特徵變數和目標變數之間的關系,在目標變數的監督下學習和優化演算法。例如,信用評分模型就是典型的有監督學習,目標變數為「是否違約」。演算法的目的在於研究特徵變數(人口統計、資產屬性等)和目標變數之間的關系。
分類演算法分類演算法和預測演算法的最大區別在於,前者的目標變數是分類離散型(例如,是否逾期、是否腫瘤細胞、是否垃圾郵件等),後者的目標變數是連續型。一般而言,具體的分類演算法包括,邏輯回歸、決策樹、KNN、貝葉斯判別、SVM、隨機森林、神經網路等。
預測演算法預測類演算法,其目標變數一般是連續型變數。常見的演算法,包括線性回歸、回歸樹、神經網路、SVM等。
無監督學習無監督學習,即不存在目標變數,基於數據本身,去識別變數之間內在的模式和特徵。例如關聯分析,通過數據發現項目A和項目B之間的關聯性。例如聚類分析,通過距離,將所有樣本劃分為幾個穩定可區分的群體。這些都是在沒有目標變數監督下的模式識別和分析。
聚類分析聚類的目的就是實現對樣本的細分,使得同組內的樣本特徵較為相似,不同組的樣本特徵差異較大。常見的聚類演算法包括kmeans、系譜聚類、密度聚類等。
關聯分析關聯分析的目的在於,找出項目(item)之間內在的聯系。常常是指購物籃分析,即消費者常常會同時購買哪些產品(例如游泳褲、防曬霜),從而有助於商家的捆綁銷售。
基於數據挖掘的案例和應用上文所提到的四種演算法類型(分類、預測、聚類、關聯),是比較傳統和常見的。還有其他一些比較有趣的演算法分類和應用場景,例如協同過濾、異常值分析、社會網路、文本分析等。下面,想針對不同的演算法類型,具體的介紹下數據挖掘在日常生活中真實的存在。下面是能想到的、幾個比較有趣的、和生活緊密關聯的例子。
基於分類模型的案例這裡面主要想介紹兩個案例,一個是垃圾郵件的分類和判斷,另外一個是在生物醫葯領域的應用,即腫瘤細胞的判斷和分辨。
垃圾郵件的判別郵箱系統如何分辨一封Email是否屬於垃圾郵件?這應該屬於文本挖掘的范疇,通常會採用樸素貝葉斯的方法進行判別。它的主要原理是,根據郵件正文中的單詞,是否經常出現在垃圾郵件中,進行判斷。例如,如果一份郵件的正文中包含「報銷」、「發票」、「促銷」等詞彙時,該郵件被判定為垃圾郵件的概率將會比較大。
一般來說,判斷郵件是否屬於垃圾郵件,應該包含以下幾個步驟。
第一,把郵件正文拆解成單片語合,假設某篇郵件包含100個單詞。
第二,根據貝葉斯條件概率,計算一封已經出現了這100個單詞的郵件,屬於垃圾郵件的概率和正常郵件的概率。如果結果表明,屬於垃圾郵件的概率大於正常郵件的概率。那麼該郵件就會被劃為垃圾郵件。
醫學上的腫瘤判斷如何判斷細胞是否屬於腫瘤細胞呢?腫瘤細胞和普通細胞,有差別。但是,需要非常有經驗的醫生,通過病理切片才能判斷。如果通過機器學習的方式,使得系統自動識別出腫瘤細胞。此時的效率,將會得到飛速的提升。並且,通過主觀(醫生)+客觀(模型)的方式識別腫瘤細胞,結果交叉驗證,結論可能更加靠譜。
如何操作?通過分類模型識別。簡言之,包含兩個步驟。首先,通過一系列指標刻畫細胞特徵,例如細胞的半徑、質地、周長、面積、光滑度、對稱性、凹凸性等等,構成細胞特徵的數據。其次,在細胞特徵寬表的基礎上,通過搭建分類模型進行腫瘤細胞的判斷。
基於預測模型的案例這裡面主要想介紹兩個案例。即通過化學特性判斷和預測紅酒的品質。另外一個是,通過搜索引擎來預測和判斷股價的波動和趨勢。
紅酒品質的判斷如何評鑒紅酒?有經驗的人會說,紅酒最重要的是口感。而口感的好壞,受很多因素的影響,例如年份、產地、氣候、釀造的工藝等等。但是,統計學家並沒有時間去品嘗各種各樣的紅酒,他們覺得通過一些化學屬性特徵就能夠很好地判斷紅酒的品質了。並且,現在很多釀酒企業其實也都這么幹了,通過監測紅酒中化學成分的含量,從而控制紅酒的品質和口感。
那麼,如何判斷鑒紅酒的品質呢?
第一步,收集很多紅酒樣本,整理檢測他們的化學特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等等。
第二步,通過分類回歸樹模型進行預測和判斷紅酒的品質和等級。
搜索引擎的搜索量和股價波動一隻南美洲熱帶雨林中的蝴蝶,偶爾扇動了幾下翅膀,可以在兩周以後,引起美國德克薩斯州的一場龍卷風。你在互聯網上的搜索是否會影響公司股價的波動?
很早之前,就已經有文獻證明,互聯網關鍵詞的搜索量(例如流感)會比疾控中心提前1到2周預測出某地區流感的爆發。
同樣,現在也有些學者發現了這樣一種現象,即公司在互聯網中搜索量的變化,會顯著影響公司股價的波動和趨勢,即所謂的投資者注意力理論。該理論認為,公司在搜索引擎中的搜索量,代表了該股票被投資者關注的程度。因此,當一隻股票的搜索頻數增加時,說明投資者對該股票的關注度提升,從而使得該股票更容易被個人投資者購買,進一步地導致股票價格上升,帶來正向的股票收益。這是已經得到無數論文驗證了的。
基於關聯分析的案例:沃爾瑪的啤酒尿布啤酒尿布是一個非常非常古老陳舊的故事。故事是這樣的,沃爾瑪發現一個非常有趣的現象,即把尿布與啤酒這兩種風馬牛不相及的商品擺在一起,能夠大幅增加兩者的銷量。原因在於,美國的婦女通常在家照顧孩子,所以,她們常常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。沃爾瑪從數據中發現了這種關聯性,因此,將這兩種商品並置,從而大大提高了關聯銷售。
啤酒尿布主要講的是產品之間的關聯性,如果大量的數據表明,消費者購買A商品的同時,也會順帶著購買B產品。那麼A和B之間存在關聯性。在超市中,常常會看到兩個商品的捆綁銷售,很有可能就是關聯分析的結果。
基於聚類分析的案例:零售客戶細分對客戶的細分,還是比較常見的。細分的功能,在於能夠有效的劃分出客戶群體,使得群體內部成員具有相似性,但是群體之間存在差異性。其目的在於識別不同的客戶群體,然後針對不同的客戶群體,精準地進行產品設計和推送,從而節約營銷成本,提高營銷效率。
例如,針對商業銀行中的零售客戶進行細分,基於零售客戶的特徵變數(人口特徵、資產特徵、負債特徵、結算特徵),計算客戶之間的距離。然後,按照距離的遠近,把相似的客戶聚集為一類,從而有效的細分客戶。將全體客戶劃分為諸如,理財偏好者、基金偏好者、活期偏好者、國債偏好者、風險均衡者、渠道偏好者等。
基於異常值分析的案例:支付中的交易欺詐偵測採用支付寶支付時,或者刷信用卡支付時,系統會實時判斷這筆刷卡行為是否屬於盜刷。通過判斷刷卡的時間、地點、商戶名稱、金額、頻率等要素進行判斷。這裡面基本的原理就是尋找異常值。如果您的刷卡被判定為異常,這筆交易可能會被終止。
異常值的判斷,應該是基於一個欺詐規則庫的。可能包含兩類規則,即事件類規則和模型類規則。第一,事件類規則,例如刷卡的時間是否異常(凌晨刷卡)、刷卡的地點是否異常(非經常所在地刷卡)、刷卡的商戶是否異常(被列入黑名單的套現商戶)、刷卡金額是否異常(是否偏離正常均值的三倍標准差)、刷卡頻次是否異常(高頻密集刷卡)。第二,模型類規則,則是通過演算法判定交易是否屬於欺詐。一般通過支付數據、賣家數據、結算數據,構建模型進行分類問題的判斷。
基於協同過濾的案例:電商猜你喜歡和推薦引擎電商中的猜你喜歡,應該是大家最為熟悉的。在京東商城或者亞馬遜購物,總會有「猜你喜歡」、「根據您的瀏覽歷史記錄精心為您推薦」、「購買此商品的顧客同時也購買了商品」、「瀏覽了該商品的顧客最終購買了商品」,這些都是推薦引擎運算的結果。
這裡面,確實很喜歡亞馬遜的推薦,通過「購買該商品的人同時購買了**商品」,常常會發現一些質量比較高、較為受認可的書。一般來說,電商的「猜你喜歡」(即推薦引擎)都是在協同過濾演算法(Collaborative Filter)的基礎上,搭建一套符合自身特點的規則庫。即該演算法會同時考慮其他顧客的選擇和行為,在此基礎上搭建產品相似性矩陣和用戶相似性矩陣。基於此,找出最相似的顧客或最關聯的產品,從而完成產品的推薦。
基於社會網路分析的案例:電信中的種子客戶種子客戶和社會網路,最早出現在電信領域的研究。即,通過人們的通話記錄,就可以勾勒出人們的關系網路。電信領域的網路,一般會分析客戶的影響力和客戶流失、產品擴散的關系。
基於通話記錄,可以構建客戶影響力指標體系。採用的指標,大概包括如下,一度人脈、二度人脈、三度人脈、平均通話頻次、平均通話量等。基於社會影響力,分析的結果表明,高影響力客戶的流失會導致關聯客戶的流失。其次,在產品的擴散上,選擇高影響力客戶作為傳播的起點,很容易推動新套餐的擴散和滲透。
此外,社會網路在銀行(擔保網路)、保險(團伙欺詐)、互聯網(社交互動)中也都有很多的應用和案例。
基於文本分析的案例這裡面主要想介紹兩個案例。一個是類似「掃描王」的APP,直接把紙質文檔掃描成電子文檔。相信很多人都用過,這里准備簡單介紹下原理。另外一個是,江湖上總是傳言紅樓夢的前八十回和後四十回,好像並非都是出自曹雪芹之手,這裡面准備從統計的角度聊聊。
字元識別:掃描王APP手機拍照時會自動識別人臉,還有一些APP,例如掃描王,可以掃描書本,然後把掃描的內容自動轉化為word。這些屬於圖像識別和字元識別(Optical Character Recognition)。圖像識別比較復雜,字元識別理解起來比較容易些。
查找了一些資料,字元識別的大概原理如下,以字元S為例。
第一,把字元圖像縮小到標准像素尺寸,例如12*16。注意,圖像是由像素構成,字元圖像主要包括黑、白兩種像素。
第二,提取字元的特徵向量。如何提取字元的特徵,採用二維直方圖投影。就是把字元(12*16的像素圖)往水平方向和垂直方向上投影。水平方向有12個維度,垂直方向有16個維度。這樣分別計算水平方向上各個像素行中黑色像素的累計數量、垂直方向各個像素列上的黑色像素的累計數量。從而得到水平方向12個維度的特徵向量取值,垂直方向上16個維度的特徵向量取值。這樣就構成了包含28個維度的字元特徵向量。
第三,基於前面的字元特徵向量,通過神經網路學習,從而識別字元和有效分類。
文學著作與統計:紅樓夢歸屬這是非常著名的一個爭論,懸而未決。對於紅樓夢的作者,通常認為前80回合是曹雪芹所著,後四十回合為高鶚所寫。其實主要問題,就是想確定,前80回合和後40回合是否在遣詞造句方面存在顯著差異。
這事讓一群統計學家比較興奮了。有些學者通過統計名詞、動詞、形容詞、副詞、虛詞出現的頻次,以及不同詞性之間的相關系做判斷。有些學者通過虛詞(例如之、其、或、亦、了、的、不、把、別、好),判斷前後文風的差異。有些學者通過場景(花卉、樹木、飲食、醫葯與詩詞)頻次的差異,來做統計判斷。總而言之,主要通過一些指標量化,然後比較指標之間是否存在顯著差異,藉此進行寫作風格的判斷。
以上是小編為大家分享的關於數據挖掘演算法與生活中的應用案例的相關內容,更多信息可以關注環球青藤分享更多干貨
『陸』 基於微信大數據的股票預測研究
基於微信大數據的股票預測研究
大數據是近些年來的熱門話題,無論國際上還是國內,影響很大。經濟學、政治學、社會學和許多科學門類都會發生巨大甚至是本質上的變化和發展,進而影響人類的價值體系、知識體系和生活方式。而全球經濟目前生成了史無前例的大量數據,如果把每天產生的大量數據比作神話時期的大洪水是完全正確的,這個數據洪流是我們前所未見的,他是全新的、強大的、當然,也是讓人恐慌但又極端刺激的。
而我所分享的話題,正是在互聯網環境下,如何利用大數據技術,進行股票預測的研究。–今天,我想分享我認為有意義的四點。
1.大數據下的商業預測
根據大數據,我們可以有效地進行故障、人流、流量、用電量、股票市場、疾病預防、交通、食物配送、產業供需等方面的預測。而本文我們所關心的內容是股票市場的預測。
大數據的核心是預測,預測依賴於對數據的分析。那麼分析的方法是否是基於隨機采樣的結果而設計的,這樣的分析方法是否會有誤差?
從傳統認識上,由於資源和科技的局限,如人和計算資源受限、從計算機處理能力來講無法處理全部數據來獲取人們所關注的結果。因此隨機采樣應運而生,通過所選取的個體來代表全體,如使用隨機抽取的方式來使得推論結果更科學。但既然提到了大數據,它是資源發展到一定程度、以及技術發展到一定階段產生的一個新的認識。如同電力的出現,使人類進入了一個快速發展階段,大數據也一樣,它的含義是全體樣本,從整體樣本來做推論。在本文大數據的含義是所有股票在整個社交網路上的流動信息,從數據源上講,本文沒有採用所有社交網路上的數據,只分析了微信這個最具代表性的社交媒體作為信息源。
互動數據能反映用戶情緒,搜索數據能反映用戶的關注點和意圖,在股市預測時這兩種數據哪種更具有參考價值?
我認為都有價值,互動數據反映了用戶對某一特定股票的喜好和厭惡,可以簡單描述為對該股票的操作是繼續持有還是賣出;而搜索數據則代表用戶在收集該股票信息的過程,它是關注度的概念,某隻股票搜索度高則意味著消息的影響力大。互動代表著方向,搜索代表著振幅。
我們知道這兩種數據得出的結論會有差異,您是如何平衡這兩種數據反映的情況來進行預測的?
正如上一個問題里提到的,如果是股票推薦,買進賣出等原則問題,則應該考慮互動數據,但如果已經買到手了,搜索數據可以提供一個幅度的概念,類似債券評級A級、AA級、AAA級等,供投資者參考,因為不同投資者對風險的承受度是不同的。
將股票和市場的消息整理成140字的短消息發布,是否意味著主要發布渠道是微博?現在微信公眾號很火,有沒有考慮通過這個渠道也發布消息?
事實上,信息傳播的方式很多,微信作為新媒體當然影響力不容小覷,但目前技術投入最小的還是郵件、簡訊等方式,未來會考慮使用公眾號來推送股票和市場消息。
如果在未來通過微信公眾號推送消息,那麼推送的消息會不會作為數據來源被再次採集?這會有多大的影響?
會被採集,但互聯網上的每日關於個股的信息數量會達到很大,該推送會增加推薦股票1點權重,每隻股票的權重成百上千,因此影響極小。
數據來源是微信公眾號,除了准確性的考慮之外,是否還考慮過這樣收集數據會較少觸犯個人隱私?
從法律角度來看,搜索微信或其他個人聊天記錄,是侵犯個人隱私權的,因此如果騰訊開放了這樣的介面,每個公民都可以對這樣的行為進行投訴、抗議、甚至進行法律起訴直至其改正過錯、賠償損失的。
這樣是否意味著即使存在違法的行為,其結果也是由騰訊來承擔,而我們作為數據的使用方不需要承擔任何法律責任?
在整個社會,我們作為系統技術提供方,應恪守大數據的倫理道德,遵守國家法律,如侵犯個人隱私,系統不會採集,谷歌有一句座右銘「谷歌不作惡」,本文提到的系統也一樣。
2.基於大數據進行股票推薦實驗
股票的及時度反應了微信文章所發布的時效性,及時度越高,數據價值就越大。
股票的熱度反應了當前某隻股票被關注的頻度,關注頻度越大,上漲的可能性越高。
數據的完整性:我們採用循環的方式對所有深滬兩地發行約2236隻股票(創業版除外)在微信搜索網站上的搜索結果進行保存。
數據的一致性:文件格式由負責保存數據文件的程序決定,單一的流程保障了文件的一致性。
數據的准確性:由於所分析的訂閱號文章的是由微信公共平台的公眾號所提供,在一定程度上杜絕了虛假消息對於預測系統的破壞。
數據的及時性:考慮到磁碟讀寫以及採集程序所處的網路帶寬,以及搜索引擎對於採集程序的屏蔽,程序中採集兩條信息之間間隔了5秒,因此理論上11180秒(3.1個小時)可收集完當日推薦所需要的數據。對於每個交易日,在9點-9點30分之間採集所有數據,需要7台以上的設備可達到最佳效果。本次試驗受限於試驗設備,在一台設備上,交易日每天早六時開始進行數據採集,也滿足及時性要求。
數據分析:查看三個高優先順序的股票,該股票當日的開盤價與收盤價,再與當日(2015-4-8)上證綜指進行比較,可得在收益上該演算法是優於上證綜指為樣本的整體股票的股價差收益的。
實驗結論:按照上述方式,系統每天推薦出當日股票,在開盤時進行買進,在第二個交易日進行賣出。經過一個月21個交易日(2015-3-1至2015-3-31),系統的收益為20%/月。通過微信搜索公眾號來預測市場走勢和投資情緒呈現出正相關性,因此可以作為股票甄選的因子。
3.股票預測的大數據發展趨勢
網路數據分成三種:
一是瀏覽數據,主要用於電商領域的消費者行為分析,瀏覽數據反映了用戶每一步的訪問腳步,進一步刻畫出用戶的訪問路徑,分析不同頁面的跳轉概率等。
二是搜索數據,主要指搜索引擎記錄的關鍵詞被搜索頻次的時間序列數據,能反映數億用戶的興趣、關注點、意圖。
三是互動數據,主要是微博、微信、社交網站的數據,反映用戶的傾向性和情緒因素。
2013年諾貝爾經濟學獎得主羅伯特?席勒的觀點被無數采訪對象引述。席勒於上世紀80年代設計的投資模型至今仍被業內稱道。在他的模型中,主要參考三個變數:投資項目計劃的現金流、公司資本的估算成本、股票市場對投資的反應(市場情緒)。他認為,市場本身帶有主觀判斷因素,投資者情緒會影響投資行為,而投資行為直接影響資產價格。
計算機通過分析新聞、研究報告、社交信息、搜索行為等,藉助自然語言處理方法,提取有用的信息;而藉助機器學習智能分析,過去量化投資只能覆蓋幾十個策略,大數據投資則可以覆蓋成千上萬個策略。
基於互聯網搜索數據和社交行為的經濟預測研究,已逐漸成為一個新的學術熱點,並在經濟、社會以及健康等領域的研究中取得了一定成果。在資本市場應用上,研究發現搜索數據可有效預測未來股市活躍度(以交易量指標衡量)及股價走勢的變化。
對於搜索數據:互聯網搜索行為與股票市場的關聯機理。這個研究屬於行為金融與互聯網的交叉領域,其原理是:股票量價調整是投資者行為在股票市場上的反應;與此同時,投資者行為在互聯網搜索市場也有相應地行為跡象,我們要做到是:找到互聯網搜索市場中領先於股票交易的行為指標,綜合眾多投資者的先行搜索指標,對未來的股票交易做出預判。
如同天氣預報那樣,不斷優化模型、灌入海量信息,然後給出結果。並且在處理的信息中,有80%是「非結構化」數據,例如政策文件、自然事件、地理環境、科技創新等,這類信息通常是電腦和模型難以消化的。採用了語義分析法,可以將互動數據里的金融對話量化為「-1(極度看空)」到「1(極度看多)」之間的投資建議,通過分析互動數據的數據文本,作為股市投資的信號。
4.正在發生的未來
大數據並不是一個充斥著演算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數據為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的將來。
大數據在實用層面的影響很廣泛,解決了大量的日常問題。大數據更是利害攸關的,它將重塑我們的生活、工作和思維方式。在某些方面,我們面臨著一個僵局,比其他劃時代創新引起的社會信息范圍和規模急劇擴大所帶來的影響更大。我們腳下的地面在移動。過去確定無疑的事情正在受到質疑。大數據需要人們重新討論決策、命運和正義的性質。擁有知識曾意味著掌握過去,現在則意味著能夠預測未來。
大數據並不是一個充斥著演算法和機器的冰冷世界,其中仍需要人類扮演重要角色。人類獨有的弱點、錯覺、錯誤都是十分必要的,因為這些特性的另一頭牽著的是人類的創造力、直覺和天賦。這提示我們應該樂於接受類似的不準確,因為不準確正是我們之所以為人的特徵之一。就好像我們學習處理混亂數據一樣,因為這些數據服務的是更加廣大的目標。必將混亂構成了世界的本質,也構成了人腦的本職,而無論是世界的混亂還是人腦的混亂,學會接受和應用他們才能得益。
我相信,利用基礎數據、搜索數據、互動數據再進行加權計算,可以對所有股票進行大數據遴選,從而給出投資建議。我認為,我們的肉身剛剛步入大數據時代,但我們的精神還滯留在小數據、采樣思維之中,率先用理性擊碎固有思維的人,也將率先獲得大數據帶來的益處。
『柒』 請問數據挖掘在證券投資分析中的應用
證券股票的趨勢,股票關聯等