股票數據挖掘_股票市場搞數據挖掘數據分析來炒股有沒機會

A. 「基於數據挖掘的股票交易分析--模型分析」這個題目，是什麼意思哪位哥們，能給點具體解釋么

很難寫，主要牽涉到數據挖掘（軟體）和股票交易兩方面的專業。數據挖掘需要設計軟體進行建模，而股票交易需要進行實證（博士論文都可以寫了）。
建議：可以寫基於統計挖掘的股票交易分析--模型分析，這樣就簡單多了，只需要在股票軟體上得出一些統計數據，然後進行驗證就可以了，可操作性強。

B. 什麼是數據挖掘

數據挖掘（Data Mining）是指通過大量數據集進行分類的自動化過程，以通過數據分析來識別趨勢和模式，建立關系來解決業務問題。換句話說，數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

原則上講，數據挖掘可以應用於任何類型的信息存儲庫及瞬態數據（如數據流），如資料庫、數據倉庫、數據集市、事務資料庫、空間資料庫（如地圖等）、工程設計數據（如建築設計等）、多媒體數據（文本、圖像、視頻、音頻）、網路、數據流、時間序列資料庫等。也正因如此，數據挖掘存在以下特點：

（1）數據集大且不完整
數據挖掘所需要的數據集是很大的，只有數據集越大，得到的規律才能越貼近於正確的實際的規律，結果也才越准確。除此以外，數據往往都是不完整的。

（2）不準確性
數據挖掘存在不準確性，主要是由雜訊數據造成的。比如在商業中用戶可能會提供假數據；在工廠環境中，正常的數據往往會收到電磁或者是輻射干擾，而出現超出正常值的情況。這些不正常的絕對不可能出現的數據，就叫做雜訊，它們會導致數據挖掘存在不準確性。

（3）模糊的和隨機的
數據挖掘是模糊的和隨機的。這里的模糊可以和不準確性相關聯。由於數據不準確導致只能在大體上對數據進行一個整體的觀察，或者由於涉及到隱私信息無法獲知到具體的一些內容，這個時候如果想要做相關的分析操作，就只能在大體上做一些分析，無法精確進行判斷。
而數據的隨機性有兩個解釋，一個是獲取的數據隨機；我們無法得知用戶填寫的到底是什麼內容。第二個是分析結果隨機。數據交給機器進行判斷和學習，那麼一切的操作都屬於是灰箱操作。

C. 請通俗的講一下什麼是數據挖掘

利用數據挖掘，我們還可以做非常多的事情。

1.發現數據項之間的相關性

比如我們拿到各個城市環境、人口、交通等數據，就可以通過相關性分析來看人均汽車保有量，和空氣質量各個指標之間的關系，從而定量化地幫助制定產業經濟和環保政策。比如要不要進行更嚴厲的限購，要不要收取為其的排放稅等等。

2.把數據對象進行聚類

比如我們知道大量的人在電子商務網路消費數據，我么就可以根據消費的特徵把他們聚成很多類，每一類人我們制定不同的營銷手段，從而能夠取得銷售量的提升。比如電信運營商對人群進行聚類，然後針對性地推出電話套餐。

3.把數據對象進行分類

當我們已經有了分類之後，來了一些新的數據之後，我們可以把他分到不同不同的類去。比如醫療影像上查看肺部的病灶，可能是肺結核、可能是早起肺癌，中晚期肺癌，可能是肺上的癤結，可能是癒合的病灶等等，來了一張新的片子，我們可以通過圖像處理，就把它分到不同的類別（當然這需要我們提前對很多片子的數據進行學習）。

4.預測缺失數據或者未來的數據

很多數據集中，比如生物數據，我們已知的知識全部數據集中的一小部分，這需要我們做一些事情去預測這些數據。還有一些，想大選、股票價格預測、河流徑流量預測、城市用電量預測等，這些就是對未來數據的預測。

D. 什麼是數據挖掘

科技的快速發展和數據的存儲技術的快速進步，使得各種行業或組織的數據得以海量積累。但是，從海量的數據當中，提取有用的信息成為了一個難題。在海量數據面前，傳統的數據分析工具和方法很無力。由此，數據挖掘技術就登上了歷史的舞台。
數據挖掘是一種技術，將傳統的數據分析方法與處理大量數據的復雜演算法相結合（圖1），從大量的、不完全的、有雜訊的、模糊的、隨機的數據中，提取隱含在其中的、人們事先不知道的、但又是潛在有用信息和知識的過程。

那數據挖掘能夠干什麼？有哪些數據挖掘技術？怎麼應用？
數據挖掘技術應用廣泛，如：1. 在交通領域，幫助鐵路票價制定、交通流量預測等。2. 在生物學當中，挖掘基因與疾病之間的關系、蛋白質結構預測、代謝途徑預測等。3. 在金融行業當中，股票指數追蹤、稅務稽查等方面有重要運用。4. 在電子商務領域，對顧客行為分析、定向營銷、定向廣告投放、誰是最有價值的用戶、什麼產品搭配銷售等。可以說，有數據的方法，就有數據挖掘的用武之地。
那數據挖掘過程是什麼呢？如圖2：

數據挖掘的任務主要分為一下四類，如圖3：

1.建模預測：用因變數作用目標變數建立模型。分為兩類：（1）分類，用於預測離散的目標變數；（2）回歸，用於預測連續的目標變數。兩項任務目標都是訓練一個模型，使目標變數預測值與實際值之間的誤差達到最小。預測建模可以用來判斷病人是否患有某種疾病，可以用於確定顧客是否需要某種產品，預測交通流量。

2.關聯分析：用來發現描述數據中強關聯特徵的模式。所發現的模式通常用特徵子集的形式表示。由於搜索空間是指數規模的，關聯分析的目標是以有效的方式提取最有用的模式。關聯分析的應用包括用戶購買商品之間的聯系、找出相關功能的基因組、表單預測輸出下拉列表如圖4。

3.聚類分析：發現緊密相關的觀測值群組，使得與屬於不同簇的觀察值相比，同一簇的觀察值相互之間盡可能的類似。聚類可用來對相關的顧客分組、給不同功能的基因分組、不同的癌症細胞系分組。

4.異常檢測：識別其特徵顯著不同於其他數據的觀測值。這樣的觀測值稱為異常點或離群點。異常檢測演算法的目標是發現真正的異常點，而避免錯誤地將正常的對象標注為異常點。換言之，一個好的異常點檢測模型必須具有高檢測率和低誤報率。異常檢測的應用包括檢測欺詐、網路攻擊、疾病的不尋常模式。

參考文章：
1. 《大話數據挖掘》
2. 《數據挖掘導論》
3. http://mp.weixin.qq.com/s?__biz=MzI2NDEwNzgxMw==&mid=401492893&idx=1&sn=#rd

E. 如何獲得股票行情數據，自己編程處理進行數據挖掘

行情數據可到通達信或者同花順觀看

F. 股票的數據挖掘用什麼演算法最合適

寫個貝葉斯分類演算法
對文本進行分類

G. 股票市場搞數據挖掘，數據分析來炒股有沒機會

有機會，而且機會不小，但是我等散戶靠數據分析，可能自身實力差的太懸殊了。
硬體設備就不達標哦。

H. 股票軟體真的有用嗎

股票軟體只能說起到一定的參考作用，並不能完全依賴它。
股票軟體只是一個工具，只是給你用來分析行情和個股走勢的，並不是說有了好的工具，就可以保證在股市盈利。在股票市場永遠遵循二八原則，不論是大牛市或是大熊市，能掙到錢的都不會超過20%，所以想在股票市場混，光靠一個股票分析工具是不夠的。
最終做出買賣決定要靠自己的腦子。光相信軟體沒有自己的判斷也是不行的。
補充資料：
正規軟體；大智慧、同花順、通達信
雜七雜八的軟體 80%的指標是對股民沒有任何好處的，甚至會起到相反的作用。
(8)股票數據挖掘擴展閱讀：
股票軟體
一、股票軟體更准確的稱謂應該是證券分析軟體或證券決策系統，它的基股票軟體本功能是信息的實時揭示（包括行情信息和資訊信息），所以早期的股票軟體有時候會被叫做行情軟體。股票軟體的實質是通過對市場信息數據的統計，按照一定的分析模型來給出數（報表）、形（指標圖形）、文（資訊鏈接），用戶則依照一定的技術分析理論，來對這些結論進行解釋，也有一些傻瓜式的易用軟體會直接給出買賣的建議，這些易用軟體大部分是用專業視角剖析整個股市的走勢。
二、定義
1、股票軟體即針對股票交易而開發的軟體系統，也被稱為炒股軟體，基礎功能包括財經資訊、股票行情、數據挖掘與分析、智能選股、交易系統。國內的股票軟體從上世紀九十年代初的少數幾家的獨領風騷，到已經發展成為百家齊放的局面，有的以行情實時性見長，有的以咨詢研究擅長，各具特色。
2、股票軟體的實質是通過對市場信息數據的統計，按照一定的分析模型來給出數（報表）、形（指標圖形）、文（資訊鏈接）。用戶則依照一定的技術分析理論，來對這些結論進行解釋，也有一些傻瓜式的易用軟體會直接給出買賣的建議。其實，比較正確，或者實在的用法，是應該挑選一款性能穩定、信息精準的軟體，結合自己的炒股經驗，經過摸索之後，形成一套行之有效的應用法則，那樣才是值得信賴的辦法，而機械地輕信軟體自動發出的進場離場的信號，往往會謬以千里。
三、如何識別
1、是符合國家規定?
2011年1月1日起，《證券投資顧問業務暫行規定》第二十七條規定：終端設備所使用的數據信息來源，以及獲得數據信息的時間；也就要求股票軟體數據和資訊必須合法，沒有數據資質和資訊資質的全部為虛假詐騙企業。會被證監會以及地方證監局調查。
2、公司是否有實力？
通過查看營業執照和登陸工商網站可以查看到公司的真實資料，並通過公司的簡介對比可以查看虛假公司有明顯的造假，故意捏造成立時間和獲得的證書。
3、是否被主流下載站收錄？
下載站編輯一般都會對所收錄軟體進行試用和審核。一款股票軟體，如果在天空下載、ZOL下載、華軍軟體園等主流下載站都看不到，那就千萬要當心了。
4、看官網，看經營目的
一款基於正道經營的股票軟體，收入大都來自智能選股、level2等增值服務，如果一款股票軟體的存在僅僅是為了推廣人工咨詢服務，官網和軟體界面處處是誘導用戶提交聯系電話（然後瘋狂來電推廣咨詢服務），往往都屬於掛羊頭賣狗肉行徑，基本可以定性為騙子。

I. 請問什麼是數據挖掘

數據挖掘是從大量的數據中，抽取出潛在的、有價值的知識（模型或規則）的過程。
1. 數據挖掘能做什麼？

1)數據挖掘能做以下六種不同事情（分析方法）：

· 分類（Classification）

· 估值（Estimation）

· 預言（Prediction）

· 相關性分組或關聯規則（Affinity grouping or association rules）

· 聚集（Clustering）

· 描述和可視化（Des cription and Visualization）

2)數據挖掘分類

以上六種數據挖掘的分析方法可以分為兩類：直接數據挖掘；間接數據挖掘

· 直接數據挖掘

目標是利用可用的數據建立一個模型，這個模型對剩餘的數據，對一個特定的變數（可以

理解成資料庫中表的屬性，即列）進行描述。

· 間接數據挖掘

目標中沒有選出某一具體的變數，用模型進行描述；而是在所有的變數中建立起某種關系

。

· 分類、估值、預言屬於直接數據挖掘；後三種屬於間接數據挖掘

3)各種分析方法的簡介

· 分類（Classification）

首先從數據中選出已經分好類的訓練集，在該訓練集上運用數據挖掘分類的技術，建立分

類模型，對於沒有分類的數據進行分類。

例子：

a. 信用卡申請者，分類為低、中、高風險

b. 分配客戶到預先定義的客戶分片

注意：類的個數是確定的，預先定義好的

· 估值（Estimation）

估值與分類類似，不同之處在於，分類描述的是離散型變數的輸出，而估值處理連續值的

輸出；分類的類別是確定數目的，估值的量是不確定的。

例子：

a. 根據購買模式，估計一個家庭的孩子個數

b. 根據購買模式，估計一個家庭的收入

c. 估計real estate的價值

一般來說，估值可以作為分類的前一步工作。給定一些輸入數據，通過估值，得到未知的

連續變數的值，然後，根據預先設定的閾值，進行分類。例如：銀行對家庭貸款業務，運

用估值，給各個客戶記分（Score 0~1）。然後，根據閾值，將貸款級別分類。

· 預言（Prediction）

通常，預言是通過分類或估值起作用的，也就是說，通過分類或估值得出模型，該模型用

於對未知變數的預言。從這種意義上說，預言其實沒有必要分為一個單獨的類。

預言其目的是對未來未知變數的預測，這種預測是需要時間來驗證的，即必須經過一定時

間後，才知道預言准確性是多少。

· 相關性分組或關聯規則（Affinity grouping or association rules）

決定哪些事情將一起發生。

例子：

a. 超市中客戶在購買A的同時，經常會購買B，即A => B(關聯規則)

b. 客戶在購買A後，隔一段時間，會購買B （序列分析）

· 聚集（Clustering）

聚集是對記錄分組，把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先

定義好的類，不需要訓練集。

例子：

a. 一些特定症狀的聚集可能預示了一個特定的疾病

b. 租VCD類型不相似的客戶聚集，可能暗示成員屬於不同的亞文化群

聚集通常作為數據挖掘的第一步。例如，"哪一種類的促銷對客戶響應最好？"，對於這一

類問題，首先對整個客戶做聚集，將客戶分組在各自的聚集里，然後對每個不同的聚集，

回答問題，可能效果更好。

· 描述和可視化（Des cription and Visualization）

是對數據挖掘結果的表示方式。

2.數據挖掘的商業背景

數據挖掘首先是需要商業環境中收集了大量的數據，然後要求挖掘的知識是有價值的。有

價值對商業而言，不外乎三種情況：降低開銷；提高收入；增加股票價格。

1)數據挖掘作為研究工具（Research）

2)數據挖掘提高過程式控制制（Process Improvement）

3)數據挖掘作為市場營銷工具（Marketing）

4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)

3.數據挖掘的技術背景

1)數據挖掘技術包括三個主要部分：演算法和技術；數據；建模能力

2)數據挖掘和機器學習（Machine Learning）

· 機器學習是計算機科學和人工智慧AI發展的產物

· 機器學習分為兩種學習方式：自組織學習（如神經網路）；從例子中歸納出規則（如決

策樹）

· 數據挖掘由來

數據挖掘是八十年代，投資AI研究項目失敗後，AI轉入實際應用時提出的。它是一個新興

的，面向商業應用的AI研究。選擇數據挖掘這一術語，表明了與統計、精算、長期從事預

言模型的經濟學家之間沒有技術的重疊。

3)數據挖掘和統計

統計也開始支持數據挖掘。統計本包括預言演算法（回歸）、抽樣、基於經驗的設計等

4)數據挖掘和決策支持系統

· 數據倉庫

· OLAP（聯機分析處理）、Data Mart（數據集市）、多維資料庫

· 決策支持工具融合

將數據倉庫、OLAP，數據挖掘融合在一起，構成企業決策分析環境。

4. 數據挖掘的社會背景

數據挖掘與個人預言：數據挖掘號稱能通過歷史數據的分析，預測客戶的行為，而事實上

，客戶自己可能都不明確自己下一步要作什麼。所以，數據挖掘的結果，沒有人們想像中

神秘，它不可能是完全正確的。

客戶的行為是與社會環境相關連的，所以數據挖掘本身也受社會背景的影響。比如說，在

美國對銀行信用卡客戶信用評級的模型運行得非常成功，但是，它可能不適合中國

轉載的

J. 什麼叫數據挖掘

數據挖掘是從大量的數據中，抽取出潛在的、有價值的知識（模型或規則）的過程。
1. 數據挖掘能做什麼？
1)數據挖掘能做以下六種不同事情（分析方法）：
分類（Classification）
估值（Estimation）
預言（Prediction）
相關性分組或關聯規則（Affinity grouping or association rules）
聚集（Clustering）
描述和可視化（Des cription and Visualization）
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類：直接數據挖掘；間接數據挖掘
直接數據挖掘
目標是利用可用的數據建立一個模型，這個模型對剩餘的數據，對一個特定的變數（可以
理解成資料庫中表的屬性，即列）進行描述。
間接數據挖掘
目標中沒有選出某一具體的變數，用模型進行描述；而是在所有的變數中建立起某種關系
。
分類、估值、預言屬於直接數據挖掘；後三種屬於間接數據挖掘
3)各種分析方法的簡介
分類（Classification）
首先從數據中選出已經分好類的訓練集，在該訓練集上運用數據挖掘分類的技術，建立分
類模型，對於沒有分類的數據進行分類。
例子：
a. 信用卡申請者，分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意：類的個數是確定的，預先定義好的
估值（Estimation）
估值與分類類似，不同之處在於，分類描述的是離散型變數的輸出，而估值處理連續值的
輸出；分類的類別是確定數目的，估值的量是不確定的。
例子：
a. 根據購買模式，估計一個家庭的孩子個數
b. 根據購買模式，估計一個家庭的收入
c. 估計real estate的價值
一般來說，估值可以作為分類的前一步工作。給定一些輸入數據，通過估值，得到未知的
連續變數的值，然後，根據預先設定的閾值，進行分類。例如：銀行對家庭貸款業務，運
用估值，給各個客戶記分（Score 0~1）。然後，根據閾值，將貸款級別分類。
預言（Prediction）
通常，預言是通過分類或估值起作用的，也就是說，通過分類或估值得出模型，該模型用
於對未知變數的預言。從這種意義上說，預言其實沒有必要分為一個單獨的類。
預言其目的是對未來未知變數的預測，這種預測是需要時間來驗證的，即必須經過一定時
間後，才知道預言准確性是多少。
相關性分組或關聯規則（Affinity grouping or association rules）
決定哪些事情將一起發生。
例子：
a. 超市中客戶在購買A的同時，經常會購買B，即A => B(關聯規則)
b. 客戶在購買A後，隔一段時間，會購買B （序列分析）
聚集（Clustering）
聚集是對記錄分組，把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先
定義好的類，不需要訓練集。
例子：
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集，可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如，"哪一種類的促銷對客戶響應最好？"，對於這一類問題，首先對整個客戶做聚集，將客戶分組在各自的聚集里，然後對每個不同的聚集，回答問題，可能效果更好。
描述和可視化（Des cription and Visualization）
是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景
數據挖掘首先是需要商業環境中收集了大量的數據，然後要求挖掘的知識是有價值的。有
價值對商業而言，不外乎三種情況：降低開銷；提高收入；增加股票價格。
1)數據挖掘作為研究工具（Research）
2)數據挖掘提高過程式控制制（Process Improvement）
3)數據挖掘作為市場營銷工具（Marketing）
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)
3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分：演算法和技術；數據；建模能力
2)數據挖掘和機器學習（Machine Learning）
機器學習是計算機科學和人工智慧AI發展的產物
機器學習分為兩種學習方式：自組織學習（如神經網路）；從例子中歸納出規則（如決策樹）
數據挖掘由來
數據挖掘是八十年代，投資AI研究項目失敗後，AI轉入實際應用時提出的。它是一個新興
的，面向商業應用的AI研究。選擇數據挖掘這一術語，表明了與統計、精算、長期從事預
言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計
統計也開始支持數據挖掘。統計本包括預言演算法（回歸）、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
數據倉庫
OLAP（聯機分析處理）、Data Mart（數據集市）、多維資料庫
決策支持工具融合
將數據倉庫、OLAP，數據挖掘融合在一起，構成企業決策分析環境。
4. 數據挖掘的社會背景
數據挖掘與個人預言：數據挖掘號稱能通過歷史數據的分析，預測客戶的行為，而事實上，客戶自己可能都不明確自己下一步要作什麼。所以，數據挖掘的結果，沒有人們想像中神秘，它不可能是完全正確的。
5．數據挖掘技術實現
在技術上可以根據它的工作過程分為：數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。
1) 數據的抽取
數據的抽取是數據進入倉庫的入口。由於數據倉庫是一個獨立的數據環境，它需要通過抽取過程將數據從聯機事務處理系統、外部數據源、離線的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監控等幾個方面的處理。在數據抽取方面，未來的技術發展將集中在系統功能集成化方面，以適應數據倉庫本身或數據源的變化，使系統更便於管理和維護。
2) 數據的存儲和管理
數據倉庫的組織管理方式決定了它有別於傳統資料庫的特性，也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多，且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何並行處理大量的數據、如何優化查詢等。目前，許多資料庫廠家提供的技術解決方案是擴展關系型資料庫的功能，將普通關系資料庫改造成適合擔當數據倉庫的伺服器。
3) 數據的展現
在數據展現方面主要的方式有：
查詢：實現預定義查詢、動態查詢、OLAP查詢與決策支持智能查詢；報表：產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表；可視化：用易於理解的點線圖、直方圖、餅圖、網狀圖、互動式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關系；統計：進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析；挖掘：利用數據挖掘等方法，從數據中得到關於數據關系和模式的知識。
6.數據挖掘與數據倉庫融合發展
數據挖掘和數據倉庫的協同工作，一方面，可以迎合和簡化數據挖掘過程中的重要步驟，提高數據挖掘的效率和能力，確保數據挖掘中數據來源的廣泛性和完整性。另一方面，數據挖掘技術已經成為數據倉庫應用中極為重要和相對獨立的方面和工具。
數據挖掘和數據倉庫是融合與互動發展的，其學術研究價值和應用研究前景將是令人振奮的。它是數據挖掘專家、數據倉庫技術人員和行業專家共同努力的成果，更是廣大渴望從資料庫「奴隸」到資料庫「主人」轉變的企業最終用戶的通途。

導航:首頁 > 數據行情 > 股票數據挖掘

股票數據挖掘

與股票數據挖掘相關的資料