股票數據挖掘技術_股票市場搞數據挖掘數據分析來炒股有沒機會

A. 數據挖掘工程師一般都做什麼

數據挖掘工程師是做什麼的？

數據挖掘，從字面上理解，就是在數據中找到有用的東西，哪些東西有用就要看具體的業務目標了。最簡單的就是統計應用了，比如電商數據，如淘寶統計過哪個省購買泳衣最多、哪個省的女生胸罩最大等，進一步，可以基於用戶的瀏覽、點擊、收藏、購買等行為推斷用戶的年齡、性別、購買能力、愛好等能表示一個人的畫像，就相當於用這些挖掘出來的屬性來刻畫一個人，這些還是最簡單的東西，更深層次的比如預測（股票預測），但是比較難。

數據挖掘往往與機器學習離不開。比如分類、聚類、關聯規則挖掘、個性化推薦、預測、神經網路、深度學習等。

數據挖掘 = 業務知識 + 自然語言處理技術（ NLP ） + 計算機視覺技術（ CV ） + 機器學習 / 深度學習（ ML/DL ）

（ 1 ）其中業務知識具體指的是個性化推薦，計算廣告，搜索，互聯網金融等； NLP ， CV 分別是處理文本，圖像視頻數據的領域技術，可以理解為是將非結構化數據提取轉換成結構化數據；最後的ml/dl 技術則是屬於模型學習理論；

（ 2 ）在選擇崗位時，各個公司都沒有一套標準的稱呼，但是所做的事情無非 2 個大方向，一種是主要鑽研某個領域的技術，比如自然語言處理工程師，計算機視覺工程師，機器學習工程師等；一種是將各種領域技術應用到業務場景中去解決業務需求，比如數據挖掘工程師，推薦系統工程師等；具體的稱呼不重要，重要的是平時的工作內容；

PS ：在互聯網行業，數據挖掘相關技術應用比較成功的主要是推薦以及計算廣告領域，而其中涉及到的數據主要也是文本，所以 NLP 技術相對來講比較重要，至於 CV 技術主要還是在人工智慧領域（無人車，人臉識別等）應用較多，本人了解有限，相關的描述會較少；

數據挖掘崗位需要具備的3 種基本能力

1. 工程能力

（ 1 ）編程基礎：需要掌握一大一小兩門語言，大的指 C++ 或者 Java ，小的指 Python 或者 shell 腳本；需要掌握基本的資料庫語言；

建議： MySQL + python + C++ ；語言只是一種工具，看看語法就好；

推薦書籍：《 C++ primer plus 》

（ 2 ）開發平台： Linux ；

建議：掌握常見的命令，掌握 Linux 下的源碼編譯原理；

推薦書籍：《 Linux 私房菜》

（ 3 ）數據結構與演算法分析基礎：掌握常見的數據結構以及操作（線性表，隊，列，字元串，樹，圖等），掌握常見的計算機演算法（排序演算法，查找演算法，動態規劃，遞歸等）；

建議：多敲代碼，多上 OJ 平台刷題；

推薦書籍：《大話數據結構》《劍指 offer 》

（ 4 ）海量數據處理平台： Hadoop （ mr 計算模型， java 開發）或者 Spark （ rdd 計算模型， scala開發），重點推薦後者；

建議：主要是會使用，有精力的話可以看看源碼了解集群調度機制之類的；

推薦書籍：《大數據 spark 企業級實戰》

2. 演算法能力

（ 1 ）數學基礎：概率論，數理統計，線性代數，隨機過程，最優化理論

建議：這些是必須要了解的，即使沒法做到基礎扎實，起碼也要掌握每門學科的理論體系，涉及到相應知識點時通過查閱資料可以做到無障礙理解；

（ 2 ）機器學習 / 深度學習：掌握常見的機器學習模型（線性回歸，邏輯回歸， SVM ，感知機；決策樹，隨機森林， GBDT ， XGBoost ；貝葉斯， KNN ， K-means ， EM 等）；掌握常見的機器學習理論（過擬合問題，交叉驗證問題，模型選擇問題，模型融合問題等）；掌握常見的深度學習模型（ CNN ，RNN 等）；

建議：這里的掌握指的是能夠熟悉推導公式並能知道模型的適用場景；

推薦書籍：《統計學習方法》《機器學習》《機器學習實戰》《 UFLDL 》

（ 3 ）自然語言處理：掌握常見的方法（ tf-idf ， word2vec ， LDA ）；

3. 業務經驗

（ 1 ）了解推薦以及計算廣告相關知識；

推薦書籍：《推薦系統實踐》《計算廣告》

（ 2 ）通過參加數據挖掘競賽熟悉相關業務場景，常見的比賽有 Kaggle ，阿里天池， datacastle 等。

想要學習數據挖掘的話可以看一下這篇文章《AI時代就業指南：數據挖掘入門與求職》

B. 到底是什麼數據挖掘呢，需要什麼技術呢

我們知道，現在的年代，每天都在有上億的數據量在增長。樓盤數據啦。。。。股票數據啦。。。，交通數據啦。。。。等等等等。這些數據究竟有什麼用呢？這就需要一些專業的數據挖掘工程師去挖掘有用的數據。什麼是有用的數據呢？打個比方：之前最火的足球世界盃賭球，就是用了數據的挖掘，那體現在什麼地方呢，有專業的人員將球員的傳球率，射門率，。。。。進行數據的統計，分析。這樣就可以預測出哪個球隊的勝算率要大些。總而言之，挖掘海量數據中的有用信息不但可以預測商機，未來的發展趨勢。。。。等等。至於使用到什麼技術的話，當然是雲計算了。這么巨大的數據量如果不用雲計算的話，估計人要瘋掉了

C. 什麼叫數據挖掘

數據挖掘是從大量的數據中，抽取出潛在的、有價值的知識（模型或規則）的過程。
1. 數據挖掘能做什麼？
1)數據挖掘能做以下六種不同事情（分析方法）：
分類（Classification）
估值（Estimation）
預言（Prediction）
相關性分組或關聯規則（Affinity grouping or association rules）
聚集（Clustering）
描述和可視化（Des cription and Visualization）
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類：直接數據挖掘；間接數據挖掘
直接數據挖掘
目標是利用可用的數據建立一個模型，這個模型對剩餘的數據，對一個特定的變數（可以
理解成資料庫中表的屬性，即列）進行描述。
間接數據挖掘
目標中沒有選出某一具體的變數，用模型進行描述；而是在所有的變數中建立起某種關系
。
分類、估值、預言屬於直接數據挖掘；後三種屬於間接數據挖掘
3)各種分析方法的簡介
分類（Classification）
首先從數據中選出已經分好類的訓練集，在該訓練集上運用數據挖掘分類的技術，建立分
類模型，對於沒有分類的數據進行分類。
例子：
a. 信用卡申請者，分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意：類的個數是確定的，預先定義好的
估值（Estimation）
估值與分類類似，不同之處在於，分類描述的是離散型變數的輸出，而估值處理連續值的
輸出；分類的類別是確定數目的，估值的量是不確定的。
例子：
a. 根據購買模式，估計一個家庭的孩子個數
b. 根據購買模式，估計一個家庭的收入
c. 估計real estate的價值
一般來說，估值可以作為分類的前一步工作。給定一些輸入數據，通過估值，得到未知的
連續變數的值，然後，根據預先設定的閾值，進行分類。例如：銀行對家庭貸款業務，運
用估值，給各個客戶記分（Score 0~1）。然後，根據閾值，將貸款級別分類。
預言（Prediction）
通常，預言是通過分類或估值起作用的，也就是說，通過分類或估值得出模型，該模型用
於對未知變數的預言。從這種意義上說，預言其實沒有必要分為一個單獨的類。
預言其目的是對未來未知變數的預測，這種預測是需要時間來驗證的，即必須經過一定時
間後，才知道預言准確性是多少。
相關性分組或關聯規則（Affinity grouping or association rules）
決定哪些事情將一起發生。
例子：
a. 超市中客戶在購買A的同時，經常會購買B，即A => B(關聯規則)
b. 客戶在購買A後，隔一段時間，會購買B （序列分析）
聚集（Clustering）
聚集是對記錄分組，把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先
定義好的類，不需要訓練集。
例子：
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集，可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如，"哪一種類的促銷對客戶響應最好？"，對於這一類問題，首先對整個客戶做聚集，將客戶分組在各自的聚集里，然後對每個不同的聚集，回答問題，可能效果更好。
描述和可視化（Des cription and Visualization）
是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景
數據挖掘首先是需要商業環境中收集了大量的數據，然後要求挖掘的知識是有價值的。有
價值對商業而言，不外乎三種情況：降低開銷；提高收入；增加股票價格。
1)數據挖掘作為研究工具（Research）
2)數據挖掘提高過程式控制制（Process Improvement）
3)數據挖掘作為市場營銷工具（Marketing）
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)
3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分：演算法和技術；數據；建模能力
2)數據挖掘和機器學習（Machine Learning）
機器學習是計算機科學和人工智慧AI發展的產物
機器學習分為兩種學習方式：自組織學習（如神經網路）；從例子中歸納出規則（如決策樹）
數據挖掘由來
數據挖掘是八十年代，投資AI研究項目失敗後，AI轉入實際應用時提出的。它是一個新興
的，面向商業應用的AI研究。選擇數據挖掘這一術語，表明了與統計、精算、長期從事預
言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計
統計也開始支持數據挖掘。統計本包括預言演算法（回歸）、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
數據倉庫
OLAP（聯機分析處理）、Data Mart（數據集市）、多維資料庫
決策支持工具融合
將數據倉庫、OLAP，數據挖掘融合在一起，構成企業決策分析環境。
4. 數據挖掘的社會背景
數據挖掘與個人預言：數據挖掘號稱能通過歷史數據的分析，預測客戶的行為，而事實上，客戶自己可能都不明確自己下一步要作什麼。所以，數據挖掘的結果，沒有人們想像中神秘，它不可能是完全正確的。
5．數據挖掘技術實現
在技術上可以根據它的工作過程分為：數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。
1) 數據的抽取
數據的抽取是數據進入倉庫的入口。由於數據倉庫是一個獨立的數據環境，它需要通過抽取過程將數據從聯機事務處理系統、外部數據源、離線的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監控等幾個方面的處理。在數據抽取方面，未來的技術發展將集中在系統功能集成化方面，以適應數據倉庫本身或數據源的變化，使系統更便於管理和維護。
2) 數據的存儲和管理
數據倉庫的組織管理方式決定了它有別於傳統資料庫的特性，也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多，且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何並行處理大量的數據、如何優化查詢等。目前，許多資料庫廠家提供的技術解決方案是擴展關系型資料庫的功能，將普通關系資料庫改造成適合擔當數據倉庫的伺服器。
3) 數據的展現
在數據展現方面主要的方式有：
查詢：實現預定義查詢、動態查詢、OLAP查詢與決策支持智能查詢；報表：產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表；可視化：用易於理解的點線圖、直方圖、餅圖、網狀圖、互動式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關系；統計：進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析；挖掘：利用數據挖掘等方法，從數據中得到關於數據關系和模式的知識。
6.數據挖掘與數據倉庫融合發展
數據挖掘和數據倉庫的協同工作，一方面，可以迎合和簡化數據挖掘過程中的重要步驟，提高數據挖掘的效率和能力，確保數據挖掘中數據來源的廣泛性和完整性。另一方面，數據挖掘技術已經成為數據倉庫應用中極為重要和相對獨立的方面和工具。
數據挖掘和數據倉庫是融合與互動發展的，其學術研究價值和應用研究前景將是令人振奮的。它是數據挖掘專家、數據倉庫技術人員和行業專家共同努力的成果，更是廣大渴望從資料庫「奴隸」到資料庫「主人」轉變的企業最終用戶的通途。

D. 什麼是數據挖掘

數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

數據挖掘流程：

定義問題：清晰地定義出業務問題，確定數據挖掘的目的。
數據准備：數據准備包括：選擇數據–在大型資料庫和數據倉庫目標中提取數據挖掘的目標數據集;數據預處理–進行數據再加工，包括檢查數據的完整性及數據的一致性、去雜訊，填補丟失的域，刪除無效數據等。
數據挖掘：根據數據功能的類型和和數據的特點選擇相應的演算法，在凈化和轉換過的數據集上進行數據挖掘。
結果分析：對數據挖掘的結果進行解釋和評價，轉換成為能夠最終被用戶理解的知識。

E. 請問什麼是數據挖掘

數據挖掘是從大量的數據中，抽取出潛在的、有價值的知識（模型或規則）的過程。
1. 數據挖掘能做什麼？

1)數據挖掘能做以下六種不同事情（分析方法）：

· 分類（Classification）

· 估值（Estimation）

· 預言（Prediction）

· 相關性分組或關聯規則（Affinity grouping or association rules）

· 聚集（Clustering）

· 描述和可視化（Des cription and Visualization）

2)數據挖掘分類

以上六種數據挖掘的分析方法可以分為兩類：直接數據挖掘；間接數據挖掘

· 直接數據挖掘

目標是利用可用的數據建立一個模型，這個模型對剩餘的數據，對一個特定的變數（可以

理解成資料庫中表的屬性，即列）進行描述。

· 間接數據挖掘

目標中沒有選出某一具體的變數，用模型進行描述；而是在所有的變數中建立起某種關系

。

· 分類、估值、預言屬於直接數據挖掘；後三種屬於間接數據挖掘

3)各種分析方法的簡介

· 分類（Classification）

首先從數據中選出已經分好類的訓練集，在該訓練集上運用數據挖掘分類的技術，建立分

類模型，對於沒有分類的數據進行分類。

例子：

a. 信用卡申請者，分類為低、中、高風險

b. 分配客戶到預先定義的客戶分片

注意：類的個數是確定的，預先定義好的

· 估值（Estimation）

估值與分類類似，不同之處在於，分類描述的是離散型變數的輸出，而估值處理連續值的

輸出；分類的類別是確定數目的，估值的量是不確定的。

例子：

a. 根據購買模式，估計一個家庭的孩子個數

b. 根據購買模式，估計一個家庭的收入

c. 估計real estate的價值

一般來說，估值可以作為分類的前一步工作。給定一些輸入數據，通過估值，得到未知的

連續變數的值，然後，根據預先設定的閾值，進行分類。例如：銀行對家庭貸款業務，運

用估值，給各個客戶記分（Score 0~1）。然後，根據閾值，將貸款級別分類。

· 預言（Prediction）

通常，預言是通過分類或估值起作用的，也就是說，通過分類或估值得出模型，該模型用

於對未知變數的預言。從這種意義上說，預言其實沒有必要分為一個單獨的類。

預言其目的是對未來未知變數的預測，這種預測是需要時間來驗證的，即必須經過一定時

間後，才知道預言准確性是多少。

· 相關性分組或關聯規則（Affinity grouping or association rules）

決定哪些事情將一起發生。

例子：

a. 超市中客戶在購買A的同時，經常會購買B，即A => B(關聯規則)

b. 客戶在購買A後，隔一段時間，會購買B （序列分析）

· 聚集（Clustering）

聚集是對記錄分組，把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先

定義好的類，不需要訓練集。

例子：

a. 一些特定症狀的聚集可能預示了一個特定的疾病

b. 租VCD類型不相似的客戶聚集，可能暗示成員屬於不同的亞文化群

聚集通常作為數據挖掘的第一步。例如，"哪一種類的促銷對客戶響應最好？"，對於這一

類問題，首先對整個客戶做聚集，將客戶分組在各自的聚集里，然後對每個不同的聚集，

回答問題，可能效果更好。

· 描述和可視化（Des cription and Visualization）

是對數據挖掘結果的表示方式。

2.數據挖掘的商業背景

數據挖掘首先是需要商業環境中收集了大量的數據，然後要求挖掘的知識是有價值的。有

價值對商業而言，不外乎三種情況：降低開銷；提高收入；增加股票價格。

1)數據挖掘作為研究工具（Research）

2)數據挖掘提高過程式控制制（Process Improvement）

3)數據挖掘作為市場營銷工具（Marketing）

4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)

3.數據挖掘的技術背景

1)數據挖掘技術包括三個主要部分：演算法和技術；數據；建模能力

2)數據挖掘和機器學習（Machine Learning）

· 機器學習是計算機科學和人工智慧AI發展的產物

· 機器學習分為兩種學習方式：自組織學習（如神經網路）；從例子中歸納出規則（如決

策樹）

· 數據挖掘由來

數據挖掘是八十年代，投資AI研究項目失敗後，AI轉入實際應用時提出的。它是一個新興

的，面向商業應用的AI研究。選擇數據挖掘這一術語，表明了與統計、精算、長期從事預

言模型的經濟學家之間沒有技術的重疊。

3)數據挖掘和統計

統計也開始支持數據挖掘。統計本包括預言演算法（回歸）、抽樣、基於經驗的設計等

4)數據挖掘和決策支持系統

· 數據倉庫

· OLAP（聯機分析處理）、Data Mart（數據集市）、多維資料庫

· 決策支持工具融合

將數據倉庫、OLAP，數據挖掘融合在一起，構成企業決策分析環境。

4. 數據挖掘的社會背景

數據挖掘與個人預言：數據挖掘號稱能通過歷史數據的分析，預測客戶的行為，而事實上

，客戶自己可能都不明確自己下一步要作什麼。所以，數據挖掘的結果，沒有人們想像中

神秘，它不可能是完全正確的。

客戶的行為是與社會環境相關連的，所以數據挖掘本身也受社會背景的影響。比如說，在

美國對銀行信用卡客戶信用評級的模型運行得非常成功，但是，它可能不適合中國

轉載的

F. 股票市場搞數據挖掘，數據分析來炒股有沒機會

有機會，而且機會不小，但是我等散戶靠數據分析，可能自身實力差的太懸殊了。
硬體設備就不達標哦。

G. 為什麼數據挖掘可以在股票中應用

放哨禿鄙阻截日嘏

H. 數據挖掘的國內外研究現狀

摘要：隨著網路、資料庫技術的迅速發畏以及資料庫管理系統的廣泛應用，人們積累的數據越來越多。數據挖掘(Data Mining)就是從大量的實際應用數據中提取隱含信息和知識，它利用了資料庫、人工智慧和數理統計等多方面的技術，是一類深層次的數據分析方法。

關鍵詞：數據挖掘；知識；分析；市場營銷；金融投資

隨著網路、資料庫技術的迅速發展以及資料庫管理系統的廣泛應用，人們積累的數據越來越多。由此，數據挖掘技術應運而生。下面，本文對數據技術及其應用作一簡單介紹。
一、數據挖掘定義
數據挖掘(Data Mining)就是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它是一種新的商業信息處理技術，其主要特點是對商業資料庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理，從中提取輔助商業決策的關鍵性數據。簡而言之，數據挖掘其實是一類深層次的數據分析方法。從這個角度數據挖掘也可以描述為：按企業制定的業務目標，對大量的企業數據進行探索和分析，揭示隱藏的、未知的或驗證已知的規律性，並進一步將其模型化的先進有效的方法。
二、數據挖掘技術
數據挖掘技術是人們長期對資料庫技術進行研究和開發的結果，代寫論文其中數據倉庫技術的發展與數據挖掘有著密切的關系。大部分情況下，數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中，因為數據倉庫會對數據進行清理，並會解決數據的不一致問題，這會給數據挖掘帶來很多好處。此外數據挖掘還利用了人工智慧(AI)和統計分析的進步所帶來的好處，這兩門學科都致力於模式發現和預測。資料庫、人工智慧和數理統計是數據挖掘技術的三大支柱。由於數據挖掘所發現的知識的不同，其所利用的技術也有所不同。
1．廣義知識。指類別特徵的概括性描述知識。根據數據的微觀特性發現其表徵的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識，反映同類事物的共同性質，是對數據的概括、精煉和抽象。廣義知識的發現方法和實現技術有很多，如數據立方體、面向屙性的歸約等。數據立方體的基本思想是實現某些常用的代價較高的聚集函數的計算，諸如計數、求和、平均、最大值等，並將這些實現視圖儲存在多維資料庫中。而面向屬性的歸約是以類SQL語言來表示數據挖掘查詢，收集資料庫中的相關數據集，然後在相關數據集上應用一系列數據推廣技術進行數據推廣，包括屬性刪除、概念樹提升、屬性閾值控制、計數及其他聚集函數傳播等。
2．關聯知識。它反映一個事件和其他事件之間依賴或關聯的知識。如果兩項或多項屬性之間存在關聯，那麼其中一項的屬性值就可以依據其他屬性值進行預測。最為著名的關聯規
則發現方法是Apriori演算法和FP—Growth演算法。關聯規則的發現可分為兩步：第一步是迭代識別所有的頻繁項目集，要求頻繁項目集的支持率不低於用戶設定的最低值；第二步是從頻繁項目集中構造可信度不低於用戶設定的最低值的規則。識別或發現所有頻繁項目集是關聯規則發現演算法的核心，也是計算量最大的部分。
3．分類知識。它反映同類事物共同性質的特徵型知識和不同事物之間的差異型特徵知識。分類方法有決策樹、樸素貝葉斯、神經網路、遺傳演算法、粗糙集方法、模糊集方法、線性回歸和K—Means劃分等。其中最為典型的分類方法是決策樹。它是從實例集中構造決策樹，是一種有指導的學習方法。
該方法先根據訓練子集形成決策樹，如果該樹不能對所有對象給出正確的分類，那麼選擇一些例外加入到訓練子集中，重復該過程一直到形成正確的決策集。最終結果是一棵樹，其葉結點是類名，中間結點是帶有分枝的屙性，該分枝對應該屙性的某一可能值。
4．預測型知識。它根據時間序列型數據，由歷史的和當前的數據去推測未來的數據，也可以認為是以時間為關鍵屬性的關聯知識。目前，時間序列預測方法有經典的統計方法、神經網路和機器學習等。1968年BoX和Jenkins提出了一套比較完善的時間序列建模理論和分析方法，這些經典的數學方法通過建立隨機模型，進行時間序列的預測。由於大量的時間序列是非平穩的，其特徵參數和數據分布隨著時間的推移而發生變化。因此，僅僅通過對某段歷史數據的訓練，建立單一的神經網路預測模型，還無法完成准確的預測任務。為此，人們提出了基於統計學和基於精確性的再訓練方法，當發現現存預測模型不再適用於當前數據時，對模型重新訓練，獲得新的權重參數，建立新的模型。
5．偏差型知識。它是對差異和極端特例的描述，揭示事物偏離常規的異常現象，如標准類外的特例、數據聚類外的離群值等。所有這些知識都可以在不同的概念層次上被發現，並隨著概念層次的提升，從微觀到中觀、到宏觀，以滿足不同用戶不同層次決策的需要。
三、數據挖掘流程
數據挖掘是指一個完整的過程，該過程從大型資料庫中挖掘先前未知的、有效的、可實用的信息，代寫畢業論文並使用這些信息做出決策或豐富知識。數據挖掘的基本過程和主要步驟如下：
過程中各步驟的大體內容如下：
1．確定業務對象，清晰地定義出業務問題。認清數據挖掘的目的是數據挖掘的重要一步，挖掘的最後結構不可預測，但要探索的問題應該是有預見的，為了數據挖掘而挖掘則帶有盲目性，是不會成功的。
2．數據准備。(1)數據選擇。搜索所有與業務對象有關的內部和外部數據信息，並從中選擇出適用於數據挖掘應用的數據。(2)數據預處理。研究數據的質量，進行數據的集成、變換、歸約、壓縮等．為進一步的分析作準備，並確定將要進行的挖掘操作的類型。(3)數據轉換。將數據轉換成一個分析模型，這個分析模型是針對挖掘演算法建立的，這是數據挖掘成功的關鍵。
3．數據挖掘。對所得到的經過轉換的數據進行挖掘。除了完善和選擇合適的挖掘演算法外，其餘一切工作都能自動地完成。
4．結果分析。解釋並評估結果。其使用的分析方法一般應視挖掘操作而定，通常會用到可視化技術。
5．知識同化。將分析所得到的知識集成到業務信息系統的組織結構中去。
四、數據挖掘的應用
數據挖掘技術從一開始就是面向應用的。目前在很多領域，數據挖掘都是一個很時髦的詞，尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業領域。
1．市場營銷。由於管理信息系統和P0S系統在商業尤其是零售業內的普遍使用，特別是條形碼技術的使用，從而可以收集到大量關於用戶購買情況的數據，並且數據量在不斷激增。對市場營銷來說，通過數據分析了解客戶購物行為的一些特徵，對提高競爭力及促進銷售是大有幫助的。利用數據挖掘技術通過對用戶數據的分析，可以得到關於顧客購買取向和興趣的信息，從而為商業決策提供了可靠的依據。數據挖掘在營銷業上的應用可分為兩類：資料庫營銷(database markerting)和貨籃分析(basket analysis)。資料庫營銷的任務是通過互動式查詢、數據分割和模型預測等方法來選擇潛在的顧客，以便向它們推銷產品。通過對已有的顧客數據的辱淅，可以將用戶分為不同級別，級別越高，其購買的可能性就越大。貨籃分析
是分析市場銷售數據以識別顧客的購買行為模式，例如：如果A商品被選購，那麼B商品被購買的可能性為95％，從而幫助確定商店貨架的布局排放以促銷某些商品，並且對進貨的選擇和搭配上也更有目的性。這方面的系統有：Opportunity Ex-plorer，它可用於超市商品銷售異常情況的因果分析等，另外IBM公司也開發了識別顧客購買行為模式的一些工具(IntdligentMiner和QUEST中的一部分)。
2．金融投資。典型的金融分析領域有投資評估和股票交易市場預測，分析方法一般採用模型預測法(如神經網路或統計回歸技術)。代寫碩士論文由於金融投資的風險很大，在進行投資決策時，更需要通過對各種投資方向的有關數據進行分析，以選擇最佳的投資方向。無論是投資評估還是股票市場預測，都是對事物發展的一種預測，而且是建立在對數據的分析基礎之上的。數據挖掘可以通過對已有數據的處理，找到數據對象之間的關系，然後利用學習得到的模式進行合理的預測。這方面的系統有Fidelity Stock Selector和LBS Capital Management。前者的任務是使用神經網路模型選擇投資，後者則使用了專家系統、神經網路和基因演算法技術來輔助管理多達6億美元的有價證券。
3．欺詐甄別。銀行或商業上經常發生詐騙行為，如惡性透支等，這些給銀行和商業單位帶來了巨大的損失。對這類詐騙行為進行預測可以減少損失。進行詐騙甄別主要是通過總結正常行為和詐騙行為之間的關系，得到詐騙行為的一些特性，這樣當某項業務符合這些特徵時，可以向決策人員提出警告。
這方面應用非常成功的系統有：FALCON系統和FAIS系統。FALCON是HNC公司開發的信用卡欺詐估測系統，它已被相當數量的零售銀行用於探測可疑的信用卡交易；FAIS則是一個用於識別與洗錢有關的金融交易的系統，它使用的是一般的政府數據表單。此外數據挖掘還可用於天文學上的遙遠星體探測、基因工程的研究、web信息檢索等。
結束語
隨著資料庫、人工智慧、數理統計及計算機軟硬體技術的發展，數據挖掘技術必能在更多的領域內取得更廣泛的應用。

參考文獻：
[1]閆建紅《資料庫系統概論》的教學改革與探索[J]．山西廣播電視大學學報，2006，(15)：16—17．

I. 什麼是數據挖掘

科技的快速發展和數據的存儲技術的快速進步，使得各種行業或組織的數據得以海量積累。但是，從海量的數據當中，提取有用的信息成為了一個難題。在海量數據面前，傳統的數據分析工具和方法很無力。由此，數據挖掘技術就登上了歷史的舞台。
數據挖掘是一種技術，將傳統的數據分析方法與處理大量數據的復雜演算法相結合（圖1），從大量的、不完全的、有雜訊的、模糊的、隨機的數據中，提取隱含在其中的、人們事先不知道的、但又是潛在有用信息和知識的過程。

那數據挖掘能夠干什麼？有哪些數據挖掘技術？怎麼應用？
數據挖掘技術應用廣泛，如：1. 在交通領域，幫助鐵路票價制定、交通流量預測等。2. 在生物學當中，挖掘基因與疾病之間的關系、蛋白質結構預測、代謝途徑預測等。3. 在金融行業當中，股票指數追蹤、稅務稽查等方面有重要運用。4. 在電子商務領域，對顧客行為分析、定向營銷、定向廣告投放、誰是最有價值的用戶、什麼產品搭配銷售等。可以說，有數據的方法，就有數據挖掘的用武之地。
那數據挖掘過程是什麼呢？如圖2：

數據挖掘的任務主要分為一下四類，如圖3：

1.建模預測：用因變數作用目標變數建立模型。分為兩類：（1）分類，用於預測離散的目標變數；（2）回歸，用於預測連續的目標變數。兩項任務目標都是訓練一個模型，使目標變數預測值與實際值之間的誤差達到最小。預測建模可以用來判斷病人是否患有某種疾病，可以用於確定顧客是否需要某種產品，預測交通流量。

2.關聯分析：用來發現描述數據中強關聯特徵的模式。所發現的模式通常用特徵子集的形式表示。由於搜索空間是指數規模的，關聯分析的目標是以有效的方式提取最有用的模式。關聯分析的應用包括用戶購買商品之間的聯系、找出相關功能的基因組、表單預測輸出下拉列表如圖4。

3.聚類分析：發現緊密相關的觀測值群組，使得與屬於不同簇的觀察值相比，同一簇的觀察值相互之間盡可能的類似。聚類可用來對相關的顧客分組、給不同功能的基因分組、不同的癌症細胞系分組。

4.異常檢測：識別其特徵顯著不同於其他數據的觀測值。這樣的觀測值稱為異常點或離群點。異常檢測演算法的目標是發現真正的異常點，而避免錯誤地將正常的對象標注為異常點。換言之，一個好的異常點檢測模型必須具有高檢測率和低誤報率。異常檢測的應用包括檢測欺詐、網路攻擊、疾病的不尋常模式。

參考文章：
1. 《大話數據挖掘》
2. 《數據挖掘導論》
3. http://mp.weixin.qq.com/s?__biz=MzI2NDEwNzgxMw==&mid=401492893&idx=1&sn=#rd

J. 數據挖掘是什麼

數據挖掘(Data Mining)是採用數學的、統計的、人工智慧和神經網路等領域的科學方法，如記憶推理、聚類分析、關聯分析、決策樹、神經網路、基因演算法等技術，從大量數據中挖掘出隱含的、先前未知的、對決策有潛在價值的關系、模式和趨勢,並用這些知識和規則建立用於決策支持的模型，提供預測性決策支持的方法、工具和過程。

數據挖掘綜合了各個學科技術，有很多的功能，當前的主要功能如下：
(1)、分類：按照分析對象的屬性、特徵，建立不同的組類來描述事物。
(2)、聚類：識別出分析對內在的規則，按照這些規則把對象分成若干類。
(3)、關聯規則：關聯是某種事物發生時其他事物會發生的這樣一種聯系。
(4)、預測：把握分析對象發展的規律，對未來的趨勢做出預見。例如：對未來經濟發展的判斷。
(5)、偏差的檢測：對分析對象的少數的、極端的特例的描述，揭示內在的原因。

關於數據挖掘的相關學習，推薦CDA數據分析師的課程，課程以項目調動學員數據挖掘實用能力的場景式教學為主，在講師設計的業務場景下由講師不斷提出業務問題，再由學員循序漸進思考並操作解決問題的過程中，幫助學員掌握真正過硬的解決業務問題的數據挖掘能力。這種教學方式能夠引發學員的獨立思考及主觀能動性，學員掌握的技能知識可以快速轉化為自身能夠靈活應用的技能，在面對不同場景時能夠自由發揮點擊預約免費試聽課。

導航:首頁 > 數據行情 > 股票數據挖掘技術

股票數據挖掘技術

數據挖掘工程師是做什麼的？

與股票數據挖掘技術相關的資料