數據挖掘方法在股票中的運用_股票市場搞數據挖掘數據分析來炒股有沒機會

『壹』結合Python分析金融數據挖掘在量化投資領域中的應用

量化投資領域在金融數據中的應用包括：

股票市場的價格預測，利用歷史數據對股票未來的價格進行預測，幫助投資者決策。
資產配置，通過分析金融數據，幫助投資者合理配置資產，使投資回報最大化。
風險評估，利用金融數據進行風險評估，幫助投資者了解投資風險，並進行風險管理。
自動交易，利用金融數據進行交易策略的設計和執行，進行自動化交易。
定量研究，利用金融數據進行定量研究，對金融市場的行為進行深入的研究。

『貳』誰有金融數據挖掘，關聯規則分析與挖掘的一些介紹啊

雨林演算法的數據結構：
AVC-set:節點n包含的所有紀錄在某個屬性上的投影，其中該AVC-set包括了屬性的不同值在每個類別上的計數。
AVC-group:一個節點n上所有的AVC -set的集合
AVC-set的所佔內存的大小正比於對應屬性的不同值個數，AVC-group並不是資料庫信息的簡單的壓縮，它只是提供了建立決策樹需要的信息， AVC-group所佔用的內存空間遠遠小於資料庫所實際佔用的空間。
一般設計方案：
AVC_set
{
//存儲屬性的各個值
DistinctValue[]
//存儲屬性各個值在某個類上對應的計數
DistinctValueCountForClassA[]
DistinctValueCountForClassB[]
… …
}
AVC_group
{
//節點n中的每個屬性的avc_set
AVC_set[]
}
自頂向下決策樹演算法
BuildTree(Node m,datapatition D,algorithm decisionTree)
對D使用決策樹演算法decisionTree得到分裂指標crit(n)
令k為節點n的子節點個數
if(k>0)
建立n的k個子節點c1,…,ck
使用最佳分割將D分裂為D1,…,Dk
for(i=1;i<=k;i++)
BuildTree(ci,Di)
endfor
endif
RainForest 演算法框架重新定義的部分：
1a) for 每一個屬性的謂詞p,尋找最佳的分割
1b) decisionTree.find_best_partitioning(AVC-set of p)
1c) endfor
2a) k= decisionTree.decide_splitting_criterion();//決定最終的分割

雨林演算法的常規過程：
建立節點的AVC-group
(通過讀取整個原始資料庫或者某個分支的資料庫表或文件)
選擇分裂屬性和分裂標准：取決於使用雨林演算法框架的具體演算法，通過逐一檢查AVC-set來選擇。
將數據分解到各個子節點：必須讀取整個數據集(資料庫或文件)，將各條數據分解到各個子節點中，此時如果有足夠的內存，我們將建立一個或多個子節點的AVC-group

參考資料：李岱 rainforest.ppt 什麼是數據挖掘
數據挖掘(Data Mining)，又稱為資料庫中的知識發現(Knowledge Discovery in Database, KDD)，就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程，簡單的說，數據挖掘就是從大量數據中提取或「挖掘」知識。
並非所有的信息發現任務都被視為數據挖掘。例如，使用資料庫管理系統查找個別的記錄，或通過網際網路的搜索引擎查找特定的Web頁面，則是信息檢索（information retrieval）領域的任務。雖然這些任務是重要的，可能涉及使用復雜的演算法和數據結構，但是它們主要依賴傳統的計算機科學技術和數據的明顯特徵來創建索引結構，從而有效地組織和檢索信息。盡管如此，數據挖掘技術也已用來增強信息檢索系統的能力。
編輯本段數據挖掘的起源
為迎接前一節中的這些挑戰，來自不同學科的研究者匯集到一起，開始著手開發可以處理不同數據類型的更有效的、可伸縮的工具。這些工作建立在研究者先前使用的方法學和演算法之上，在數據挖掘領域達到高潮。特別地是，數據挖掘利用了來自如下一些領域的思想：(1) 來自統計學的抽樣、估計和假設檢驗，(2) 人工智慧、模式識別和機器學習的搜索演算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想，這些領域包括最優化、進化計算、資訊理論、信號處理、可視化和信息檢索。
一些其他領域也起到重要的支撐作用。特別地，需要資料庫系統提供有效的存儲、索引和查詢處理支持。源於高性能（並行）計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據，並且當數據不能集中到一起處理時更是至關重要。
編輯本段數據挖掘能做什麼

1)數據挖掘能做以下六種不同事情（分析方法）：
· 分類（Classification）
· 估值（Estimation）
· 預言（Prediction）
· 相關性分組或關聯規則（Affinity grouping or association rules）
· 聚集（Clustering）
· 描述和可視化（Des cription and Visualization）
· 復雜數據類型挖掘(Text, Web ,圖形圖像，視頻，音頻等)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類：直接數據挖掘；間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型，這個模型對剩餘的數據，對一個特定的變數（可以理解成資料庫中表的屬性，即列）進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變數，用模型進行描述；而是在所有的變數中建立起某種關系。
· 分類、估值、預言屬於直接數據挖掘；後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類（Classification）
首先從數據中選出已經分好類的訓練集，在該訓練集上運用數據挖掘分類的技術，建立分類模型，對於沒有分類的數據進行分類。
例子：
a. 信用卡申請者，分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意：類的個數是確定的，預先定義好的
· 估值（Estimation）
估值與分類類似，不同之處在於，分類描述的是離散型變數的輸出，而估值處理連續值的輸出；分類的類別是確定數目的，估值的量是不確定的。
例子：
a. 根據購買模式，估計一個家庭的孩子個數
b. 根據購買模式，估計一個家庭的收入
c. 估計real estate的價值
一般來說，估值可以作為分類的前一步工作。給定一些輸入數據，通過估值，得到未知的連續變數的值，然後，根據預先設定的閾值，進行分類。例如：銀行對家庭貸款業務，運用估值，給各個客戶記分（Score 0~1）。然後，根據閾值，將貸款級別分類。
· 預言（Prediction）
通常，預言是通過分類或估值起作用的，也就是說，通過分類或估值得出模型，該模型用於對未知變數的預言。從這種意義上說，預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變數的預測，這種預測是需要時間來驗證的，即必須經過一定時間後，才知道預言准確性是多少。
· 相關性分組或關聯規則（Affinity grouping or association rules）
決定哪些事情將一起發生。
例子：
a. 超市中客戶在購買A的同時，經常會購買B，即A => B(關聯規則)
b. 客戶在購買A後，隔一段時間，會購買B （序列分析）
· 聚集（Clustering）
聚集是對記錄分組，把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先定義好的類，不需要訓練集。
例子：
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集，可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如，"哪一種類的促銷對客戶響應最好？"，對於這一類問題，首先對整個客戶做聚集，將客戶分組在各自的聚集里，然後對每個不同的聚集，回答問題，可能效果更好。
· 描述和可視化（Des cription and Visualization）
是對數據挖掘結果的表示方式。
編輯本段數據挖掘中的關聯規則上面演算法講的很清楚了，我來舉個例子：

Training data：
Id age income class
1 young 65 G
2 young 15 B
3 young 75 G
4 senior 40 B
5 senior 100 G
6 senior 60 G

AVC set „age「 for N1：
value class count
young B 1
young G 2
senior B 1
senior G 2

AVC set „income「 for N1：
value class count
15 B 1
40 B 1
60 G 1
65 G 1
75 G 1
100 G 1

AVC set „income「 for N2：
value class count
15 B 1
65 G 1
75 G 1

AVC set „age「 for N2:
value class count
young B 1
young G 2

最後推出雨林： N1
age=young / \ age=senior
/ \
N2 N3

最後提醒一點，對於雨林演算法，訓練樣本集不要大於3百萬。否則改用SPRINT。
1.什麼是關聯規則
在描述有關關聯規則的一些細節之前，我們先來看一個有趣的故事： "尿布與啤酒"的故事。
在一家超市裡，有一個有趣的現象：尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話，而是發生在美國沃爾瑪連鎖店超市的真實案例，並一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統，為了能夠准確了解顧客在其門店的購買習慣，沃爾瑪對其顧客的購物行為進行購物籃分析，想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上，沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是："跟尿布一起購買最多的商品竟是啤酒！經過大量實際調查和分析，揭示了一個隱藏在"尿布與啤酒"背後的美國人的一種行為模式：在美國，一些年輕的父親下班後經常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時也為自己買一些啤酒。產生這一現象的原因是：美國的太太們常叮囑她們的丈夫下班後為小孩買尿布，而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。
按常規思維，尿布與啤酒風馬牛不相及，若不是藉助數據挖掘技術對大量交易數據進行挖掘分析，沃爾瑪是不可能發現數據內在這一有價值的規律的。
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性，就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函數，即使知道也是不確定的，因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯系。Agrawal等於1993年首先提出了挖掘顧客交易資料庫中項集間的關聯規則問題，以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的演算法進行優化，如引入隨機采樣、並行的思想等，以提高演算法挖掘規則的效率；對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題，最近幾年已被業界所廣泛研究。
2.關聯規則挖掘過程、分類及其相關演算法
2.1關聯規則挖掘的過程
關聯規則挖掘過程主要包含兩個階段：第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets)，第二階段再由這些高頻項目組中產生關聯規則(Association Rules)。
關聯規則挖掘的第一階段必須從原始資料集合中，找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言，必須達到某一水平。一項目組出現的頻率稱為支持度(Support)，以一個包含A與B兩個項目的2-itemset為例，我們可以經由公式(1)求得包含{A,B}項目組的支持度，若支持度大於等於所設定的最小支持度(Minimum Support)門檻值時，則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset，則稱為高頻k-項目組(Frequent k-itemset)，一般表示為Large k或Frequent k。演算法並從Large k的項目組中再產生Large k+1，直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要產生關聯規則(Association Rules)。從高頻項目組產生關聯規則，是利用前一步驟的高頻k-項目組來產生規則，在最小信賴度(Minimum Confidence)的條件門檻下，若一規則所求得的信賴度滿足最小信賴度，稱此規則為關聯規則。例如：經由高頻k-項目組{A,B}所產生的規則AB，其信賴度可經由公式(2)求得，若信賴度大於等於最小信賴度，則稱AB為關聯規則。
就沃爾馬案例而言，使用關聯規則挖掘技術，對交易資料庫中的紀錄進行資料挖掘，首先必須要設定最小支持度與最小信賴度兩個門檻值，在此假設最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布，啤酒」，滿足下列條件，將可接受「尿布，啤酒」的關聯規則。用公式可以描述Support(尿布，啤酒)>=5%且Confidence(尿布，啤酒)>=70%。其中，Support(尿布，啤酒)>=5%於此應用範例中的意義為:在所有的交易紀錄資料中，至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布，啤酒)>=70%於此應用範例中的意義為:在所有包含尿布的交易紀錄資料中，至少有70%的交易會同時購買啤酒。因此，今後若有某消費者出現購買尿布的行為，超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布，啤酒」關聯規則，因為就該超市過去的交易紀錄而言，支持了「大部份購買尿布的交易，會同時購買啤酒」的消費行為。
從上面的介紹還可以看出，關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始資料庫中的指標值是取連續的數據，則在關聯規則挖掘之前應該進行適當的數據離散化（實際上就是將某個區間的值對應於某個值），數據的離散化是數據挖掘前的重要環節，離散化的過程是否合理將直接影響關聯規則的挖掘結果。
2.2關聯規則的分類
按照不同情況，關聯規則可以進行分類如下：
1.基於規則中處理的變數的類別，關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的，它顯示了這些變數之間的關系；而數值型關聯規則可以和多維關聯或多層關聯規則結合起來，對數值型欄位進行處理，將其進行動態的分割，或者直接對原始的數據進行處理，當然數值型關聯規則中也可以包含種類變數。例如：性別=「女」=>職業=「秘書」，是布爾型關聯規則；性別=「女」=>avg（收入）=2300，涉及的收入是數值類型，所以是一個數值型關聯規則。
2.基於規則中數據的抽象層次，可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中，所有的變數都沒有考慮到現實的數據是具有多個不同的層次的；而在多層的關聯規則中，對數據的多層性已經進行了充分的考慮。例如：IBM台式機=>Sony列印機，是一個細節數據上的單層關聯規則；台式機=>Sony列印機，是一個較高層次和細節層次之間的多層關聯規則。
3.基於規則中涉及到的數據的維數，關聯規則可以分為單維的和多維的。
在單維的關聯規則中，我們只涉及到數據的一個維，如用戶購買的物品；而在多維的關聯規則中，要處理的數據將會涉及多個維。換成另一句話，單維關聯規則是處理單個屬性中的一些關系；多維關聯規則是處理各個屬性之間的某些關系。例如：啤酒=>尿布，這條規則只涉及到用戶的購買的物品；性別=「女」=>職業=「秘書」，這條規則就涉及到兩個欄位的信息，是兩個維上的一條關聯規則。
2.3關聯規則挖掘的相關演算法
1.Apriori演算法：使用候選項集找頻繁項集
Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。
該演算法的基本思想是：首先找出所有的頻集，這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集產生強關聯規則，這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集產生期望的規則，產生只包含集合的項的所有規則，其中每一條規則的右部只有一項，這里採用的是中規則的定義。一旦這些規則被生成，那麼只有那些大於用戶給定的最小可信度的規則才被留下來。為了生成所有頻集，使用了遞推的方法。
可能產生大量的候選集,以及可能需要重復掃描資料庫，是Apriori演算法的兩大缺點。
2.基於劃分的演算法
Savasere等設計了一個基於劃分的演算法。這個演算法先把資料庫從邏輯上分成幾個互不相交的塊，每次單獨考慮一個分塊並對它生成所有的頻集，然後把產生的頻集合並，用來生成所有可能的頻集，最後計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存，每個階段只需被掃描一次。而演算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該演算法是可以高度並行的，可以把每一分塊分別分配給某一個處理器生成頻集。產生頻集的每一個循環結束後，處理器之間進行通信來產生全局的候選k-項集。通常這里的通信過程是演算法執行時間的主要瓶頸；而另一方面，每個獨立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集演算法
針對Apriori演算法的固有缺陷，J. Han等提出了不產生候選挖掘頻繁項集的方法：FP-樹頻集演算法。採用分而治之的策略，在經過第一遍掃描之後，把資料庫中的頻集壓縮進一棵頻繁模式樹（FP-tree），同時依然保留其中的關聯信息，隨後再將FP-tree分化成一些條件庫，每個庫和一個長度為1的頻集相關，然後再對這些條件庫分別進行挖掘。當原始數據量很大的時候，也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明，FP-growth對不同長度的規則都有很好的適應性，同時在效率上較之Apriori演算法有巨大的提高。
3.該領域在國內外的應用
3．1關聯規則發掘技術在國內外的應用
就目前而言，關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中，它可以成功預測銀行客戶需求。一旦獲得了這些信息，銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息，供使用本行ATM機的用戶了解。如果資料庫中顯示，某個高信用限額的客戶更換了地址，這個客戶很有可能新近購買了一棟更大的住宅，因此會有可能需要更高信用限額，更高端的新信用卡，或者需要一個住房改善貸款，這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候，資料庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點，同時也可以顯示出顧客會對什麼產品感興趣。
同時，一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘，然後設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售，也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國，「數據海量，信息缺乏」是商業銀行在數據大集中之後普遍所面對的尷尬。目前金融業實施的大多數資料庫只能實現數據的錄入、查詢、統計等較低層次的功能，卻無法發現數據中存在的各種有用的信息，譬如對這些數據進行分析，發現其數據模式及特徵，然後可能發現某個客戶、消費群體或組織的金融和商業興趣，並可觀察金融市場的變化趨勢。可以說，關聯規則挖掘的技術在我國的研究與應用並不是很廣泛深入。
3．2近年來關聯規則發掘技術的一些研究
由於許多應用問題往往比超市購買問題更復雜，大量研究從不同的角度對關聯規則做了擴展，將更多的因素集成到關聯規則挖掘方法之中，以此豐富關聯規則的應用領域，拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關系，時態關系，多表挖掘等。近年來圍繞關聯規則的研究主要集中於兩個方面，即擴展經典關聯規則能夠解決問題的范圍，改善經典關聯規則挖掘演算法效率和規則興趣性。
編輯本段數據挖掘技術實現
在技術上可以根據它的工作過程分為：數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。
·數據的抽取
數據的抽取是數據進入倉庫的入口。由於數據倉庫是一個獨立的數據環境，它需要通過抽取過程將數據從聯機事務處理系統、外部數據源、離線的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監控等幾個方面的處理。在數據抽取方面，未來的技術發展將集中在系統功能集成化方面，以適應數據倉庫本身或數據源的變化，使系統更便於管理和維護。
·數據的存儲和管理
數據倉庫的組織管理方式決定了它有別於傳統資料庫的特性，也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多，且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何並行處理大量的數據、如何優化查詢等。目前，許多資料庫廠家提供的技術解決方案是擴展關系型資料庫的功能，將普通關系資料庫改造成適合擔當數據倉庫的伺服器。
·數據的展現
在數據展現方面主要的方式有：
查詢：實現預定義查詢、動態查詢、OLAP查詢與決策支持智能查詢；報表：產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表；可視化：用易於理解的點線圖、直方圖、餅圖、網狀圖、互動式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關系；統計：進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析；挖掘：利用數據挖掘等方法，從數據中得到關於數據關系和模式的知識。
編輯本段數據挖掘與數據倉庫融合發展
數據挖掘和數據倉庫的協同工作，一方面，可以迎合和簡化數據挖掘過程中的重要步驟，提高數據挖掘的效率和能力，確保數據挖掘中數據來源的廣泛性和完整性。另一方面，數據挖掘技術已經成為數據倉庫應用中極為重要和相對獨立的方面和工具。
數據挖掘和數據倉庫是融合與互動發展的，其學術研究價值和應用研究前景將是令人振奮的。它是數據挖掘專家、數據倉庫技術人員和行業專家共同努力的成果，更是廣大渴望從資料庫「奴隸」到資料庫「主人」轉變的企業最終用戶的通途。
統計學與數據挖掘
統計學和數據挖掘有著共同的目標：發現數據中的結構。事實上，由於它們的目標相似，一些人（尤其是統計學家）認為數據挖掘是統計學的分支。這是一個不切合實際的看法。因為數據挖掘還應用了其它領域的思想、工具和方法，尤其是計算機學科，例如資料庫技術和機器學習，而且它所關注的某些領域和統計學家所關注的有很大不同。
1．統計學的性質
試圖為統計學下一個太寬泛的定義是沒有意義的。盡管可能做到，但會引來很多異議。相反，我要關注統計學不同於數據挖掘的特性。
差異之一同上節中最後一段提到的相關，即統計學是一門比較保守的學科，目前有一種趨勢是越來越精確。當然，這本身並不是壞事，只有越精確才能避免錯誤，發現真理。但是如果過度的話則是有害的。這個保守的觀點源於統計學是數學的分支這樣一個看法，我是不同意這個觀點的,盡管統計學確實以數學為基礎（正如物理和工程也以數學為基礎，但沒有被認為是數學的分支），但它同其它學科還有緊密的聯系。
數學背景和追求精確加強了這樣一個趨勢：在採用一個方法之前先要證明，而不是象計算機這

『叄』數據挖掘的國內外研究現狀

摘要：隨著網路、資料庫技術的迅速發畏以及資料庫管理系統的廣泛應用，人們積累的數據越來越多。數據挖掘(Data Mining)就是從大量的實際應用數據中提取隱含信息和知識，它利用了資料庫、人工智慧和數理統計等多方面的技術，是一類深層次的數據分析方法。

關鍵詞：數據挖掘；知識；分析；市場營銷；金融投資

隨著網路、資料庫技術的迅速發展以及資料庫管理系統的廣泛應用，人們積累的數據越來越多。由此，數據挖掘技術應運而生。下面，本文對數據技術及其應用作一簡單介紹。
一、數據挖掘定義
數據挖掘(Data Mining)就是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它是一種新的商業信息處理技術，其主要特點是對商業資料庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理，從中提取輔助商業決策的關鍵性數據。簡而言之，數據挖掘其實是一類深層次的數據分析方法。從這個角度數據挖掘也可以描述為：按企業制定的業務目標，對大量的企業數據進行探索和分析，揭示隱藏的、未知的或驗證已知的規律性，並進一步將其模型化的先進有效的方法。
二、數據挖掘技術
數據挖掘技術是人們長期對資料庫技術進行研究和開發的結果，代寫論文其中數據倉庫技術的發展與數據挖掘有著密切的關系。大部分情況下，數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中，因為數據倉庫會對數據進行清理，並會解決數據的不一致問題，這會給數據挖掘帶來很多好處。此外數據挖掘還利用了人工智慧(AI)和統計分析的進步所帶來的好處，這兩門學科都致力於模式發現和預測。資料庫、人工智慧和數理統計是數據挖掘技術的三大支柱。由於數據挖掘所發現的知識的不同，其所利用的技術也有所不同。
1．廣義知識。指類別特徵的概括性描述知識。根據數據的微觀特性發現其表徵的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識，反映同類事物的共同性質，是對數據的概括、精煉和抽象。廣義知識的發現方法和實現技術有很多，如數據立方體、面向屙性的歸約等。數據立方體的基本思想是實現某些常用的代價較高的聚集函數的計算，諸如計數、求和、平均、最大值等，並將這些實現視圖儲存在多維資料庫中。而面向屬性的歸約是以類SQL語言來表示數據挖掘查詢，收集資料庫中的相關數據集，然後在相關數據集上應用一系列數據推廣技術進行數據推廣，包括屬性刪除、概念樹提升、屬性閾值控制、計數及其他聚集函數傳播等。
2．關聯知識。它反映一個事件和其他事件之間依賴或關聯的知識。如果兩項或多項屬性之間存在關聯，那麼其中一項的屬性值就可以依據其他屬性值進行預測。最為著名的關聯規
則發現方法是Apriori演算法和FP—Growth演算法。關聯規則的發現可分為兩步：第一步是迭代識別所有的頻繁項目集，要求頻繁項目集的支持率不低於用戶設定的最低值；第二步是從頻繁項目集中構造可信度不低於用戶設定的最低值的規則。識別或發現所有頻繁項目集是關聯規則發現演算法的核心，也是計算量最大的部分。
3．分類知識。它反映同類事物共同性質的特徵型知識和不同事物之間的差異型特徵知識。分類方法有決策樹、樸素貝葉斯、神經網路、遺傳演算法、粗糙集方法、模糊集方法、線性回歸和K—Means劃分等。其中最為典型的分類方法是決策樹。它是從實例集中構造決策樹，是一種有指導的學習方法。
該方法先根據訓練子集形成決策樹，如果該樹不能對所有對象給出正確的分類，那麼選擇一些例外加入到訓練子集中，重復該過程一直到形成正確的決策集。最終結果是一棵樹，其葉結點是類名，中間結點是帶有分枝的屙性，該分枝對應該屙性的某一可能值。
4．預測型知識。它根據時間序列型數據，由歷史的和當前的數據去推測未來的數據，也可以認為是以時間為關鍵屬性的關聯知識。目前，時間序列預測方法有經典的統計方法、神經網路和機器學習等。1968年BoX和Jenkins提出了一套比較完善的時間序列建模理論和分析方法，這些經典的數學方法通過建立隨機模型，進行時間序列的預測。由於大量的時間序列是非平穩的，其特徵參數和數據分布隨著時間的推移而發生變化。因此，僅僅通過對某段歷史數據的訓練，建立單一的神經網路預測模型，還無法完成准確的預測任務。為此，人們提出了基於統計學和基於精確性的再訓練方法，當發現現存預測模型不再適用於當前數據時，對模型重新訓練，獲得新的權重參數，建立新的模型。
5．偏差型知識。它是對差異和極端特例的描述，揭示事物偏離常規的異常現象，如標准類外的特例、數據聚類外的離群值等。所有這些知識都可以在不同的概念層次上被發現，並隨著概念層次的提升，從微觀到中觀、到宏觀，以滿足不同用戶不同層次決策的需要。
三、數據挖掘流程
數據挖掘是指一個完整的過程，該過程從大型資料庫中挖掘先前未知的、有效的、可實用的信息，代寫畢業論文並使用這些信息做出決策或豐富知識。數據挖掘的基本過程和主要步驟如下：
過程中各步驟的大體內容如下：
1．確定業務對象，清晰地定義出業務問題。認清數據挖掘的目的是數據挖掘的重要一步，挖掘的最後結構不可預測，但要探索的問題應該是有預見的，為了數據挖掘而挖掘則帶有盲目性，是不會成功的。
2．數據准備。(1)數據選擇。搜索所有與業務對象有關的內部和外部數據信息，並從中選擇出適用於數據挖掘應用的數據。(2)數據預處理。研究數據的質量，進行數據的集成、變換、歸約、壓縮等．為進一步的分析作準備，並確定將要進行的挖掘操作的類型。(3)數據轉換。將數據轉換成一個分析模型，這個分析模型是針對挖掘演算法建立的，這是數據挖掘成功的關鍵。
3．數據挖掘。對所得到的經過轉換的數據進行挖掘。除了完善和選擇合適的挖掘演算法外，其餘一切工作都能自動地完成。
4．結果分析。解釋並評估結果。其使用的分析方法一般應視挖掘操作而定，通常會用到可視化技術。
5．知識同化。將分析所得到的知識集成到業務信息系統的組織結構中去。
四、數據挖掘的應用
數據挖掘技術從一開始就是面向應用的。目前在很多領域，數據挖掘都是一個很時髦的詞，尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業領域。
1．市場營銷。由於管理信息系統和P0S系統在商業尤其是零售業內的普遍使用，特別是條形碼技術的使用，從而可以收集到大量關於用戶購買情況的數據，並且數據量在不斷激增。對市場營銷來說，通過數據分析了解客戶購物行為的一些特徵，對提高競爭力及促進銷售是大有幫助的。利用數據挖掘技術通過對用戶數據的分析，可以得到關於顧客購買取向和興趣的信息，從而為商業決策提供了可靠的依據。數據挖掘在營銷業上的應用可分為兩類：資料庫營銷(database markerting)和貨籃分析(basket analysis)。資料庫營銷的任務是通過互動式查詢、數據分割和模型預測等方法來選擇潛在的顧客，以便向它們推銷產品。通過對已有的顧客數據的辱淅，可以將用戶分為不同級別，級別越高，其購買的可能性就越大。貨籃分析
是分析市場銷售數據以識別顧客的購買行為模式，例如：如果A商品被選購，那麼B商品被購買的可能性為95％，從而幫助確定商店貨架的布局排放以促銷某些商品，並且對進貨的選擇和搭配上也更有目的性。這方面的系統有：Opportunity Ex-plorer，它可用於超市商品銷售異常情況的因果分析等，另外IBM公司也開發了識別顧客購買行為模式的一些工具(IntdligentMiner和QUEST中的一部分)。
2．金融投資。典型的金融分析領域有投資評估和股票交易市場預測，分析方法一般採用模型預測法(如神經網路或統計回歸技術)。代寫碩士論文由於金融投資的風險很大，在進行投資決策時，更需要通過對各種投資方向的有關數據進行分析，以選擇最佳的投資方向。無論是投資評估還是股票市場預測，都是對事物發展的一種預測，而且是建立在對數據的分析基礎之上的。數據挖掘可以通過對已有數據的處理，找到數據對象之間的關系，然後利用學習得到的模式進行合理的預測。這方面的系統有Fidelity Stock Selector和LBS Capital Management。前者的任務是使用神經網路模型選擇投資，後者則使用了專家系統、神經網路和基因演算法技術來輔助管理多達6億美元的有價證券。
3．欺詐甄別。銀行或商業上經常發生詐騙行為，如惡性透支等，這些給銀行和商業單位帶來了巨大的損失。對這類詐騙行為進行預測可以減少損失。進行詐騙甄別主要是通過總結正常行為和詐騙行為之間的關系，得到詐騙行為的一些特性，這樣當某項業務符合這些特徵時，可以向決策人員提出警告。
這方面應用非常成功的系統有：FALCON系統和FAIS系統。FALCON是HNC公司開發的信用卡欺詐估測系統，它已被相當數量的零售銀行用於探測可疑的信用卡交易；FAIS則是一個用於識別與洗錢有關的金融交易的系統，它使用的是一般的政府數據表單。此外數據挖掘還可用於天文學上的遙遠星體探測、基因工程的研究、web信息檢索等。
結束語
隨著資料庫、人工智慧、數理統計及計算機軟硬體技術的發展，數據挖掘技術必能在更多的領域內取得更廣泛的應用。

參考文獻：
[1]閆建紅《資料庫系統概論》的教學改革與探索[J]．山西廣播電視大學學報，2006，(15)：16—17．

『肆』數據挖掘的演算法及技術的應用的研究論文

數據挖掘的演算法及技術的應用的研究論文

摘要： 數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據中發現隱含的、規律性的、人們事先未知的, 但又是潛在有用的並且最終可被理解的信息和知識的非平凡過程。任何有數據管理和知識發現需求的地方都可以藉助數據挖掘技術來解決問題。本文對數據挖掘的演算法以及數據挖掘技術的應用展開研究, 論文對數據挖掘技術的應用做了有益的研究。

關鍵詞： 數據挖掘; 技術; 應用;

引言: 數據挖掘技術是人們長期對資料庫技術進行研究和開發的結果。起初各種商業數據是存儲在計算機的資料庫中的, 然後發展到可對資料庫進行查詢和訪問, 進而發展到對資料庫的即時遍歷。數據挖掘使資料庫技術進入了一個更高級的階段, 它不僅能對過去的數據進行查詢和遍歷, 並且能夠找出過去數據之間的潛在聯系, 從而促進信息的傳遞。

一、數據挖掘概述

數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據中發現隱含的、規律性的、人們事先未知的, 但又是潛在有用的並且最終可被理解的信息和知識的非平凡過程。

二、數據挖掘的基本過程

(1) 數據選擇:選擇與目標相關的數據進行數據挖掘。根據不同的數據挖掘目標, 對數據進行處理, 不僅可以排除不必要的數據干擾, 還可以極大地提高數據挖掘的效率。 (2) 數據預處理:主要進行數據清理、數據集成和變換、數據歸約、離散化和概念分層生成。 (3) 模式發現:從數據中發現用戶感興趣的模式的過程.是知識發現的主要的處理過程。 (4) 模式評估:通過某種度量得出真正代表知識的模式。一般來說企業進行數據挖掘主要遵循以下流程——准備數據, 即收集數據並進行積累, 此時企業就需要知道其所需要的是什麼樣的數據, 並通過分類、編輯、清洗、預處理得到客觀明確的目標數據。數據挖掘這是最為關鍵的步驟, 主要是針對預處理後的數據進行進一步的挖掘, 取得更加客觀准確的數據, 方能引入決策之中, 不同的企業可能採取的數據挖掘技術不同, 但在當前來看暫時脫離不了上述的挖掘方法。當然隨著技術的進步, 大數據必定會進一步成為企業的立身之本, 在當前已經在很多領域得以應用。如市場營銷, 這是數據挖掘應用最早的領域, 旨在挖掘用戶消費習慣, 分析用戶消費特徵進而進行精準營銷。就以令人深惡痛絕的彈窗廣告來說, 當消費者有網購習慣並在網路上搜索喜愛的產品, 當再一次進行搜索時, 就會彈出很多針對消費者消費習慣的商品。

三、數據挖掘方法

1、聚集發現。

聚集是把整個資料庫分成不同的群組。它的目的是要群與群之間差別很明顯.而同一個群之間的數據盡量相似.聚集在電子商務上的典型應用是幫助市場分析人員從客戶基本庫中發現不同的客戶群, 並且用購買模式來刻畫不同客戶群的特徵。此外聚類分析可以作為其它演算法 (如特徵和分類等) 的預處理步驟, 這些演算法再在生成的簇上進行處理。與分類不同, 在開始聚集之前你不知道要把數據分成幾組, 也不知道怎麼分 (依照哪幾個變數) .因此在聚集之後要有一個對業務很熟悉的人來解釋這樣分群的意義。很多情況下一次聚集你得到的分群對你的業務來說可能並不好, 這時你需要刪除或增加變數以影響分群的方式, 經過幾次反復之後才能最終得到一個理想的結果.聚類方法主要有兩類, 包括統計方法和神經網路方法.自組織神經網路方法和K-均值是比較常用的`聚集演算法。

2、決策樹。

這在解決歸類與預測上能力極強, 通過一系列的問題組成法則並表達出來, 然後經過不斷詢問問題導出所需的結果。典型的決策樹頂端是一個樹根, 底部擁有許多樹葉, 記錄分解成不同的子集, 每個子集可能包含一個簡單法則。

四、數據挖掘的應用領域

4.1市場營銷

市場銷售數據採掘在銷售業上的應用可分為兩類:資料庫銷售和籃子數據分析。前者的任務是通過互動式查詢、數據分割和模型預測等方法來選擇潛在的顧客以便向它們推銷產品, 而不是像以前那樣盲目地選擇顧客推銷;後者的任務是分析市場銷售數據以識別顧客的購買行為模式, 從而幫助確定商店貨架的布局排放以促銷某些商品。

4.2金融投資

典型的金融分析領域有投資評估和股票交易市場預測, 分析方法一般採用模型預測法。這方面的系統有Fidelity Stock Selector, LBS Capital Management。前者的任務是使用神經網路模型選擇投資, 後者則使用了專家系統、神經網路和基因演算法技術輔助管理多達6億美元的有價證券。

結論:數據挖掘是一種新興的智能信息處理技術。隨著相關信息技術的迅猛發展, 數據挖掘的應用領域不斷地拓寬和深入, 特別是在電信、軍事、生物工程和商業智能等方面的應用將成為新的研究熱點。同時, 數據挖掘應用也面臨著許多技術上的挑戰, 如何對復雜類型的數據進行挖掘, 數據挖掘與資料庫、數據倉庫和Web技術等技術的集成問題, 以及數據挖掘的可視化和數據質量等問題都有待於進一步研究和探索。

參考文獻

[1]孟強, 李海晨.Web數據挖掘技術及應用研究[J].電腦與信息技術, 2017, 25 (1) :59-62.

[2]高海峰.智能交通系統中數據挖掘技術的應用研究[J].數字技術與應用, 2016 (5) :108-108.

;

『伍』什麼是數據挖掘

數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

數據挖掘流程：

定義問題：清晰地定義出業務問題，確定數據挖掘的目的。
數據准備：數據准備包括：選擇數據–在大型資料庫和數據倉庫目標中提取數據挖掘的目標數據集;數據預處理–進行數據再加工，包括檢查數據的完整性及數據的一致性、去雜訊，填補丟失的域，刪除無效數據等。
數據挖掘：根據數據功能的類型和和數據的特點選擇相應的演算法，在凈化和轉換過的數據集上進行數據挖掘。
結果分析：對數據挖掘的結果進行解釋和評價，轉換成為能夠最終被用戶理解的知識。

『陸』股票市場搞數據挖掘，數據分析來炒股有沒機會

有機會，而且機會不小，但是我等散戶靠數據分析，可能自身實力差的太懸殊了。
硬體設備就不達標哦。

『柒』數據挖掘實戰之隨機森林演算法使用

閱讀路線:

近來有同學問道，有沒有數據挖掘的案例可以來練習下，主要是來通過案例來知道演算法是如何使用的。

下面就以 港股打新 這個金融項目為例，來做個預測，先來說下什麼是打新;打新，就是用資金參與新股申購，如果中簽的話，就買到了即將上市的股票。

此次分析的目的是為了深入打新數據，找到最優演算法，挖掘出影響打新的關鍵因素，找到可能要破發的新股,從而減少新股破發的風險，提高盈利。

打新的本質，也即是在股票上市後賣出，賺取其中的差價。一般在買到的第一天就會賣掉，當然第一天上升的股票有漲有跌，為了能夠減少風險，會根據歷史數據來做個預判，這里把漲幅10%以下記為0，漲幅10%以上記為1,很明顯這也是二分類的預測問題

對於本項目而言，最終的評價標準是要求在精確度達到97%的情況下，最大化召回率。這里是要求盡可能提高召回率,自己本身對風險比較厭惡，寧可錯殺，也不會願意申購上市就要的破發的新股

對於評價標准，一般用的是PR曲線和ROC曲線。ROC曲線有一個突出優勢，就是不受樣本不均衡的影響 ROC曲線不受樣本不均衡問題的影響

1.數據總體情況

港股數據主要來自兩個方面, 利弗莫爾證券數據和阿思達克保薦人近兩年數據，處理之後是這樣的:

數據一共有17個特徵，除了目標變數is_profit,還有16個特徵。

以上的數據指標可以梳理為兩類，一類是股票相，如關，一類是保薦人指標，

2.數據處理方面不用管
一般特徵工程主要從以下方面來進行:衍生特徵、異常值處理、缺失值處理、連續特徵離散化、分類變數one-hot-encode、標准化等，本篇文章主要講解隨機森林演算法使用，暫不對特徵工程做過多的展示了

從 使用隨機森林默認的參數 帶來的模型結果來看，auc指標是0.76，效果還可以。

為了更好的理解上述，這里有幾個知識點需要來解釋下:

返回的是一個n行k列的數組，第i行第j列上的數值是模型預測第i個預測樣本的標簽為j的概率。所以每一行的和應該等於1;本文中predict_proba(x_test)[:,1]返回的是標簽為0的概率。

(a).混淆矩陣

混淆矩陣如下圖分別用」0「和」1「代表負樣本和正樣本。FP代表實際類標簽為」0「，但預測類標簽為」1「的樣本數量。其餘，類似推理。

(b).假正率和真正率

假正率（False Positive Rate，FPR）是實際標簽為」0「的樣本中，被預測錯誤的比例。真正率（True Positive Rate，TPR）是實際標簽為」1「的樣本中，被預測正確的比例。其公式如下：

(3).ROC曲線

下圖的黑色線即為ROC曲線，ROC曲線是一系列threshold下的（FPR，TPR）數值點的連線。此時的threshold的取值分別為測試數據集中各樣本的預測概率。但，取各個概率的順序是從大到小的。然後也就是有了不同的RPR、TPR，且測試樣本中的數據點越多，曲線越平滑：

AUC(Area Under roc Cure)，顧名思義，其就是ROC曲線下的面積，在此例子中AUC=0.62。AUC越大，說明分類效果越好。

下面我們來看看RF重要的Bagging框架的參數，主要有以下幾個:

(1) n_estimators:

也就是最大的弱學習器的個數。一般來說n_estimators太小，容易欠擬合，n_estimators太大，計算量會太大，並且n_estimators到一定的數量後，再增大n_estimators獲得的模型提升會很小，所以一般選擇一個適中的數值。默認是100。

(2) oob_score:

即是否採用袋外樣本來評估模型的好壞。默認識False。個人推薦設置為True，因為袋外分數反應了一個模型擬合後的泛化能力。

(3) criterion:

即CART樹做劃分時對特徵的評價標准。分類模型和回歸模型的損失函數是不一樣的。分類RF對應的CART分類樹默認是基尼系數gini,另一個可選擇的標準是信息增益。回歸RF對應的CART回歸樹默認是均方差mse，另一個可以選擇的標準是絕對值差mae。一般來說選擇默認的標准就已經很好的。

從上面可以看出，RF重要的框架參數比較少，主要需要關注的是 n_estimators ，即RF最大的決策樹個數。

下面我們再來看RF的決策樹參數，它要調參的參數如下:

(1) RF劃分時考慮的最大特徵數max_features:

(2) 決策樹最大深度max_depth:

默認可以不輸入，如果不輸入的話，決策樹在建立子樹的時候不會限制子樹的深度。一般來說，數據少或者特徵少的時候可以不管這個值。如果模型樣本量多，特徵也多的情況下，推薦限制這個最大深度，具體的取值取決於數據的分布。常用的可以取值10-100之間。

(3) 內部節點再劃分所需最小樣本數min_samples_split:

這個值限制了子樹繼續劃分的條件，如果某節點的樣本數少於min_samples_split，則不會繼續再嘗試選擇最優特徵來進行劃分。默認是2.如果樣本量不大，不需要管這個值。如果樣本量數量級非常大，則推薦增大這個值。

(4) 葉子節點最少樣本數min_samples_leaf:

這個值限制了葉子節點最少的樣本數，如果某葉子節點數目小於樣本數，則會和兄弟節點一起被剪枝。默認是1,可以輸入最少的樣本數的整數，或者最少樣本數占樣本總數的百分比。如果樣本量不大，不需要管這個值。如果樣本量數量級非常大，則推薦增大這個值。

(5)葉子節點最小的樣本權重和min_weight_fraction_leaf：

這個值限制了葉子節點所有樣本權重和的最小值，如果小於這個值，則會和兄弟節點一起被剪枝。默認是0，就是不考慮權重問題。一般來說，如果我們有較多樣本有缺失值，或者分類樹樣本的分布類別偏差很大，就會引入樣本權重，這時我們就要注意這個值了。

(6) 最大葉子節點數max_leaf_nodes:

通過限制最大葉子節點數，可以防止過擬合，默認是"None」，即不限制最大的葉子節點數。如果加了限制，演算法會建立在最大葉子節點數內最優的決策樹。如果特徵不多，可以不考慮這個值，但是如果特徵分成多的話，可以加以限制，具體的值可以通過交叉驗證得到。

(7) 節點劃分最小不純度min_impurity_split:
這個值限制了決策樹的增長，如果某節點的不純度(基於基尼系數，均方差)小於這個閾值，則該節點不再生成子節點。即為葉子節點。一般不推薦改動默認值1e-7。

上面決策樹參數中最重要的包括最大特徵數 max_features ，最大深度 max_depth ，內部節點再劃分所需最小樣本數 min_samples_split 和葉子節點最少樣本數 min_samples_leaf

GridSearchCV的名字其實可以拆分為兩部分，GridSearch和CV，即網格搜索和交叉驗證。這兩個名字都非常好理解。網格搜索，搜索的是參數，即在指定的參數范圍內，按步長依次調整參數，利用調整的參數訓練學習器，從所有的參數中找到在驗證集上精度最高的參數，這其實是一個訓練和比較的過程。

GridSearchCV可以保證在指定的參數范圍內找到精度最高的參數，但是這也是網格搜索的缺陷所在，他要求遍歷所有可能參數的組合，在面對大數據集和多參數的情況下，非常耗時。

通過RF框架以及RF決策樹參數能夠了解到重點需要調節以下的參數

主要需要關注的是 n_estimators ，即RF最大的決策樹個數。

決策樹參數中最重要的包括最大特徵數 max_features ，最大深度 max_depth ，內部節點再劃分所需最小樣本數 min_samples_split 和葉子節點最少樣本數 min_samples_leaf

輸出結果為:

6.3最佳的弱學習器迭代次數，接著我們對決策樹最大深度max_depth和內部節點再劃分所需最小樣本數min_samples_split進行網格搜索

輸出結果

6.4最大特徵數max_features做調參

輸出結果:

6.5根據模型最佳參數進行測試

輸出結果:0.7805947388486466，相比沒有調參前，模型有不少的提高的，方便觀察，用圖形來看下ROC曲線圖

6.6觀察模型的重要特徵

6.7最大召回率

最後得出我們想要的結果，精準率在 0.97 下，召回率 0.046

參考文章:

1.sklearn中predict_proba的用法例子

2.Python機器學習筆記 Grid SearchCV(網格搜索)

3.scikit-learn隨機森林調參小結

4.ROC曲線和AUC值的計算

『捌』根據以前的數據預測未來的行為用的是什麼數據挖掘方法

數據挖掘(Data Mining)就是從大量數據中發現潛在規律、提取有用知識的方法和技術。因為與資料庫密切相關，又稱為資料庫知識發現(Knowledge Discovery in Databases，KDD) ，就是將高級智能計算技術應用於大量數據中，讓計算機在有人或無人指導的情況下從海量數據中發現潛在的，有用的模式(也叫知識)。
廣義上說，任何從資料庫中挖掘信息的過程都叫做數據挖掘。從這點看來，數據挖掘就是BI（商業智能）。但從技術術語上說，數據挖掘(Data Mining)特指的是：源數據經過清洗和轉換等成為適合於挖掘的數據集。數據挖掘在這種具有固定形式的數據集上完成知識的提煉，最後以合適的知識模式用於進一步分析決策工作。從這種狹義的觀點上，我們可以定義：數據挖掘是從特定形式的數據集中提煉知識的過程。數據挖掘往往針對特定的數據、特定的問題，選擇一種或者多種挖掘演算法，找到數據下面隱藏的規律，這些規律往往被用來預測、支持決策。

數據挖掘的主要功能
1．分類：按照分析對象的屬性、特徵，建立不同的組類來描述事物。例如：銀行部門根據以前的數據將客戶分成了不同的類別，現在就可以根據這些來區分新申請貸款的客戶，以採取相應的貸款方案。
2．聚類：識別出分析對內在的規則，按照這些規則把對象分成若干類。例如：將申請人分為高度風險申請者，中度風險申請者，低度風險申請者。
3．關聯規則和序列模式的發現：關聯是某種事物發生時其他事物會發生的這樣一種聯系。例如：每天購買啤酒的人也有可能購買香煙，比重有多大，可以通過關聯的支持度和可信度來描述。與關聯不同，序列是一種縱向的聯系。例如：今天銀行調整利率，明天股市的變化。
4．預測：把握分析對象發展的規律，對未來的趨勢做出預見。例如：對未來經濟發展的判斷。
5．偏差的檢測：對分析對象的少數的、極端的特例的描述，揭示內在的原因。例如：在銀行的100萬筆交易中有500例的欺詐行為，銀行為了穩健經營，就要發現這500例的內在因素，減小以後經營的風險。
需要注意的是：數據挖掘的各項功能不是獨立存在的，在數據挖掘中互相聯系，發揮作用。

數據挖掘的方法及工具
作為一門處理數據的新興技術，數據挖掘有許多的新特徵。首先，數據挖掘面對的是海量的數據，這也是數據挖掘產生的原因。其次，數據可能是不完全的、有雜訊的、隨機的，有復雜的數據結構，維數大。最後，數據挖掘是許多學科的交叉，運用了統計學，計算機，數學等學科的技術。以下是常見和應用最廣泛的演算法和模型：
(1) 傳統統計方法：① 抽樣技術：我們面對的是大量的數據，對所有的數據進行分析是不可能的也是沒有必要的，就要在理論的指導下進行合理的抽樣。② 多元統計分析：因子分析，聚類分析等。③ 統計預測方法，如回歸分析，時間序列分析等。
(2) 可視化技術：用圖表等方式把數據特徵用直觀地表述出來，如直方圖等，這其中運用的許多描述統計的方法。可視化技術面對的一個難題是高維數據的可視化。

職業能力要求
基本能力要求
數據挖掘人員需具備以下基本條件，才可以完成數據挖掘項目中的相關任務。
一、專業技能
碩士以上學歷，數據挖掘、統計學、資料庫相關專業，熟練掌握關系資料庫技術，具有資料庫系統開發經驗
熟練掌握常用的數據挖掘演算法
具備數理統計理論基礎，並熟悉常用的統計工具軟體
二、行業知識
具有相關的行業知識，或者能夠很快熟悉相關的行業知識
三、合作精神
具有良好的團隊合作精神，能夠主動和項目中其他成員緊密合作
四、客戶關系能力
具有良好的客戶溝通能力，能夠明確闡述數據挖掘項目的重點和難點，善於調整客戶對數據挖掘的誤解和過高期望
具有良好的知識轉移能力，能夠盡快地讓模型維護人員了解並掌握數據挖掘方法論及建模實施能力

進階能力要求
數據挖掘人員具備如下條件，可以提高數據挖掘項目的實施效率，縮短項目周期。
具有數據倉庫項目實施經驗，熟悉數據倉庫技術及方法論
熟練掌握SQL語言，包括復雜查詢、性能調優
熟練掌握ETL開發工具和技術
熟練掌握Microsoft Office軟體，包括Excel和PowerPoint中的各種統計圖形技術
善於將挖掘結果和客戶的業務管理相結合，根據數據挖掘的成果向客戶提供有價值的可行性操作方案

應用及就業領域
當前數據挖掘應用主要集中在電信(客戶分析)，零售(銷售預測)，農業(行業數據預測)，網路日誌(網頁定製)，銀行(客戶欺詐),電力(客戶呼叫)，生物(基因)，天體(星體分類)，化工，醫葯等方面。當前它能解決的問題典型在於：資料庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為，以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發現(Fraud Detection)等等，在許多領域得到了成功的應用。如果你訪問著名的亞馬遜網上書店()，會發現當你選中一本書後，會出現相關的推薦數目「Customers who bought this book also bought」，這背後就是數據挖掘技術在發揮作用。
數據挖掘的對象是某一專業領域中積累的數據；挖掘過程是一個人機交互、多次反復的過程；挖掘的結果要應用於該專業。因此數據挖掘的整個過程都離不開應用領域的專業知識。「Business First, technique second」是數據挖掘的特點。因此學習數據挖掘不意味著丟棄原有專業知識和經驗。相反，有其它行業背景是從事數據挖掘的一大優勢。如有銷售，財務，機械，製造，call center等工作經驗的,通過學習數據挖掘，可以提升個人職業層次，在不改變原專業的情況下，從原來的事務型角色向分析型角色轉變。從80年代末的初露頭角到90年代末的廣泛應用，以數據挖掘為核心的商業智能(BI)已經成為IT及其它行業中的一個新寵。

數據採集分析專員
職位介紹：數據採集分析專員的主要職責是把公司運營的數據收集起來，再從中挖掘出規律性的信息來指導公司的戰略方向。這個職位常被忽略，但相當重要。由於資料庫技術最先出現於計算機領域，同時計算機資料庫具有海量存儲、查找迅速、分析半自動化等特點，數據採集分析專員最先出現於計算機行業，後來隨著計算機應用的普及擴展到了各個行業。該職位一般提供給懂資料庫應用和具有一定統計分析能力的人。有計算機特長的統計專業人員，或學過數據挖掘的計算機專業人員都可以勝任此工作，不過最好能夠對所在行業的市場情況具有一定的了解。
求職建議：由於很多公司追求短期利益而不注重長期戰略的現狀，目前國內很多企業對此職位的重視程度不夠。但大型公司、外企對此職位的重視程度較高，隨著時間的推移該職位會有升溫的趨勢。另外，數據採集分析專員很容易獲得行業經驗，他們在分析過程中能夠很輕易地把握該行業的市場情況、客戶習慣、渠道分布等關鍵情況，因此如果想在某行創業，從數據採集分析專員干起是一個不錯的選擇。

市場/數據分析師
1. 市場數據分析是現代市場營銷科學必不可少的關鍵環節: Marketing/Data Analyst從業最多的行業: Direct Marketing (直接面向客戶的市場營銷) 吧，自90年代以來, Direct Marketing越來越成為公司推銷其產品的主要手段。根據加拿大市場營銷組織(Canadian Marketing Association)的統計數據: 僅1999年一年 Direct Marketing就創造了470000 個工作機會。從1999至2000，工作職位又增加了30000個。為什麼Direct Marketing需要這么多Analyst呢? 舉個例子, 隨著商業競爭日益加劇，公司希望能最大限度的從廣告中得到銷售回報, 他們希望能有更多的用戶來響應他們的廣告。所以他們就必需要在投放廣告之前做大量的市場分析工作。例如，根據自己的產品結合目標市場顧客的家庭收入，教育背景和消費趨向分析出哪些地區的住戶或居民最有可能響應公司的銷售廣告，購買自己的產品或成為客戶，從而廣告只針對這些特定的客戶群。這樣有的放矢的篩選廣告的投放市場既節省開銷又提高了銷售回報率。但是所有的這些分析都是基於資料庫，通過數據處理，挖掘，建模得出的，其間，市場分析師的工作是必不可少的。
2. 行業適應性強: 幾乎所有的行業都會應用到數據, 所以作為一名數據/市場分析師不僅僅可以在華人傳統的IT行業就業，也可以在政府，銀行，零售，醫葯業，製造業和交通傳輸等領域服務。

現狀與前景
數據挖掘是適應信息社會從海量的資料庫中提取信息的需要而產生的新學科。它是統計學、機器學習、資料庫、模式識別、人工智慧等學科的交叉。在中國各重點院校中都已經開了數據挖掘的課程或研究課題。比較著名的有中科院計算所、復旦大學、清華大學等。另外，政府機構和大型企業也開始重視這個領域。
據IDC對歐洲和北美62家採用了商務智能技術的企業的調查分析發現，這些企業的3年平均投資回報率為401%，其中25%的企業的投資回報率超過600%。調查結果還顯示，一個企業要想在復雜的環境中獲得成功，高層管理者必須能夠控制極其復雜的商業結構，若沒有詳實的事實和數據支持，是很難辦到的。因此，隨著數據挖掘技術的不斷改進和日益成熟，它必將被更多的用戶採用，使更多的管理者得到更多的商務智能。
根據IDC(International Data Corporation)預測說2004年估計BI行業市場在140億美元。現在，隨著我國加入WTO，我國在許多領域，如金融、保險等領域將逐步對外開放，這就意味著許多企業將面臨來自國際大型跨國公司的巨大競爭壓力。國外發達國家各種企業採用商務智能的水平已經遠遠超過了我國。美國Palo Alto 管理集團公司1999年對歐洲、北美和日本375家大中型企業的商務智能技術的採用情況進行了調查。結果顯示，在金融領域，商務智能技術的應用水平已經達到或接近70%，在營銷領域也達到50%，並且在未來的3年中，各個應用領域對該技術的採納水平都將提高約50%。
現在，許多企業都把數據看成寶貴的財富，紛紛利用商務智能發現其中隱藏的信息，藉此獲得巨額的回報。國內暫時還沒有官方關於數據挖掘行業本身的市場統計分析報告，但是國內數據挖掘在各個行業都有一定的研究。據國外專家預測，在今後的5—10年內，隨著數據量的日益積累以及計算機的廣泛應用，數據挖掘將在中國形成一個產業。
眾所周知，IT就業市場競爭已經相當激烈，而數據處理的核心技術---數據挖掘更是得到了前所未有的重視。數據挖掘和商業智能技術位於整個企業IT-業務構架的金字塔塔尖，目前國內數據挖掘專業的人才培養體系尚不健全，人才市場上精通數據挖掘技術、商業智能的供應量極小，而另一方面企業、政府機構和和科研單位對此類人才的潛在需求量極大，供需缺口極大。如果能將數據挖掘技術與個人已有專業知識相結合，您必將開辟職業生涯的新天地！

職業薪酬
就目前來看，和大多IT業的職位一樣，數據倉庫和數據挖掘方面的人才在國內的需求工作也是低端飽和，高端緊缺，在二線成熟，高端數據倉庫和數據挖掘方面的人才尤其稀少。高端數據倉庫和數據挖掘人才需要熟悉多個行業，至少有3年以上大型DWH和BI經驗，英語讀寫流利，具有項目推動能力，這樣的人才年薪能達到20萬以上。

職業認證
1、SAS認證的應用行業及職業前景
SAS全球專業認證是國際上公認的數據挖掘和商業智能領域的權威認證，隨著我國IT環境和應用的日漸成熟，以上兩個領域將有極大的行業發展空間。獲取SAS全球專業認證，為您在數據挖掘、分析方法論領域積累豐富經驗奠定良好的基礎，幫助您開辟職業發展的新天地。
2、SAS認證的有效期
目前SAS五級認證沒有特定有效期，但是時間太久或版本太老的認證證書會有所貶值。
3、五級認證的關系
五級認證為遞進式關系，即只有通過上一級考試科目才能參加下一級認證考試。
4、SAS全球認證的考試方式
考試為上機考試，時間2個小時，共70道客觀題。

相關鏈接
隨著中國物流行業的整體快速發展，物流信息化建設也取得一定進展。無論在IT硬體市場、軟體市場還是信息服務市場，物流行業都具有了一定的投資規模，近兩年的總投資額均在20-30億元之間。政府對現代物流業發展的積極支持、物流市場競爭的加劇等因素有力地促進了物流信息化建設的穩步發展。
易觀國際最新報告《中國物流行業信息化年度綜合報告2006》中指出，中國物流業正在從傳統模式向現代模式實現整體轉變，現代物流模式將引導物流業信息化需求，而產生這種轉變的基本動力來自市場需求。報告中的數據顯示:2006-2010年，傳統物流企業IT投入規模將累計超過100億元人民幣。2006-2010年，第三方物流企業IT投入規模將累計超過20億元人民幣。
由於目前行業應用軟體系統在作業層面對終端設備的硬體提出的應用要求較高，而軟體與硬體的集成性普遍不理想，對應性單一，因此企業將對軟體硬體設備的集成提出更高要求。
物流行業軟體系統研發將更多的考慮運籌學與數據挖掘技術，專業的服務商將更有利於幫助解決研發問題。
物流科學的理論基礎來源於運籌學，並且非常強調在繁雜的數據處理中找到關聯關系(基於成本-服務水平體系)，因此數據挖掘技術對於相關的軟體系統顯得更為重。

導航:首頁 > 數據行情 > 數據挖掘方法在股票中的運用

數據挖掘方法在股票中的運用

與數據挖掘方法在股票中的運用相關的資料