python大數據挖掘股票_如何用python獲取股票數據

1. 如何用python進行大數據挖掘和分析

毫不誇張地說，大數據已經成為任何商業交流中不可或缺的一部分。桌面和移動搜索向全世界的營銷人員和公司以空前的規模提供著數據，並且隨著物聯網的到來，大量用以消費的數據還會呈指數級增長。這種消費數據對於想要更好地定位目標客戶、弄懂人們怎樣使用他們的產品或服務，並且通過收集信息來提高利潤的公司來說無疑是個金礦。
篩查數據並找到企業真正可以使用的結果的角色落到了軟體開發者、數據科學家和統計學家身上。現在有很多工具輔助大數據分析，但最受歡迎的就是Python。
為什麼選擇Python?
Python最大的優點就是簡單易用。這個語言有著直觀的語法並且還是個強大的多用途語言。這一點在大數據分析環境中很重要，並且許多企業內部已經在使用Python了，比如Google，YouTube，迪士尼，和索尼夢工廠。還有，Python是開源的，並且有很多用於數據科學的類庫。所以，大數據市場急需Python開發者，不是Python開發者的專家也可以以相當塊速度學習這門語言，從而最大化用在分析數據上的時間，最小化學習這門語言的時間。
用Python進行數據分析之前，你需要從Continuum.io下載Anaconda。這個包有著在Python中研究數據科學時你可能需要的一切東西。它的缺點是下載和更新都是以一個單元進行的，所以更新單個庫很耗時。但這很值得，畢竟它給了你所需的所有工具，所以你不需要糾結。
現在，如果你真的要用Python進行大數據分析的話，毫無疑問你需要成為一個Python開發者。這並不意味著你需要成為這門語言的大師，但你需要了解Python的語法，理解正則表達式，知道什麼是元組、字元串、字典、字典推導式、列表和列表推導式——這只是開始。
各種類庫
當你掌握了Python的基本知識點後，你需要了解它的有關數據科學的類庫是怎樣工作的以及哪些是你需要的。其中的要點包括NumPy，一個提供高級數學運算功能的基礎類庫，SciPy，一個專注於工具和演算法的可靠類庫，Sci-kit-learn，面向機器學習，還有Pandas，一套提供操作DataFrame功能的工具。
除了類庫之外，你也有必要知道Python是沒有公認的最好的集成開發環境(IDE)的，R語言也一樣。所以說，你需要親手試試不同的IDE再看看哪個更能滿足你的要求。開始時建議使用IPython Notebook，Rodeo和Spyder。和各種各樣的IDE一樣，Python也提供各種各樣的數據可視化庫，比如說Pygal，Bokeh和Seaborn。這些數據可視化工具中最必不可少的就是Matplotlib，一個簡單且有效的數值繪圖類庫。
所有的這些庫都包括在了Anaconda裡面，所以下載了之後，你就可以研究一下看看哪些工具組合更能滿足你的需要。用Python進行數據分析時你會犯很多錯誤，所以得小心一點。一旦你熟悉了安裝設置和每種工具後，你會發現Python是目前市面上用於大數據分析的最棒的平台之一。
希望能幫到你！

2. python對股票分析有什麼作用

你好，Python對於股票分析來說，用處是很大的
Python，用數據軟體分析可以做股票的量化程序，因為股票量化是未來的一種趨勢，能夠解決人為心理波動和沖動下單等不良行為，所以學好python量化的話，那麼對股票來說有很大很大幫助

3. 如何用Python和機器學習炒股賺錢

如何用Python和機器學習炒股賺錢？（圖片太多未貼，可以去找原文）

我終於跑贏了標准普爾 500 指數 10 個百分點！聽起來可能不是很多，但是當我們處理的是大量流動性很高的資本時，對沖基金的利潤就相當可觀。更激進的做法還能得到更高的回報。
這一切都始於我閱讀了 Gur Huberman 的一篇題為《Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar》的論文。該研究描述了一件發生在 1998 年的涉及到一家上市公司 EntreMed（當時股票代碼是 ENMD）的事件：
「星期天《紐約時報》上發表的一篇關於癌症治療新葯開發潛力的文章導致 EntreMed 的股價從周五收盤時的 12.063 飆升至 85，在周一收盤時接近 52。在接下來的三周，它的收盤價都在 30 以上。這股投資熱情也讓其它生物科技股得到了溢價。但是，這個癌症研究方面的可能突破在至少五個月前就已經被 Nature 期刊和各種流行的報紙報道過了，其中甚至包括《泰晤士報》！因此，僅僅是熱情的公眾關注就能引發股價的持續上漲，即便實際上並沒有出現真正的新信息。」
在研究者給出的許多有見地的觀察中，其中有一個總結很突出：
「（股價）運動可能會集中於有一些共同之處的股票上，但這些共同之處不一定要是經濟基礎。」
我就想，能不能基於通常所用的指標之外的其它指標來劃分股票。我開始在資料庫裡面挖掘，幾周之後我發現了一個，其包含了一個分數，描述了股票和元素周期表中的元素之間的「已知和隱藏關系」的強度。
我有計算基因組學的背景，這讓我想起了基因和它們的細胞信號網路之間的關系是如何地不為人所知。但是，當我們分析數據時，我們又會開始看到我們之前可能無法預測的新關系和相關性。

選擇出的涉及細胞可塑性、生長和分化的信號通路的基因的表達模式
和基因一樣，股票也會受到一個巨型網路的影響，其中各個因素之間都有或強或弱的隱藏關系。其中一些影響和關系是可以預測的。
我的一個目標是創建長的和短的股票聚類，我稱之為「籃子聚類（basket clusters）」，我可以將其用於對沖或單純地從中獲利。這需要使用一個無監督機器學習方法來創建股票的聚類，從而使這些聚類之間有或強或弱的關系。這些聚類將會翻倍作為我的公司可以交易的股票的「籃子（basket）」。
首先我下載了一個數據集：http://54.174.116.134/recommend/datasets/supercolumns-elements-08.html，這個數據集基於元素周期表中的元素和上市公司之間的關系。
然後我使用了 Python 和一些常用的機器學習工具——scikit-learn、numpy、pandas、matplotlib 和 seaborn，我開始了解我正在處理的數據集的分布形狀。為此我參考了一個題為《Principal Component Analysis with KMeans visuals》的 Kaggle Kernel：https://www.kaggle.com/arthurtok/principal-component-analysis-with-kmeans-visuals
importnumpy asnp
importpandas aspd
fromsklearn.decomposition
importPCA
fromsklearn.cluster
importKMeans
importmatplotlib.pyplot asplt
importseaborn assbnp.seterr(divide= 'ignore', invalid= 'ignore')
# Quick way to test just a few column features
# stocks = pd.read_csv('supercolumns-elements-nasdaq-nyse-otcbb-general-UPDATE-2017-03-01.csv', usecols=range(1,16))
stocks = pd.read_csv( 'supercolumns-elements-nasdaq-nyse-otcbb-general-UPDATE-2017-03-01.csv')print(stocks.head())str_list = []
forcolname, colvalue instocks.iteritems():
iftype(colvalue[ 1]) == str: str_list.append(colname)
# Get to the numeric columns by inversion
num_list = stocks.columns.difference(str_list)stocks_num = stocks[num_list]print(stocks_num.head())
輸出：簡單看看前面 5 行：

概念特徵的皮爾遜相關性（Pearson Correlation）。在這里案例中，是指來自元素周期表的礦物和元素：
stocks_num = stocks_num.fillna(value= 0, axis= 1)X = stocks_num.values
fromsklearn.preprocessing importStandardScalerX_std = StandardScaler().fit_transform(X)f, ax = plt.subplots(figsize=( 12, 10))plt.title( 'Pearson Correlation of Concept Features (Elements & Minerals)')
# Draw the heatmap using seaborn
sb.heatmap(stocks_num.astype(float).corr(),linewidths= 0.25,vmax= 1.0, square= True, cmap= "YlGnBu", linecolor= 'black', annot= True)sb.plt.show()
輸出：（這個可視化例子是在前 16 個樣本上運行得到的）。看到元素周期表中的元素和上市公司關聯起來真的很有意思。在某種程度時，我想使用這些數據基於公司與相關元素或材料的相關性來預測其可能做出的突破。

測量「已解釋方差（Explained Variance）」和主成分分析（PCA）
已解釋方差=總方差-殘差方差（explained variance = total variance - resial variance)。應該值得關注的 PCA 投射組件的數量可以通過已解釋方差度量（Explained Variance Measure）來引導。Sebastian Raschka 的關於 PCA 的文章對此進行了很好的描述，參閱：http://sebastianraschka.com/Articles/2015_pca_in_3_steps.html
# Calculating Eigenvectors and eigenvalues of Cov matirx
mean_vec = np.mean(X_std, axis= 0)cov_mat = np.cov(X_std.T)eig_vals, eig_vecs = np.linalg.eig(cov_mat)
# Create a list of (eigenvalue, eigenvector) tuples
eig_pairs = [ (np.abs(eig_vals[i]),eig_vecs[:,i]) fori inrange(len(eig_vals))]
# Sort from high to low
eig_pairs.sort(key = lambdax: x[ 0], reverse= True)
# Calculation of Explained Variance from the eigenvaluestot = sum(eig_vals)var_exp = [(i/tot)* 100fori insorted(eig_vals, reverse= True)] cum_var_exp = np.cumsum(var_exp)
# Cumulative explained variance# Variances plot
max_cols = len(stocks.columns) - 1plt.figure(figsize=( 10, 5))plt.bar(range(max_cols), var_exp, alpha= 0.3333, align= 'center', label= 'indivial explained variance', color = 'g')plt.step(range(max_cols), cum_var_exp, where= 'mid',label= 'cumulative explained variance')plt.ylabel( 'Explained variance ratio')plt.xlabel( 'Principal components')plt.legend(loc= 'best')plt.show()
輸出：

從這個圖表中我們可以看到大量方差都來自於預測主成分的前 85%。這是個很高的數字，所以讓我們從低端的開始，先只建模少數幾個主成分。更多有關分析主成分合理數量的信息可參閱：http://setosa.io/ev/principal-component-analysis
使用 scikit-learn 的 PCA 模塊，讓我們設 n_components = 9。代碼的第二行調用了 fit_transform 方法，其可以使用標准化的電影數據 X_std 來擬合 PCA 模型並在該數據集上應用降維（dimensionality rection）。
pca = PCA(n_components= 9)x_9d = pca.fit_transform(X_std)plt.figure(figsize = ( 9, 7))plt.scatter(x_9d[:, 0],x_9d[:, 1], c= 'goldenrod',alpha= 0.5)plt.ylim( -10, 30)plt.show()
輸出：

這里我們甚至沒有真正觀察到聚類的些微輪廓，所以我們很可能應該繼續調節 n_component 的值直到我們得到我們想要的結果。這就是數據科學與藝術（data science and art）中的「藝術」部分。
現在，我們來試試 K-均值，看看我們能不能在下一章節可視化任何明顯的聚類。
K-均值聚類（K-Means Clustering）
我們將使用 PCA 投射數據來實現一個簡單的 K-均值。使用 scikit-learn 的 KMeans() 調用和 fit_predict 方法，我們可以計算聚類中心並為第一和第三個 PCA 投射預測聚類索引（以便了解我們是否可以觀察到任何合適的聚類）。然後我們可以定義我們自己的配色方案並繪制散點圖，代碼如下所示：
# Set a 3 KMeans clustering
kmeans = KMeans(n_clusters= 3)
# Compute cluster centers and predict cluster indices
X_clustered = kmeans.fit_predict(x_9d) # Define our own color map
LABEL_COLOR_MAP = { 0: 'r', 1: 'g', 2: 'b'}label_color = [LABEL_COLOR_MAP[l] forl inX_clustered]
# Plot the scatter digram
plt.figure(figsize = ( 7, 7))plt.scatter(x_9d[:, 0],x_9d[:, 2], c= label_color, alpha= 0.5)plt.show()
輸出：

這個 K-均值散點圖看起來更有希望，好像我們簡單的聚類模型假設就是正確的一樣。我們可以通過這種顏色可視化方案觀察到 3 個可區分開的聚類。
當然，聚類和可視化數據集的方法還有很多，參考：https://goo.gl/kGy3ra使用 seaborn 方便的 pairplot 函數，我可以以成對的方式在數據框中自動繪制所有的特徵。我們可以一個對一個地 pairplot 前面 3 個投射並可視化：
# Create a temp dataframe from our PCA projection data "x_9d"
df = pd.DataFrame(x_9d)df = df[[ 0, 1, 2]]df[ 'X_cluster'] = X_clustered
# Call Seaborn's pairplot to visualize our KMeans clustering on the PCA projected data
sb.pairplot(df, hue= 'X_cluster', palette= 'Dark2', diag_kind= 'kde', size= 1.85)sb.plt.show()
輸出：

構建籃子聚類（Basket Clusters）
你應該自己決定如何微調你的聚類。這方面沒有什麼萬靈葯，具體的方法取決於你操作的環境。在這個案例中是由隱藏關系所定義的股票和金融市場。
一旦你的聚類使你滿意了，你就可以設置分數閾值來控制特定的股票是否有資格進入一個聚類，然後你可以為一個給定的聚類提取股票，將它們作為籃子進行交易或使用這些籃子作為信號。你可以使用這種方法做的事情很大程度就看你自己的創造力以及你在使用深度學習變體來進行優化的水平，從而基於聚類或數據點的概念優化每個聚類的回報，比如 short interest 或 short float（公開市場中的可用股份）。
你可以注意到了這些聚類被用作籃子交易的方式一些有趣特徵。有時候標准普爾和一般市場會存在差異。這可以提供本質上基於「信息套利（information arbitrage）」的套利機會。一些聚類則和谷歌搜索趨勢相關。

看到聚類和材料及它們的供應鏈相關確實很有意思，正如這篇文章說的一樣：https://www.fairphone.com/en/2017/05/04/zooming-in-10-materials-and-their-supply-chains/
我僅僅使用該數據集操作了 Cobalt（鈷）、Copper（銅）、Gallium（鎵）和 Graphene（石墨烯）這幾個列標簽，只是為了看我是否可能發現從事這一領域或受到這一領域的風險的上市公司之間是否有任何隱藏的聯系。這些籃子和標准普爾的回報進行了比較。
通過使用歷史價格數據（可直接在 Quantopian、Numerai、Quandl 或 Yahoo Finance 使用），然後你可以匯總價格數據來生成預計收益，其可使用 HighCharts 進行可視化：

我從該聚類中獲得的回報超過了標准普爾相當一部分，這意味著你每年的收益可以比標准普爾還多 10%（標准普爾近一年來的漲幅為 16%）。我還見過更加激進的方法可以凈掙超過 70%。現在我必須承認我還做了一些其它的事情，但因為我工作的本質，我必須將那些事情保持黑箱。但從我目前觀察到的情況來看，至少圍繞這種方法探索和包裝新的量化模型可以證明是非常值得的，而其唯一的缺點是它是一種不同類型的信號，你可以將其輸入其它系統的流程中。
生成賣空籃子聚類（short basket clusters）可能比生成買空籃子聚類（long basket clusters）更有利可圖。這種方法值得再寫一篇文章，最好是在下一個黑天鵝事件之前。
如果你使用機器學習，就可能在具有已知和隱藏關系的上市公司的寄生、共生和共情關系之上搶佔先機，這是很有趣而且可以盈利的。最後，一個人的盈利能力似乎完全關乎他在生成這些類別的數據時想出特徵標簽（即概念（concept））的強大組合的能力。
我在這類模型上的下一次迭代應該會包含一個用於自動生成特徵組合或獨特列表的單獨演算法。也許會基於近乎實時的事件，這可能會影響那些具有隻有配備了無監督學習演算法的人類才能預測的隱藏關系的股票組。

4. python數據挖掘工具包有什麼優缺點

python數據挖掘工具包就是scikit-learn，scikit-learn是一個基於NumPy, SciPy, Matplotlib的開源機器學習工具包，主要涵蓋分類，回歸和聚類演算法，在許多Python項目中都有應用。

優點：文檔齊全、介面易用、演算法全面。
缺點：是scikit-learn不支持分布式計算，不適合用來處理超大型數據。
現在建議您考一個很權威，含金量很高的證書，那就是CDA數據分析師。CDA證書是新興的高質量證書，最近2年發展比較快，不少公司都在關注這個認證考試，得益於國內人大論壇，現在叫經管之家的推廣貢獻。

想要了解更多有關數據挖掘的信息，可以了解一下CDA數據分析師的課程。「CDA數據分析師認證」是一套專業化，科學化，國際化，系統化的人才考核標准，分為CDA LEVELⅠ ，LEVEL Ⅱ，LEVEL Ⅲ，涉及金融、電商、醫療、互聯網、電信等行業大數據及數據分析從業者所需要具備的技能，符合當今全球大數據及數據分析技術潮流，為各界企業、機構提供數據分析人才參照標准。點擊預約免費試聽課。

5. 如何用Python進行大數據挖掘和分析

你好，學習Python編程語言，是大家走入編程世界的最理想選擇。無論是學習任何一門語言，基礎知識，就是基礎功非常的重要，找一個有豐富編程經驗的老師或者師兄帶著你會少走很多彎路，你的進步速度也會快很多，無論我們學習的目的是什麼，不得不說Python真的是一門值得你付出時間去學習的優秀編程語言。在選擇培訓時一定要多方面對比教學，師資，項目，就業等，慎重選擇。

6. 如何用Python進行大數據挖掘和分析

首先你要會一些常用的庫，從numpy pandas skitlearn 再到tensorflow

7. 如何用Python進行大數據挖掘和分析

如何用Python進行大數據挖掘和分析？快速入門路徑圖
大數據無處不在。在時下這個年代，不管你喜歡與否，在運營一個成功的商業的過程中都有可能會遇到它。
什麼是大數據？
大數據就像它看起來那樣——有大量的數據。單獨而言，你能從單一的數據獲取的洞見窮其有限。但是結合復雜數學模型以及強大計算能力的TB級數據，卻能創造出人類無法製造的洞見。大數據分析提供給商業的價值是無形的，並且每天都在超越人類的能力。
大數據分析的第一步就是要收集數據本身，也就是眾所周知的「數據挖掘」。大部分的企業處理著GB級的數據，這些數據有用戶數據、產品數據和地理位置數據。今天，我將會帶著大家一起探索如何用 Python 進行大數據挖掘和分析？
為什麼選擇Python?
Python最大的優點就是簡單易用。這個語言有著直觀的語法並且還是個強大的多用途語言。這一點在大數據分析環境中很重要，並且許多企業內部已經在使用Python了，比如Google，YouTube，迪士尼等。還有，Python是開源的，並且有很多用於數據科學的類庫。
現在，如果你真的要用Python進行大數據分析的話，毫無疑問你需要了解Python的語法，理解正則表達式，知道什麼是元組、字元串、字典、字典推導式、列表和列表推導式——這只是開始。
數據分析流程
一般可以按「數據獲取-數據存儲與提取-數據預處理-數據建模與分析-數據可視化」這樣的步驟來實施一個數據分析項目。按照這個流程，每個部分需要掌握的細分知識點如下：
數據獲取：公開數據、Python爬蟲
外部數據的獲取方式主要有以下兩種。
第一種是獲取外部的公開數據集，一些科研機構、企業、政府會開放一些數據，你需要到特定的網站去下載這些數據。這些數據集通常比較完善、質量相對較高。
另一種獲取外部數據的方式就是爬蟲。
比如你可以通過爬蟲獲取招聘網站某一職位的招聘信息，爬取租房網站上某城市的租房信息，爬取豆瓣評分評分最高的電影列表，獲取知乎點贊排行、網易雲音樂評論排行列表。基於互聯網爬取的數據，你可以對某個行業、某種人群進行分析。
在爬蟲之前你需要先了解一些 Python 的基礎知識：元素（列表、字典、元組等）、變數、循環、函數………
以及，如何用 Python 庫（urllib、BeautifulSoup、requests、scrapy）實現網頁爬蟲。
掌握基礎的爬蟲之後，你還需要一些高級技巧，比如正則表達式、使用cookie信息、模擬用戶登錄、抓包分析、搭建代理池等等，來應對不同網站的反爬蟲限制。
數據存取：SQL語言
在應對萬以內的數據的時候，Excel對於一般的分析沒有問題，一旦數據量大，就會力不從心，資料庫就能夠很好地解決這個問題。而且大多數的企業，都會以SQL的形式來存儲數據。
SQL作為最經典的資料庫工具，為海量數據的存儲與管理提供可能，並且使數據的提取的效率大大提升。你需要掌握以下技能：
提取特定情況下的數據
資料庫的增、刪、查、改
數據的分組聚合、如何建立多個表之間的聯系
數據預處理：Python（pandas）
很多時候我們拿到的數據是不幹凈的，數據的重復、缺失、異常值等等，這時候就需要進行數據的清洗，把這些影響分析的數據處理好，才能獲得更加精確地分析結果。
對於數據預處理，學會 pandas （Python包）的用法，應對一般的數據清洗就完全沒問題了。需要掌握的知識點如下：
選擇：數據訪問
缺失值處理：對缺失數據行進行刪除或填充
重復值處理：重復值的判斷與刪除
異常值處理：清除不必要的空格和極端、異常數據
相關操作：描述性統計、Apply、直方圖等
合並：符合各種邏輯關系的合並操作
分組：數據劃分、分別執行函數、數據重組
Reshaping：快速生成數據透視表
概率論及統計學知識
需要掌握的知識點如下：
基本統計量：均值、中位數、眾數、百分位數、極值等
其他描述性統計量：偏度、方差、標准差、顯著性等
其他統計知識：總體和樣本、參數和統計量、ErrorBar
概率分布與假設檢驗：各種分布、假設檢驗流程
其他概率論知識：條件概率、貝葉斯等
有了統計學的基本知識，你就可以用這些統計量做基本的分析了。你可以使用 Seaborn、matplotlib 等（python包）做一些可視化的分析，通過各種可視化統計圖，並得出具有指導意義的結果。
Python 數據分析
掌握回歸分析的方法，通過線性回歸和邏輯回歸，其實你就可以對大多數的數據進行回歸分析，並得出相對精確地結論。這部分需要掌握的知識點如下：
回歸分析：線性回歸、邏輯回歸
基本的分類演算法：決策樹、隨機森林……
基本的聚類演算法：k-means……
特徵工程基礎：如何用特徵選擇優化模型
調參方法：如何調節參數優化模型
Python 數據分析包：scipy、numpy、scikit-learn等
在數據分析的這個階段，重點了解回歸分析的方法，大多數的問題可以得以解決，利用描述性的統計分析和回歸分析，你完全可以得到一個不錯的分析結論。
當然，隨著你實踐量的增多，可能會遇到一些復雜的問題，你就可能需要去了解一些更高級的演算法：分類、聚類。
然後你會知道面對不同類型的問題的時候更適合用哪種演算法模型，對於模型的優化，你需要去了解如何通過特徵提取、參數調節來提升預測的精度。
你可以通過 Python 中的 scikit-learn 庫來實現數據分析、數據挖掘建模和分析的全過程。
總結
其實做數據挖掘不是夢，5步就能讓你成為一個Python爬蟲高手!

8. python數據挖掘做出來是一個系統嗎

是的。

一：什麼是數據挖掘
__數據挖掘是指從大量的數據中通過一些演算法尋找隱藏於其中重要實用信息的過程。這些演算法包括神經網路法、決策樹法、遺傳演算法、粗糙集法、模糊集法、關聯規則法等。在商務管理，股市分析，公司重要信息決策，以及科學研究方面都有十分重要的意義。

__數據挖掘是一種決策支持過程，它主要基於人工智慧、機器學習、模式識別、統計學、資料庫、可視化技術，從大量數據中尋找其肉眼難以發現的規律，和大數據聯系密切。如今，數據挖掘已經應用在很多行業里，對人們的生產生活以及未來大數據時代起到了重要影響。
二：數據挖掘的基本任務
__數據挖掘的基本任務就是主要要解決的問題。數據挖掘的基本任務包括分類與預測、聚類分析、關聯規則、奇異值檢測和智能推薦等。通過完成這些任務，發現數據的潛在價值，指導商業和科研決策，給科學研究帶來指導以及給商業帶來新價值。下面就分別來認識一下常見的基本任務。

1.分類與預測

__是一種用標號的進行學習的方式，這種編號是類編號。這種類標號若是離散的，屬於分類問題；若是連續的，屬於預測問題，或者稱為回歸問題。從廣義上來說，不管是分類，還是回歸，都可以看做是一種預測，差異就是預測的結果是離散的還是連續的。

2.聚類分析

__就是「物以類聚，人以群分」在原始數據集中的運用，其目的是把原始數據聚成幾類，從而使得類內相似度高，類間差異性大。

3.關聯規則

__數據挖掘可以用來發現規則，關聯規則屬於一種非常重要的規則，即通過數據挖掘方法，發現事務數據背後所隱含的某一種或者多種關聯，從而利用這些關聯來指導商業決策和行為。

4.奇異值檢測

__根據一定準則識別或者檢測出數據集中的異常值，所謂異常值就是和數據集中的絕大多數據表現不一致。

5.智能推薦

__這是數據挖掘一個很活躍的研究和應用領域，在各大電商網站中都會有各種形式推薦，比方說同類用戶所購買的產品，與你所購買產品相關聯的產品等。
三：數據挖掘流程
__我們由上面的章節知道了數據挖掘的定義和基本任務，本節我們來學習一下數據挖掘的流程，來講述數據挖掘是如何進行的。

1.定義挖掘目標

__該步驟是分析要挖掘的目標，定義問題的范圍，可以劃分為下面的目標：

__（1）針對具體業務的數據挖掘應用需求，首先要分析是哪方面的問題。

__（2）分析完問題後，該問題如果解決後可以實現什麼樣的效果，達到怎樣的目標。

__（3）詳細地列出用戶對於該問題的所有需求。

__（4）挖掘可以用到那些數據集。究竟怎樣的挖掘方向比較合理。

__（5）綜合上面的要求，制定挖掘計劃。
2.數據取樣

__在明確了數據挖掘的目標後，接下來就需要在業務數據集中抽取和挖掘目標相關的數據樣本子集。這就是數據取樣操作。那麼數據取樣時需要注意哪些方面呢？

__第一是抽取的數據要和挖掘目標緊密相關，並且能夠很好地說明用戶的需求。

__第二是要可靠，質量要有所保證，從大范圍數據到小范圍數據，都不要忘記檢查數據的質量，這是因為如果原始的數據有誤，在之後的過程中，可能難以探索規律，即使探索出規律，也有可能是錯誤的。

__第三個方面是要有效，要注意數據的完整，但是有時候可能要抽取的數據量比較大，這個時候也許有的數據是根本沒有用的，可以通過篩選進行處理。通過對數據的精選，不僅能減少數據處理量，節省系統資源，還能夠讓我們要尋找的數據可以更加地顯現出來。
__而衡量數據取樣質量的標准如下：

__（1）確定取樣的數據集後，要保證數據資料完整無缺，各項數據指標完整。

__（2）數據集要滿足可靠性和有效性。

__（3）每一項的數據都准確無誤，反映的都是正常狀態下的水平。

__（4）數據集合部分能顯現出規律性。

__（5）數據集合要能滿足用戶的需求。
數據取樣的方法有多種多樣的，常見的方式如下：

__（1）隨機取樣：就是按照隨機的方法進行取樣，數據集中的每一個元素被抽取的概率是一樣的。可以按照每一個特定的百分比進行取樣，比如按照5%，10%，20%等每個百分比內隨機抽取n個數據。

__（2）等距取樣：和隨機取樣有些類似，但是不同的是等距取樣是按照一定百分比的比例進行等距取樣，比如有100個數據，按照10%的比例進行等距取樣就是抽取10，20，30，40，50，60，70，80，90，100這10個數據。

__（3）分層取樣：在這種抽樣的操作中，首先將樣本總體分為若乾子集。在每個層次中的值都有相同的被選用的概率，但是可以對每一層設置不同的概率，分別代表不同層次的水平。是為了未來更好地擬合層次數據，綜合後得到更好的精度。比如100個數據分為5層，在1-20，20-30，30-40，40-50等每一層抽取的個數不同，分別代表每一層。

__（4）分類取樣：分類抽樣是依據某種屬性的取值來選擇數據子集，按照某種類別（規則）進行選擇，比如按照客戶名稱，同學姓名，地址區域，企業類別進行分類。

__（5）從起始位置取樣：就是從輸入數據集的起始處開始抽樣，抽取一定的百分比數據。

__（6）從結束位置取樣：就是從輸入數據集的最後處反向抽樣，抽取一定的百分比數據。

9. 如何用python獲取股票數據

在Python的QSTK中，是通過s_datapath變數，定義相應股票數據所在的文件夾。一般可以通過QSDATA這個環境變數來設置對應的數據文件夾。具體的股票數據來源，例如滬深、港股等市場，你可以使用免費的WDZ程序輸出相應日線、5分鍾數據到s_datapath變數所指定的文件夾中。然後可使用Python的QSTK中，qstkutil.DataAccess進行數據訪問。

10. 怎樣用python處理股票

用Python處理股票需要獲取股票數據，以國內股票數據為例，可以安裝Python的第三方庫：tushare；一個國內股票數據獲取包。可以在網路中搜索「Python tushare」來查詢相關資料，或者在tushare的官網上查詢說明文檔。

導航:首頁 > 數據行情 > python大數據挖掘股票

python大數據挖掘股票

與python大數據挖掘股票相關的資料