1. Python 股票數據採集並做數據可視化(爬蟲 + 數據分析)
嗨嘍!大家好,這里是魔王!
課題:Python 股票數據採集並做數據可視化(爬蟲 + 數據分析)
我國股票投資者數量為15975.24萬戶, 股民熱衷於炒股,面對龐大的數據量,數據收集與分析變得至關重要。
面對繁多的股票數據,找尋與整理過程復雜且耗時,本文將帶大家學習如何利用Python進行股票數據的自動化採集與可視化分析。
開發環境 & 第三方模塊:為了實現爬蟲案例,我們將使用Python編程語言結合第三方庫如requests、BeautifulSoup與pandas進行數據抓取與處理。
本次目標:本文的目標是提供一個簡單實用的案例,展示如何從xueqiu.com網站爬取實時股票行情數據,並進行數據可視化,以直觀呈現股票市場動態。
導入模塊代碼:首先,我們需要導入必要的Python庫,如requests用於發起網路請求,BeautifulSoup用於解析HTML內容,以及pandas用於數據處理與分析。
炒股總結圖數據可視化:在數據採集完成後,通過數據可視化技術,我們可以將收集到的股票數據以圖表形式呈現,如折線圖、餅圖等,幫助投資者快速了解股票市場走勢與投資趨勢。
總結:本文介紹了Python在股票數據採集與可視化分析中的應用,旨在為股票投資者提供高效的數據處理方法,簡化繁瑣的數據分析流程。希望讀者能夠通過本文的學習,掌握Python爬蟲與數據可視化技巧,為投資決策提供有力支持。
2. Python 實現股票數據的實時抓取
編寫Python腳本實時抓取股票數據,滿足個人對實時漲跌信息的需求,無需依賴現有股票軟體。
首先,獲取滬深兩市所有上市股票數據。利用Scrapy框架,實現數據爬取並保存至TTJJ.json文件,工程清單包括新建Scrapy工程、設置user-agent文件以防止被伺服器封鎖。
爬蟲核心代碼在TTJJr中,整合找到的UserAgentMiddle代碼,改進登陸方式。同時,items模塊定義數據保存格式,pipeline實現數據處理,保存至json文件,配置細節見settings.py。
獲取實時交易數據,通過訪問新浪股票介面hq.sinajs.cn/list=(輸入股票代碼)獲取更新信息,僅在開盤至收盤期間有效,其他時間顯示為前一日收盤價。簡化邏輯,篩選出漲幅最高的10隻股票,代碼如下。
運行結果展示獲取的數據,包含股票代碼與當前漲幅,顯示每行均為漲幅最高的10隻股票。使用結果如圖所示,反映了實時抓取的股票實時數據信息。
通過以上步驟,實現Python腳本自動抓取股票實時數據,滿足個人需求,記錄了一段利用編程技術獲取實時股市信息的經歷。
3. 如何搭建自己的股票高頻資料庫(Python)
二話不說,先上結果。本文闡述了以下幾個方面:
下圖是編寫好的數據介面提取數據的示例。該數據介面支持多標的、多品種(股票、指數一起提取)、多欄位、多時間提取。並且支持不復權、後復權、等比前復權提取(前復權不太實用就沒有做)。而且速度巨快,沒有數據量的限制。如果你也覺得很香,請接著往下看,本文將手把手教你搭建這樣的資料庫。
資料庫搭建需要用到一些第三方庫,在各位動手之前請安裝:
本文的方法不涉及到常用的資料庫(不涉及MySQL、MongoDB),思路非常簡單,請各位放心食用。主要是使用pyarrow來加強代碼性能。雖然不涉及到常用資料庫,但這是我目前能想到的最有效的方法。
正所謂「巧婦難為無米之炊」,想搭建高頻資料庫,就需要一個數據源獲取高頻數據。在此,我推薦聚寬作為我們的數據源。 聚寬賬號的申請請點這里。新人用戶有每日100萬條數據,DataFrame的一行算一條,請各位務必珍惜自己的數據量。(不過我是正式用戶了,每天兩個億,就不太在意這一點哈哈。)
非會員的100萬條數據量能幹啥?我們來簡單計算以下:每個交易日有240條數據(4個小時,240條分鍾k線),假設一年有250個交易日,每隻股票每年需要佔用60000條數據。也即一日的數據量能夠提取一隻股票16年(100/6=16.66667)左右的股票分鍾數據。相當於資料庫的搭建過程還是相當艱難的,每天耗盡數據量只能下載好一隻股票的數據。(白嫖是這樣的啦,如果有條件可以聯系聚寬客服,購買正式賬號)
我們這里假設我們的資料庫記錄2015年至今的股票分鍾數據。(當然我自己的資料庫記錄的是2005年1月1日的全A股分鍾數據)這里,我們以貴州茅台(股票代碼 600519.XSHG)為例,演示數據的提取與保存。先看看數據如何從介面提取出來(這里需要用到各位申請的聚寬賬號):
來看看代碼運行的結果。
數據提取後,自然需要把數據保存起來。pandas.DataFrame有很多方便的方法可以將數據保存下來。為做對比,這里將數據保存為csv格式和ftr格式。
相對應的,我們可以用這樣的代碼將保存好的數據讀取進來。雖然pandas有read_feather函數,可以直接將ftr文件讀取進來,但這個速度比直接調用pyarrow的更慢一些。考慮到代碼性能,這里直接從pyarrow調用read_feather函數。
雖然兩種格式都能將數據完整地保存下來,但讀取速度上,ftr文件占據著絕對的優勢。因此,我們考慮到資料庫的性能以及資料庫所佔空間,我們選擇使用ftr格式儲存數據。feather正如他的名稱,像羽毛一樣輕,它所佔的空間會比csv更小。這是一種不佔空間,讀取速度又快的文件格式,太香了!
在前文中我提到了行情數據的提取、保存方法,並強調了一定要提取不復權的數據。這是為了與復權因子結合,還原各種形式的復權數據。至於復權的詳細定義,請參看 網路。
隨便打開一個股票看盤軟體,大致會有3種復權方式,即前復權、不復權、後復權。按照我自己的想法,可以這么理解:
在這樣的情況下,如果記錄價格數據,記錄前復權的數據是最沒有意義的,因為隔一段時間,歷史的價格就全變了。如果只做收益率相關研究的話,記錄後復權數據是可以的。然而,我們這里要搭建資料庫,所以採取「記錄不復權數據」加上「復權因子」還原的方法。
我們著手提取復權因子。在提取之前,不妨再理順一下思路:
思路理順了,我們來看看後復權因子的提取方法:
有了復權因子,如何計算復權價格?請接著看第3節——數據介面編寫。
提取了行情數據和復權因子數據,應當找個地方把它們存放起來。我分了兩個文件夾來保存我的數據。
在你搜集了足夠多隻股票的分鍾數據後,就能夠來到這一步,編寫一個數據介面方便調用數據。
數據介面的編寫重難點在於股票價格復權的計算。這里同樣以貴州茅台(股票代碼 600519.XSHG)為例來演示如何進行復權的計算。復權的核心在於下面這個公式:
[公式]
先來看看我們如何提取貴州茅台在一段時間(這里為2015-01-01至2021-09-08)內的後復權分鍾數據。(這里千萬不能將交易量和交易額一起拿去復權了。只有價格數據需要復權。(我不太確定交易量要不要,要的話我就改一改嘿嘿))
看看代碼運行的效果。
那麼,等比前復權該如何實現呢?其實很簡單,只需要在框定了復權因子的時間後,讓復權因子全序列除以最後一個復權因子,即得到前復權因子。將這個前復權因子乘上不復權的價格,即可得到等比前復權的價格數據。
以下是數據介面的全部代碼,裡面有挺多細節(但挺簡單的),我就不再贅述了。
要更新資料庫的數據,則是將資料庫中的所有數據文件逐個讀取進來,取最後一天作為start_date,然後取今天作為end_date。將新數據合並到原有的DataFrame中並保存就完成了數據的更新。數據更新比較耗時,也需要一定的數據量。不過,不論如何,我們來看看數據更新的代碼。
在編寫完這些代碼後,我把這些代碼整合成了一個python文件【high_freq_db.py】放在了site-package中,方便以後數據的調用和更新。
親愛的讀者,感謝你讀到這里。本文講述了我搭建我的股票高頻資料庫的方法。畢竟我的專業是金融而非計算機,難免會有不足的地方,懇請大家在評論區指出。(華工封校了,我也快瘋了,所以一天寫了兩篇東西。。。。)
另外,這個資料庫完全搭建起來之後會非常大(行情數據佔80GB左右,包含指數和個股ftr文件),維護起來也比較費時費力,就不對外公布了(我也不知道怎麼公布【手動捂臉】)。如確有需要,可以和我私信。
再次感謝大家的閱讀!
——————————————————
2022年5月27日更新:
有不少小夥伴想要這個數據,目前我已經整理好上傳至網路網盤啦。數據和完整代碼私聊獲取。
獲取數據請只用於學習,勿直接用於投資決策!
4. python爬取股票數據——基礎篇
在探索Python爬取股票數據的基礎之旅中,你需要首先配置好開發環境。首先,確保你擁有一台電腦,並安裝PyCharm社區版,可以從jetbrains.com/pycharm/download/獲取。同時,安裝Anaconda的最新版本,如果遇到網路問題,可能需要科學上網工具。訪問地址為anaconda.com。
安裝完成後,以Anaconda Prompt方式啟動,並創建一個名為"gold"的Conda虛擬環境,指定Python版本為3.10。在命令行中輸入相關指令並確認。
接著,激活虛擬環境並下載baostock和akshare的Python介面。在PyCharm中,可能會遇到錯誤,只需點擊確定並設置項目解釋器。從baostock和akshare官網獲取API文檔,開始編寫代碼以獲取股票數據。
以baostock為例,復制示例代碼並運行,你可以按需調整參數獲取不同股票的分鍾線數據。注意,baostock的數據採用漲跌幅復權法,與股票交易軟體的計算結果可能不一致。akshare介面則提供了後復權數據,適合希望與交易軟體一致的用戶。
爬取的數據通常保存為.csv格式,便於進一步分析。至於復權價格的計算方法,將在後續內容中深入講解。下期我們將探討如何利用akshare介面循環爬取全市場股票數據。
如果你想了解更多關於股票投資的內容,可以關注我的個人微博@朱曉光指數投資,查看我分享的其他文章,如"新項目開啟——打造專屬於你的量化交易系統"、"聊聊凱利公式:量化投資中的倉位管理"等。
在學習股票數據爬取的過程中,持續關注,我們下期再見!
5. 使用 Python 獲取股票歷史資金流向數據(大單、超大單、主力流入等)
市場主導力量在股市中尤為重要,理解主力交易數據與股價變動之間的關系對於投資者至關重要。為了深入研究這一領域,本文將展示如何利用Python技術,通過爬蟲手段獲取A股市場的歷史資金流向數據(包括大單、小單、超大單、主力流入等信息)。這些數據將被保存為表格文件,為後續的分析提供便利。
在開始之前,請確保您的計算機已安裝Python 3環境。若尚未安裝,可參考相應教程進行安裝。此外,您需要安裝兩個庫:pandas和requests。通過命令行(或終端工具)執行如下代碼以安裝:
輸入命令並按Enter鍵執行,直至出現「successfully」提示。
以下代碼展示了獲取單只股票(股票代碼:600519)的歷史大單交易數據,並將其保存為CSV文件(文件名與股票代碼相同):
執行示例代碼後,輸出相關文字信息,生成的文件名在代碼執行目錄中,並展示文件截圖。
接下來的示例代碼演示了如何同時獲取兩只股票(代碼分別為600519和300750)的歷史大單交易數據,同樣以各自股票代碼命名CSV文件,並在代碼運行目錄生成文件。
總結,本文闡述了使用Python獲取單只及多隻股票的歷史資金流向數據,並保存為CSV文件的方法。感謝您閱讀本文,如果您對更多金融數據獲取感興趣,請關注我的金融數據獲取專欄,以獲取更多相關技巧。