scrapy爬取股票信息_如何用python 爬蟲抓取金融數據

A. 如何使用python抓取炒股軟體中資金數據

這個說來有點復雜，用fiddle監控軟體跟伺服器間的通訊，找到數據源地址，然後用excel或python抓這個源地址數據，可能還要加上反扒代碼，構造時間戳等等，你網上找python網抓視頻教程看看就知道了。

B. 如何在r語言中抓取股票數據並分析論文

用quantomd包
然後getsymbols函數

分析論文要看你研究方向
如果是看影響因素一般回歸就行
如果看股票波動和預測可能需要時間序列

C. 如何用python 爬蟲抓取金融數據

獲取數據是數據分析中必不可少的一部分，而網路爬蟲是是獲取數據的一個重要渠道之一。鑒於此，我拾起了Python這把利器，開啟了網路爬蟲之路。

本篇使用的版本為python3.5，意在抓取證券之星上當天所有A股數據。程序主要分為三個部分：網頁源碼的獲取、所需內容的提取、所得結果的整理。

一、網頁源碼的獲取

很多人喜歡用python爬蟲的原因之一就是它容易上手。只需以下幾行代碼既可抓取大部分網頁的源碼。

為了減少干擾，我先用正則表達式從整個頁面源碼中匹配出以上的主體部分，然後從主體部分中匹配出每隻股票的信息。代碼如下。

pattern=re.compile('<tbody[sS]*</tbody>')
body=re.findall(pattern,str(content)) #匹配<tbody和</tbody>之間的所有代碼pattern=re.compile('>(.*?)<')
stock_page=re.findall(pattern,body[0]) #匹配>和<之間的所有信息

其中compile方法為編譯匹配模式，findall方法用此匹配模式去匹配出所需信息，並以列表的方式返回。正則表達式的語法還挺多的，下面我只羅列所用到符號的含義。

語法說明

. 匹配任意除換行符「」外的字元

* 匹配前一個字元0次或無限次

？匹配前一個字元0次或一次

s 空白字元：[<空格> fv]

S 非空白字元：[^s]

[...] 字元集，對應的位置可以是字元集中任意字元

(...) 被括起來的表達式將作為分組，裡面一般為我們所需提取的內容

正則表達式的語法挺多的，也許有大牛隻要一句正則表達式就可提取我想提取的內容。在提取股票主體部分代碼時發現有人用xpath表達式提取顯得更簡潔一些，看來頁面解析也有很長的一段路要走。

三、所得結果的整理

通過非貪婪模式(.*?)匹配>和<之間的所有數據，會匹配出一些空白字元出來，所以我們採用如下代碼把空白字元移除。

stock_last=stock_total[:] #stock_total：匹配出的股票數據for data in stock_total: #stock_last：整理後的股票數據
if data=='':
stock_last.remove('')

最後，我們可以列印幾列數據看下效果，代碼如下

print('代碼',' ','簡稱',' ',' ','最新價',' ','漲跌幅',' ','漲跌額',' ','5分鍾漲幅')for i in range(0,len(stock_last),13): #網頁總共有13列數據
print(stock_last[i],' ',stock_last[i+1],' ',' ',stock_last[i+2],' ',' ',stock_last[i+3],' ',' ',stock_last[i+4],' ',' ',stock_last[i+5])

D. matlab怎樣抓取Yahoo/Sina的股票數據

給你一個常式，用於抓取新浪股票2017年1月份的股票數據。程序如下：

clc;
clear;
year=2017;
season = 1 ;
fprintf('抓取%d年%d季度的數據中...\n', year, season)
[sourcefile, status] = urlread(sprintf('http://vip.stock.finance.sina.com.cn/corp/go.php/vMS_MarketHistory/stockid/000001/type/S.phtml?year=%d&season=%d', year));
expr2 = '<div align="center">(\d*\.?\d*)</div>';
[datafile, data_tokens] = regexp(sourcefile, expr2, 'match', 'tokens'); %從源文件中獲取目標數據
data = zeros(size(data_tokens));%產生和數據相同長度的0
for idx = 1:length(data_tokens)
data(idx) = str2double(data_tokens{idx}{1}); %轉變數據類型後存入data中
end
%%占坑打個廣告，代寫matlab程序（畢業設計，課程任務等）
%%信號處理，小波變換，PCA降維，ICA分析，分類器，濾波器等。QQ：1577232787

E. 怎麼在股市期間實時抓取rsi數據

怎麼樣在股市期間，實時抓出rsi數據？
請看下面的分享

i問財財經搜索是同花順旗下的服務之一,主要針對上市公司的公告、研報、即時新聞等提供搜索及參考資料。
相對於其他股票軟體來說，一個強大之處在於用自然語言就可以按你指定的條件進行篩選。而大部分現有的行情軟體支持的都不是很好，寫起來就費盡心思，還不一定能行。

然而i問財有一個缺陷在於它只能獲取一天的股票相關信息。如果，我們希望實現抓取一段時間的股票歷史信息，就要通過網頁批量抓取。

事實上，我們可以通過製作一個爬蟲軟體來自己定義時間日期和搜索的關鍵詞，並且批量下載一定日期范圍的數據。

我們以抓取每天的收盤價大於均線上股票數目為例子，用r來實現抓取：

因此，我們在r中可以通過製作一個時間段的偽鏈接來向伺服器不斷發送搜索請求，從而實現一段日期數據的批量抓取

url=paste("股票 - i問財財經搜索",as.character(as.Date(i, origin = "1970-01-01")) ,input2)

然後，我們查看其中一天的網頁源代碼，可以找到對應股票數據的xml源碼。

F. 如何用爬蟲抓取股市數據並生成分析報表

1. 關於數據採集
股票數據是一種標准化的結構數據，是可以通過API介面訪問的（不過一般要通過渠道，開放的API有一定的局限性）。也可以通過爬蟲軟體進行採集，但是爬蟲軟體採集數據不能保證實時性，根據數據量和採集周期，可能要延遲幾十秒到幾分鍾不等。我們總結了一套專業的爬蟲技術解決方案(Ruby + Sidekiq)。能夠很快實現這個採集，也可以後台可視化調度任務。

2. 關於展現
網路股票數據的展現，網頁端直接通過HTML5技術就已經足夠，如果對界面要求高一點，可以採用集成前端框架，如Bootstrap；如果針對移動端開發，可以使用Ionic框架。

3. 關於觸發事件
如果是採用Ruby on Rails的開發框架的話，倒是很方便了，有如sidekiq, whenever這樣子的Gem直接實現任務管理和事件觸發。

G. 如何使用 Python 抓取雪球網頁

#start coding
首先要知道自己在爬什麼~樓主說找到HTML的代碼雲雲，思路其實是錯誤的。因為我們想要的內容不在原始的html裡面。但是肯定在瀏覽器和伺服器之間的通信里，我們只要找到這部分數據就好。
#我用的是Firefox的FireBug
選擇網路（Chrome中應該是Network），點擊調倉歷史記錄
可以看到瀏覽器和伺服器之間進行了一次通信。我們截獲了一個網址。打開看看。可以看到瀏覽器和伺服器之間進行了一次通信。我們截獲了一個網址。打開看看。

看上去像是一堆亂碼，但是細心的話就會發現……
也就是說我們要的數據都在這里了，所以只要先獲取這個頁面的內容然後在提取數據就好了~

#python3項目，python2中請使用urllib和urllib2
import urllib.request
url = '?cube_symbol=ZH010389&count=20&page=1'
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode('utf-8')
print(html)

運行一下~
報錯了~報錯沒關系，兵來將擋水來土掩~
403禁止訪問…應該是headers的問題…什麼是headers呢…403禁止訪問…應該是headers的問題…什麼是headers呢…
你現在用python去訪問網頁，網頁得到的請求就是你是python程序，但是網頁並不想讓程序看到自己，因為他是給人看的，資源都被程序佔了算什麼，所以我們要讓python偽裝成瀏覽器。
依然是用Firebug查看headers信息。
然後我們完善代碼在訪問過程中添加headers~然後我們完善代碼在訪問過程中添加headers~

import urllib.request
headers = {'X-Requested-With': 'XMLHttpRequest',
'Referer': '',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0',
'Host': 'xueqiu.com',
#'Connection':'keep-alive',
#'Accept':'*/*',
'cookie':'s=iabht2os.1dgjn9z; xq_a_token=; xq_r_token=; __utma=1.2130135756.1433017807.1433017807.1433017807.1;'
'__utmc=1; __utmz=1.1433017807.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); Hm_lvt_=1433017809; Hm_lpvt_=1433017809'}

url = '?cube_symbol=ZH010389&count=20&page=1'
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode('utf-8')
print(html)

這次得到想要的結果了~

我們回過頭再去看headers會發現，其實有些我並沒有寫進去，你也可以自己嘗試把headers中的某一行注釋掉運行。但是每個站是不一樣的，你把所有的都填上去是一定能運行成功的，但是可能其中某一些不是必需的。
比如我們這里只要有User-Agent（缺少報錯403）和cookie（缺少報錯400）。
好~我們現在拿到了想要的數據，但是看上去太復雜了，一點都不友好。現在我們來解析一下這個網頁。其實這個網頁是json格式的數據包。
然後我們來觀察這個數據的解析。然後我們來觀察這個數據的解析。
#你可以直接點擊Firebug中的JSON來看，也可以復制到Notepad++中使用json viewer插件查看。
大概是這個樣子的……大概是這個樣子的……
有了json的構成結構我們就可以來解析它了…
我直接拿Python Shell調試，一會兒完善代碼

沒什麼問題~一切看起來很完美的樣子~這一步其實沒什麼難度，只要你能看懂上一步里我們分析的json數據的組成結構，然後一層一層地向下解析數據就可以了。
完善代碼。

import urllib.request
import json
headers = {#'X-Requested-With': 'XMLHttpRequest',
#'Referer': '',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0',
#'Host': 'xueqiu.com',
#'Connection':'keep-alive',
#'Accept':'*/*',
'cookie':'s=iabht2os.1dgjn9z; xq_a_token=; xq_r_token=; __utma=1.2130135756.1433017807.1433017807.1433017807.1;'
'__utmc=1; __utmz=1.1433017807.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); Hm_lvt_=1433017809; Hm_lpvt_=1433017809'}
url = '?cube_symbol=ZH010389&count=20&page=1'
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode('utf-8')
#print(html)
data = json.loads(html)
print('股票名稱',end=':')
print(data['list'][0]['rebalancing_histories'][0]['stock_name'],end=' 持倉變化')
print(data['list'][0]['rebalancing_histories'][0]['prev_weight'],end='-->')
print(data['list'][0]['rebalancing_histories'][0]['target_weight'])
print('股票名稱',end=':')
print(data['list'][0]['rebalancing_histories'][1]['stock_name'],end=' 持倉變化')
print(data['list'][0]['rebalancing_histories'][1]['prev_weight'],end='-->')
print(data['list'][0]['rebalancing_histories'][1]['target_weight'])

運行程序~

好嘞！搞定收工！
當然也還不能收工……只是我不幹了而已……
To-dos:

可以看到程序是面向過程的…重復代碼很多，可以通過定義類或方法實現調用
大概……大概得寫點注釋……不過這么簡單直接無腦面向過程的代碼真的需要注釋嗎
如果是想在他持倉變化時收到提醒，需要爬蟲定時爬取頁面數據與之前數據進行比較
如果你更細心的話會發現最初的json網址的構成是這樣的…cube_symbol='#此處可添加任意組合的號碼例如ZH010389'&count=『#此處數字是一次獲取的交易變化數量,也就是說你一次性拿到了20次的交易,你點開之前交易記錄的時候並不會重新請求數據而是讀取了本地現有的數據此處數據可以任意修改哦~很神奇的試一試吧~20』&page=『和前面聯系起來,前面是一次性獲取20條記錄,這邊便是頁碼,通過對page數的控制利用循環可以輸出所有交易過程,當然,40一頁和20兩頁的效果顯然是一樣的,看你怎麼玩兒了~1』
如果你有耐心看完上面那一大段話的話想必你可以有更多的想法。讓別人來指導我們的思路是好的，可是投資的機會稍瞬即逝，跟在別人後面是沒有前途的，我們要學習。大數據的時代為什麼不試試爬更多人的更多投資記錄呢？比如在雪球首頁爬取首頁推薦的組合，然後自動爬取這些組合所做的所有操作~這樣你是不是就有了很厚的一本交易目錄，結合過去的股市數據（這些能不能想辦法自動獲取呢？），你可以自己嘗試分析別人作出投資決定的原因（是不是可以把數據自動寫入一個excel？提示：xlwt3）…最終指導自己的投資。大數據學習，想想都炫酷。可惜我不炒股…

大概就醬紫~希望有幫助~
寫這么多是因為我自己在學爬蟲…一周了…看到實踐的機會就來試一下…所以是邊調BUG邊寫答案~
大概就寫這么多吧…後面的To-dos哪天我突然感興趣了會試著寫一下或者過來補充的…
看到這個答案的…前輩還希望多多指教；看到這個答案的新手…歡迎交流：P

H. 如何通過軟體抓取新浪財經里單只股票數據

如果你是准備抓歷史數據，那還不如直接使用免費的wdz程序，滬深1990年至今的全部日線歷史；2000年至今十幾年的5分鍾數據都可以直接輸出，而且可轉化為各種格式。根本不用去新浪中抓取。

I. 網路爬蟲抓取數據有什麼好的應用

一般抓數據的話可以學習Python，但是這個需要代碼的知識。
如果是沒有代碼知識的小白可以試試用成熟的採集器。
目前市面比較成熟的有八爪魚，後羿等等，但是我個人習慣八爪魚的界面，用起來也好上手，主要是他家的教程容易看懂。可以試試。

J. 股票數據抓取機器人和商品信息機器人有什麼不同

股票數據抓取機器人和商品信息機器人區別在於其一具備編程能力，能夠根據不同的應用環境進行智能化判斷；其二是具備功能自動化操作能力，能夠代替傳統的人力進行功能操作；其三是具備數據整理能力，能夠對於不同環境下的數據進行歸類管理。

能夠節省大量的人力資源，很多復雜的流程化數據操作都可以通過數據抓取機器人來完成，不僅速度快，精確度也比較高。

導航:首頁 > 板塊資金 > scrapy爬取股票信息

scrapy爬取股票信息

與scrapy爬取股票信息相關的資料