用scrapy爬取股票資料庫_如何用python 爬蟲抓取金融數據

Ⅰ 如何使用python抓取炒股軟體中資金數據

這個說來有點復雜，用fiddle監控軟體跟伺服器間的通訊，找到數據源地址，然後用excel或python抓這個源地址數據，可能還要加上反扒代碼，構造時間戳等等，你網上找python網抓視頻教程看看就知道了。

Ⅱ 如何用python在掘金量化抓取數據

TuShare財經數據介面 – 可以直接抓取新浪財經、鳳凰財經的網站數據，包括行情、基本面、經濟數據等等。
完全免費，簡潔易用，API設計得非常友好，提取的數據格式是Pandas的DataFrame。同時可以獲取非高頻實時數據（取決於網站更新速度，同事經驗大約是15秒），一個極好的非高頻股票策略數據解決方案。

Ⅲ Python爬蟲可以爬取什麼

Python爬蟲可以爬取的東西有很多，Python爬蟲怎麼學？簡單的分析下：

如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，互聯網可以獲取的數據越來越多，另一方面，像 Python這樣的編程語言提供越來越多的優秀工具，讓爬蟲變得簡單、容易上手。

利用爬蟲我們可以獲取大量的價值數據，從而獲得感性認識中不能得到的信息，比如：

知乎：爬取優質答案，為你篩選出各話題下最優質的內容。
淘寶、京東：抓取商品、評論及銷量數據，對各種商品及用戶的消費場景進行分析。
安居客、鏈家：抓取房產買賣及租售信息，分析房價變化趨勢、做不同區域的房價分析。
拉勾網、智聯：爬取各類職位信息，分析各行業人才需求情況及薪資水平。
雪球網：抓取雪球高回報用戶的行為，對股票市場進行分析和預測。

爬蟲是入門Python最好的方式，沒有之一。Python有很多應用的方向，比如後台開發、web開發、科學計算等等，但爬蟲對於初學者而言更友好，原理簡單，幾行代碼就能實現基本的爬蟲，學習的過程更加平滑，你能體會更大的成就感。

掌握基本的爬蟲後，你再去學習Python數據分析、web開發甚至機器學習，都會更得心應手。因為這個過程中，Python基本語法、庫的使用，以及如何查找文檔你都非常熟悉了。

對於小白來說，爬蟲可能是一件非常復雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python，然後哼哧哼哧系統學習 Python 的每個知識點，很久之後發現仍然爬不了數據；有的人則認為先要掌握網頁的知識，遂開始 HTMLCSS，結果入了前端的坑，瘁……

但掌握正確的方法，在短時間內做到能夠爬取主流網站的數據，其實非常容易實現，但建議你從一開始就要有一個具體的目標。

在目標的驅動下，你的學習才會更加精準和高效。那些所有你認為必須的前置知識，都是可以在完成目標的過程中學到的。這里給你一條平滑的、零基礎快速入門的學習路徑。

1.學習 Python 包並實現基本的爬蟲過程
2.了解非結構化數據的存儲
3.學習scrapy，搭建工程化爬蟲
4.學習資料庫知識，應對大規模數據存儲與提取
5.掌握各種技巧，應對特殊網站的反爬措施
6.分布式爬蟲，實現大規模並發採集，提升效率

一

學習 Python 包並實現基本的爬蟲過程

大部分爬蟲都是按「發送請求——獲得頁面——解析頁面——抽取並儲存內容」這樣的流程來進行，這其實也是模擬了我們使用瀏覽器獲取網頁信息的過程。

Python中爬蟲相關的包很多：urllib、requests、bs4、scrapy、pyspider 等，建議從requests+Xpath 開始，requests 負責連接網站，返回網頁，Xpath 用於解析網頁，便於抽取數據。

如果你用過 BeautifulSoup，會發現 Xpath 要省事不少，一層一層檢查元素代碼的工作，全都省略了。這樣下來基本套路都差不多，一般的靜態網站根本不在話下，豆瓣、糗事網路、騰訊新聞等基本上都可以上手了。

當然如果你需要爬取非同步載入的網站，可以學習瀏覽器抓包分析真實請求或者學習Selenium來實現自動化，這樣，知乎、時光網、貓途鷹這些動態的網站也可以迎刃而解。

二

了解非結構化數據的存儲

爬回來的數據可以直接用文檔形式存在本地，也可以存入資料庫中。

開始數據量不大的時候，你可以直接通過 Python 的語法或 pandas 的方法將數據存為csv這樣的文件。

當然你可能發現爬回來的數據並不是干凈的，可能會有缺失、錯誤等等，你還需要對數據進行清洗，可以學習 pandas 包的基本用法來做數據的預處理，得到更干凈的數據。

三

學習 scrapy，搭建工程化的爬蟲

掌握前面的技術一般量級的數據和代碼基本沒有問題了，但是在遇到非常復雜的情況，可能仍然會力不從心，這個時候，強大的 scrapy 框架就非常有用了。

scrapy 是一個功能非常強大的爬蟲框架，它不僅能便捷地構建request，還有強大的 selector 能夠方便地解析 response，然而它最讓人驚喜的還是它超高的性能，讓你可以將爬蟲工程化、模塊化。

學會 scrapy，你可以自己去搭建一些爬蟲框架，你就基本具備爬蟲工程師的思維了。

四

學習資料庫基礎，應對大規模數據存儲

爬回來的數據量小的時候，你可以用文檔的形式來存儲，一旦數據量大了，這就有點行不通了。所以掌握一種資料庫是必須的，學習目前比較主流的 MongoDB 就OK。

MongoDB 可以方便你去存儲一些非結構化的數據，比如各種評論的文本，圖片的鏈接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。

因為這里要用到的資料庫知識其實非常簡單，主要是數據如何入庫、如何進行提取，在需要的時候再學習就行。

五

掌握各種技巧，應對特殊網站的反爬措施

當然，爬蟲過程中也會經歷一些絕望啊，比如被網站封IP、比如各種奇怪的驗證碼、userAgent訪問限制、各種動態載入等等。

遇到這些反爬蟲的手段，當然還需要一些高級的技巧來應對，常規的比如訪問頻率控制、使用代理IP池、抓包、驗證碼的OCR處理等等。

往往網站在高效開發和反爬蟲之間會偏向前者，這也為爬蟲提供了空間，掌握這些應對反爬蟲的技巧，絕大部分的網站已經難不到你了.

六

分布式爬蟲，實現大規模並發採集

爬取基本數據已經不是問題了，你的瓶頸會集中到爬取海量數據的效率。這個時候，相信你會很自然地接觸到一個很厲害的名字：分布式爬蟲。

分布式這個東西，聽起來很恐怖，但其實就是利用多線程的原理讓多個爬蟲同時工作，需要你掌握 Scrapy + MongoDB + Redis 這三種工具。

Scrapy 前面我們說過了，用於做基本的頁面爬取，MongoDB 用於存儲爬取的數據，Redis 則用來存儲要爬取的網頁隊列，也就是任務隊列。

所以有些東西看起來很嚇人，但其實分解開來，也不過如此。當你能夠寫分布式的爬蟲的時候，那麼你可以去嘗試打造一些基本的爬蟲架構了，實現一些更加自動化的數據獲取。

你看，這一條學習路徑下來，你已然可以成為老司機了，非常的順暢。所以在一開始的時候，盡量不要系統地去啃一些東西，找一個實際的項目（開始可以從豆瓣、小豬這種簡單的入手），直接開始就好。

因為爬蟲這種技術，既不需要你系統地精通一門語言，也不需要多麼高深的資料庫技術，高效的姿勢就是從實際的項目中去學習這些零散的知識點，你能保證每次學到的都是最需要的那部分。

當然唯一麻煩的是，在具體的問題中，如何找到具體需要的那部分學習資源、如何篩選和甄別，是很多初學者面臨的一個大問題。

以上就是我的回答，希望對你有所幫助，望採納。

Ⅳ 怎麼在股市期間實時抓取rsi數據

怎麼樣在股市期間，實時抓出rsi數據？
請看下面的分享

i問財財經搜索是同花順旗下的服務之一,主要針對上市公司的公告、研報、即時新聞等提供搜索及參考資料。
相對於其他股票軟體來說，一個強大之處在於用自然語言就可以按你指定的條件進行篩選。而大部分現有的行情軟體支持的都不是很好，寫起來就費盡心思，還不一定能行。

然而i問財有一個缺陷在於它只能獲取一天的股票相關信息。如果，我們希望實現抓取一段時間的股票歷史信息，就要通過網頁批量抓取。

事實上，我們可以通過製作一個爬蟲軟體來自己定義時間日期和搜索的關鍵詞，並且批量下載一定日期范圍的數據。

我們以抓取每天的收盤價大於均線上股票數目為例子，用r來實現抓取：

因此，我們在r中可以通過製作一個時間段的偽鏈接來向伺服器不斷發送搜索請求，從而實現一段日期數據的批量抓取

url=paste("股票 - i問財財經搜索",as.character(as.Date(i, origin = "1970-01-01")) ,input2)

然後，我們查看其中一天的網頁源代碼，可以找到對應股票數據的xml源碼。

Ⅳ 網路爬蟲抓取數據有什麼好的應用

一般抓數據的話可以學習Python，但是這個需要代碼的知識。
如果是沒有代碼知識的小白可以試試用成熟的採集器。
目前市面比較成熟的有八爪魚，後羿等等，但是我個人習慣八爪魚的界面，用起來也好上手，主要是他家的教程容易看懂。可以試試。

Ⅵ 如何通過軟體抓取新浪財經里單只股票數據

如果你是准備抓歷史數據，那還不如直接使用免費的wdz程序，滬深1990年至今的全部日線歷史；2000年至今十幾年的5分鍾數據都可以直接輸出，而且可轉化為各種格式。根本不用去新浪中抓取。

Ⅶ 如何使用 Python 抓取雪球網頁

Step.1 分析頁面
要抓一個網頁，首先自然是要「研究」這個網頁。通常我會沖基用兩種方式：
一個是 Chrome 的 Developer Tools。通過它裡面的 Network 功能可以看到頁面發出的所有網路請求，而大多數數據請求都會在 XHR 標簽下。點擊某一個請求，可以看到其具體信息，以及伺服器的返回結果。很多網站在對於某些數據會有專門的請求介面，返回一組 json 或者 XML 格式的數據，供前台處理後顯示。

Step.2 獲取頁面
分析完畢，開抓。
直接 urllib.urlopen 向目標網頁發送請求，讀出網頁。結果，失敗了……
看了下返回結果：
403 Forbidden
You don't have permission to access the URL on this server. Sorry for the inconvenience.
被拒了，所以這種赤裸裸地請求是不行的。沒關系，那就稍微包裝一下：
send_headers = {
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Connection':'keep-alive',
'Host':'xueqiu.com',
'Cookie':r'xxxxxx',
}
req = urllib2.Request(url, headers=send_headers)
resp = urllib2.urlopen(req)
html = resp.read()
header 數據都可以從 Developer Tools 里拿到。這次順利抓到頁面內容。
一般網站或多或少都會對請求來源做一些阻攔，通過加 header 可以搞巧寬定大部分情況。

Step.3 提取數據
因為這個數據比較明顯，直接用通過一些字元串查找和截取操作就可以取出來。
pos_start = html.find('SNB.cubeInfo = ') + len('SNB.cubeInfo = ')
pos_end = html.find('SNB.cubePieData')
data = html[pos_start:pos_end]
dic = json.loads(data)
dic 就是一個包含數據的字典對象。之後想干什麼就隨便你了。
對於復雜一點的情況，可以通過 BeautifulSoup 來定位 html 標簽。再不好辦的，就用正則表達式，基本都可以解決掉。

Step.4 處理數據
因為我想對數據進行持久化存儲，並且做展示和分析，所以我用了 django 里的 ORM 來處理抓下來的數據。
# add Portfolio
portfolio, c = models.Portfolio.objects.get_or_create(code=dic['symbol'])
portfolio.name = dic['name']
portfolio.earnings = dic['total_gain']
portfolio.save()
# add Stock
stocks = dic['view_rebalancing']['holdings']
for s in stocks:
stock, c = models.Stock.objects.get_or_create(code=s['stock_symbol'])
stock.name = s['stock_name']
stock.count += 1
stock.weight += s['weight']
stock.save()
Portfolio 記錄下組合及其收益，Stock則記錄每支股票的被收錄數和總收錄份額。
對於抓取到的，一般也可以存在文件中，或者直接通過 SQL 存入資料庫散寬謹，視不同情況和個人喜好而定。

Step.5 批量抓取
前面的一套做下來，就完整地抓取了一組數據。要達到目的，還要設計一下批量抓取的程序。
一個要解決的問題就是如何獲得組合列表。這個可以再通過另一個抓取程序來實現。然後根據這些列表來循環抓取就可以了。
若要細究，還要考慮列表如何保存和使用，如何處理抓取失敗和重復抓取，如何控制抓取頻率防止被封，可否並行抓取等等。

Step.6 數據分析
數據有了，你要怎麼用它，這是個很大的問題。可以簡單的統計現象，也可以想辦法深入分析背後隱藏的邏輯。不多說，我也還只是在摸索之中。

Ⅷ 怎麼抓取股票數據

那麼中國股市的數據有沒有呢？答案是肯定的，不過要按照下面的參數做些調整，下面提供全球證券交易所的資料。
上證股票是股票代碼後面加上.ss，深證股票是股票代碼後面加上.sz
例如：000001 = 000001.sz
深市數據鏈接：http://table.finance.yahoo.com/table.csv?s=000001.sz
上市數據鏈接：http://table.finance.yahoo.com/table.csv?s=600000.ss
上證綜指代碼：000001.ss，深證成指代碼：399001.SZ，滬深300代碼：000300.ss
下面就是世界股票交易所的網址和縮寫，要查找哪個股票交易所的數據，就按照上面的格式以此類推。
上海交易所=cn.finance.yahoo.com,.SS,Chinese,sl1d1t1c1ohgv
深圳交易所=cn.finance.yahoo.com,.SZ,Chinese,sl1d1t1c1ohgv
美國交易所=finance.yahoo.com,,United States,sl1d1t1c1ohgv
加拿大=ca.finance.yahoo.com,.TO,Toronto,sl1d1t1c1ohgv
紐西蘭=au.finance.yahoo.com,.NZ,sl1d1t1c1ohgv
新加坡=sg.finance.yahoo.com,.SI,Singapore,sl1d1t1c1ohgv
香港=hk.finance.yahoo.com,.HK,Hong Kong,sl1d1t1c1ohgv
台灣=tw.finance.yahoo.com,.TW,Taiwan,sl1d1t1c1ohgv
印度=in.finance.yahoo.com,.BO,Bombay,sl1d1t1c1ohgv
倫敦=uk.finance.yahoo.com,.L,London,sl1d1t1c1ohgv
澳洲=au.finance.yahoo.com,.AX,Sydney,sl1d1t1c1ohgv
巴西=br.finance.yahoo.com,.SA,Sao Paulo,sl1d1t1c1ohgv
瑞典=se.finance.yahoo.com,.ST,Stockholm,sl1d1t1c1ohgv
以上方法只能提供歷史數據，實時數據不能抓取，此方法由ArthurXF提供

Ⅸ 如何使用 Python 抓取雪球網頁

#start coding
首先要知道自己在爬什麼~樓主說找到HTML的代碼雲雲，思路其實是錯誤的。因為我們想要的內容不在原始的html裡面。但是肯定在瀏覽器和伺服器之間的通信里，我們只要找到這部分數據就好。
#我用的是Firefox的FireBug
選擇網路（Chrome中應該是Network），點擊調倉歷史記錄
可以看到瀏覽器和伺服器之間進行了一次通信。我們截獲了一個網址。打開看看。可以看到瀏覽器和伺服器之間進行了一次通信。我們截獲了一個網址。打開看看。

看上去像是一堆亂碼，但是細心的話就會發現……
也就是說我們要的數據都在這里了，所以只要先獲取這個頁面的內容然後在提取數據就好了~

#python3項目，python2中請使用urllib和urllib2
import urllib.request
url = '?cube_symbol=ZH010389&count=20&page=1'
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode('utf-8')
print(html)

運行一下~
報錯了~報錯沒關系，兵來將擋水來土掩~
403禁止訪問…應該是headers的問題…什麼是headers呢…403禁止訪問…應該是headers的問題…什麼是headers呢…
你現在用python去訪問網頁，網頁得到的請求就是你是python程序，但是網頁並不想讓程序看到自己，因為他是給人看的，資源都被程序佔了算什麼，所以我們要讓python偽裝成瀏覽器。
依然是用Firebug查看headers信息。
然後我們完善代碼在訪問過程中添加headers~然後我們完善代碼在訪問過程中添加headers~

import urllib.request
headers = {'X-Requested-With': 'XMLHttpRequest',
'Referer': '',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0',
'Host': 'xueqiu.com',
#'Connection':'keep-alive',
#'Accept':'*/*',
'cookie':'s=iabht2os.1dgjn9z; xq_a_token=; xq_r_token=; __utma=1.2130135756.1433017807.1433017807.1433017807.1;'
'__utmc=1; __utmz=1.1433017807.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); Hm_lvt_=1433017809; Hm_lpvt_=1433017809'}

url = '?cube_symbol=ZH010389&count=20&page=1'
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode('utf-8')
print(html)

這次得到想要的結果了~

我們回過頭再去看headers會發現，其實有些我並沒有寫進去，你也可以自己嘗試把headers中的某一行注釋掉運行。但是每個站是不一樣的，你把所有的都填上去是一定能運行成功的，但是可能其中某一些不是必需的。
比如我們這里只要有User-Agent（缺少報錯403）和cookie（缺少報錯400）。
好~我們現在拿到了想要的數據，但是看上去太復雜了，一點都不友好。現在我們來解析一下這個網頁。其實這個網頁是json格式的數據包。
然後我們來觀察這個數據的解析。然後我們來觀察這個數據的解析。
#你可以直接點擊Firebug中的JSON來看，也可以復制到Notepad++中使用json viewer插件查看。
大概是這個樣子的……大概是這個樣子的……
有了json的構成結構我們就可以來解析它了…
我直接拿Python Shell調試，一會兒完善代碼

沒什麼問題~一切看起來很完美的樣子~這一步其實沒什麼難度，只要你能看懂上一步里我們分析的json數據的組成結構，然後一層一層地向下解析數據就可以了。
完善代碼。

import urllib.request
import json
headers = {#'X-Requested-With': 'XMLHttpRequest',
#'Referer': '',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0',
#'Host': 'xueqiu.com',
#'Connection':'keep-alive',
#'Accept':'*/*',
'cookie':'s=iabht2os.1dgjn9z; xq_a_token=; xq_r_token=; __utma=1.2130135756.1433017807.1433017807.1433017807.1;'
'__utmc=1; __utmz=1.1433017807.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); Hm_lvt_=1433017809; Hm_lpvt_=1433017809'}
url = '?cube_symbol=ZH010389&count=20&page=1'
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode('utf-8')
#print(html)
data = json.loads(html)
print('股票名稱',end=':')
print(data['list'][0]['rebalancing_histories'][0]['stock_name'],end=' 持倉變化')
print(data['list'][0]['rebalancing_histories'][0]['prev_weight'],end='-->')
print(data['list'][0]['rebalancing_histories'][0]['target_weight'])
print('股票名稱',end=':')
print(data['list'][0]['rebalancing_histories'][1]['stock_name'],end=' 持倉變化')
print(data['list'][0]['rebalancing_histories'][1]['prev_weight'],end='-->')
print(data['list'][0]['rebalancing_histories'][1]['target_weight'])

運行程序~

好嘞！搞定收工！
當然也還不能收工……只是我不幹了而已……
To-dos:

可以看到程序是面向過程的…重復代碼很多，可以通過定義類或方法實現調用
大概……大概得寫點注釋……不過這么簡單直接無腦面向過程的代碼真的需要注釋嗎
如果是想在他持倉變化時收到提醒，需要爬蟲定時爬取頁面數據與之前數據進行比較
如果你更細心的話會發現最初的json網址的構成是這樣的…cube_symbol='#此處可添加任意組合的號碼例如ZH010389'&count=『#此處數字是一次獲取的交易變化數量,也就是說你一次性拿到了20次的交易,你點開之前交易記錄的時候並不會重新請求數據而是讀取了本地現有的數據此處數據可以任意修改哦~很神奇的試一試吧~20』&page=『和前面聯系起來,前面是一次性獲取20條記錄,這邊便是頁碼,通過對page數的控制利用循環可以輸出所有交易過程,當然,40一頁和20兩頁的效果顯然是一樣的,看你怎麼玩兒了~1』
如果你有耐心看完上面那一大段話的話想必你可以有更多的想法。讓別人來指導我們的思路是好的，可是投資的機會稍瞬即逝，跟在別人後面是沒有前途的，我們要學習。大數據的時代為什麼不試試爬更多人的更多投資記錄呢？比如在雪球首頁爬取首頁推薦的組合，然後自動爬取這些組合所做的所有操作~這樣你是不是就有了很厚的一本交易目錄，結合過去的股市數據（這些能不能想辦法自動獲取呢？），你可以自己嘗試分析別人作出投資決定的原因（是不是可以把數據自動寫入一個excel？提示：xlwt3）…最終指導自己的投資。大數據學習，想想都炫酷。可惜我不炒股…

大概就醬紫~希望有幫助~
寫這么多是因為我自己在學爬蟲…一周了…看到實踐的機會就來試一下…所以是邊調BUG邊寫答案~
大概就寫這么多吧…後面的To-dos哪天我突然感興趣了會試著寫一下或者過來補充的…
看到這個答案的…前輩還希望多多指教；看到這個答案的新手…歡迎交流：P

Ⅹ 如何用python 爬蟲抓取金融數據

獲取數據是數據分析中必不可少的一部分，而網路爬蟲是是獲取數據的一個重要渠道之一。鑒於此，我拾起了Python這把利器，開啟了網路爬蟲之路。

本篇使用的版本為python3.5，意在抓取證券之星上當天所有A股數據。程序主要分為三個部分：網頁源碼的獲取、所需內容的提取、所得結果的整理。

一、網頁源碼的獲取

很多人喜歡用python爬蟲的原因之一就是它容易上手。只需以下幾行代碼既可抓取大部分網頁的源碼。

為了減少干擾，我先用正則表達式從整個頁面源碼中匹配出以上的主體部分，然後從主體部分中匹配出每隻股票的信息。代碼如下。

pattern=re.compile('<tbody[sS]*</tbody>')
body=re.findall(pattern,str(content)) #匹配<tbody和</tbody>之間的所有代碼pattern=re.compile('>(.*?)<')
stock_page=re.findall(pattern,body[0]) #匹配>和<之間的所有信息

其中compile方法為編譯匹配模式，findall方法用此匹配模式去匹配出所需信息，並以列表的方式返回。正則表達式的語法還挺多的，下面我只羅列所用到符號的含義。

語法說明

. 匹配任意除換行符「」外的字元

* 匹配前一個字元0次或無限次

？匹配前一個字元0次或一次

s 空白字元：[<空格> fv]

S 非空白字元：[^s]

[...] 字元集，對應的位置可以是字元集中任意字元

(...) 被括起來的表達式將作為分組，裡面一般為我們所需提取的內容

正則表達式的語法挺多的，也許有大牛隻要一句正則表達式就可提取我想提取的內容。在提取股票主體部分代碼時發現有人用xpath表達式提取顯得更簡潔一些，看來頁面解析也有很長的一段路要走。

三、所得結果的整理

通過非貪婪模式(.*?)匹配>和<之間的所有數據，會匹配出一些空白字元出來，所以我們採用如下代碼把空白字元移除。

stock_last=stock_total[:] #stock_total：匹配出的股票數據for data in stock_total: #stock_last：整理後的股票數據
if data=='':
stock_last.remove('')

最後，我們可以列印幾列數據看下效果，代碼如下

print('代碼',' ','簡稱',' ',' ','最新價',' ','漲跌幅',' ','漲跌額',' ','5分鍾漲幅')for i in range(0,len(stock_last),13): #網頁總共有13列數據
print(stock_last[i],' ',stock_last[i+1],' ',' ',stock_last[i+2],' ',' ',stock_last[i+3],' ',' ',stock_last[i+4],' ',' ',stock_last[i+5])

導航:首頁 > 數據行情 > 用scrapy爬取股票資料庫

用scrapy爬取股票資料庫

與用scrapy爬取股票資料庫相關的資料