python如何爬取股票網頁的資料庫_如何使用Python獲取股票分時成交數據

❶ python用什麼方法或者庫可以拿到全部股票代碼

首先你需要知道哪個網站上有所有股票代碼，然後分析這個網站股票代碼的存放方式，再利用python寫一個爬蟲去爬取所有的股票代碼

❷ 怎麼學python爬取財經信息

本程序使用Python 2.7.6編寫，擴展了Python自帶的HTMLParser，自動根據預設的股票代碼列表，從Yahoo Finance抓取列表中的數據日期、股票名稱、實時報價、當日變化率、當日最低價、當日最高價。

由於Yahoo Finance的股票頁面中的數值都有相應id。

例如納斯達克100指數ETF（QQQ）
其中實時報價的HTML標記為

[html]view plain

<spanid="yfs_l84_qqq">87.49</span>

而標普500指數ETF（SPY）

其中實時報價的HTML標記為

[html]view plain

<spanid="yfs_l84_spy">187.25</span>

因此本數據抓取程序根據相應的id字元串來查找數據。具體來說就是先繼承HTMLParser，然後在自定義的子類中重載handle_data(self, data)方法，查找包含相應id字元串（例如實時報價的id字元串為"yfs_l84_"+股票代碼）的HTML標記，並輸出這個HTML標記中的數據（例如qqq的<span id="yfs_l84_qqq">87.49</span>，其中的數據87.49就是實時報價。）

樣本輸出：

數據依次是

數據日期股票代碼股票名稱實時報價日變化率日最低價日最高價

[python]view plain

05/05/(IBB)233.281.85%225.34233.28
05/05/(SOCL)17.480.17%17.1217.53
05/05/(PNQI)62.610.35%61.4662.74
05/05/2014xsdSPDRS&PSemiconctorETF(XSD)67.150.12%66.2067.41
05/05/2014itaiSharesUSAerospace&Defense(ITA)110.341.15%108.62110.56
05/05/2014iaiiSharesUSBroker-Dealers(IAI)37.42-0.21%36.8637.42
05/05/(VBK)119.97-0.03%118.37120.09
05/05/2014qqqPowerSharesQQQ(QQQ)87.950.53%86.7687.97
05/05/2014ewiiSharesMSCIItalyCapped(EWI)17.86-0.56%17.6517.89
05/05/(DFE)62.33-0.11%61.9462.39
05/05/(PBD)13.030.00%12.9713.05
05/05/(EIRL)38.52-0.16%38.3938.60

❸ 如何使用 Python 抓取雪球網頁

Step.1 分析頁面
要抓一個網頁，首先自然是要逗研究地這個網頁。通常我會用兩種方式：
一個是 Chrome 的 Developer Tools。通過它裡面的 Network 功能可以看到頁面發出的所有網路請求，而大多數數據請求都會在 XHR 標簽下。點擊某一個請求，可以看到其具體信息，以及伺服器的返回結果。很多網站在對於某些數據會有專門的請求介面，返回一組 json 或者 XML 格式的數據，供前台處理後顯示。

Step.2 獲取頁面
分析完畢，開抓。
直接 urllib.urlopen 向目標網頁發送請求，讀出網頁。結果，失敗了……
看了下返回結果：
403 Forbidden
You don't have permission to access the URL on this server. Sorry for the inconvenience.
被拒了，所以這種赤裸裸地請求是不行的。沒關系，那就稍微包裝一下：
send_headers = {
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Connection':'keep-alive',
'Host':'xueqiu.com',
'Cookie':r'xxxxxx',
}
req = urllib2.Request(url, headers=send_headers)
resp = urllib2.urlopen(req)
html = resp.read()
header 數據都可以從 Developer Tools 里拿到。這次順利抓到頁面內容。
一般網站或多或少都會對請求來源做一些阻攔，通過加 header 可以搞定大部分情況。

Step.3 提取數據
因為這個數據比較明顯，直接用通過一些字元串查找和截取操作就可以取出來。
pos_start = html.find('SNB.cubeInfo = ') + len('SNB.cubeInfo = ')
pos_end = html.find('SNB.cubePieData')
data = html[pos_start:pos_end]
dic = json.loads(data)
dic 就是一個包含數據的字典對象。之後想干什麼就隨便你了。
對於復雜一點的情況，可以通過 BeautifulSoup 來定位 html 標簽。再不好辦的，就用正則表達式，基本都可以解決掉。

Step.4 處理數據
因為我想對數據進行持久化存儲，並且做展示和分析，所以我用了 django 里的 ORM 來處理抓下來的數據。
# add Portfolio
portfolio, c = models.Portfolio.objects.get_or_create(code=dic['symbol'])
portfolio.name = dic['name']
portfolio.earnings = dic['total_gain']
portfolio.save()
# add Stock
stocks = dic['view_rebalancing']['holdings']
for s in stocks:
stock, c = models.Stock.objects.get_or_create(code=s['stock_symbol'])
stock.name = s['stock_name']
stock.count += 1
stock.weight += s['weight']
stock.save()
Portfolio 記錄下組合及其收益，Stock則記錄每支股票的被收錄數和總收錄份額。
對於抓取到的，一般也可以存在文件中，或者直接通過 SQL 存入資料庫，視不同情況和個人喜好而定。

Step.5 批量抓取
前面的一套做下來，就完整地抓取了一組數據。要達到目的，還要設計一下批量抓取的程序。
一個要解決的問題就是如何獲得組合列表。這個可以再通過另一個抓取程序來實現。然後根據這些列表來循環抓取就可以了。
若要細究，還要考慮列表如何保存和使用，如何處理抓取失敗和重復抓取，如何控制抓取頻率防止被封，可否並行抓取等等。

Step.6 數據分析
數據有了，你要怎麼用它，這是個很大的問題。可以簡單的統計現象，也可以想辦法深入分析背後隱藏的邏輯。不多說，我也還只是在摸索之中。

❹ 用python爬取網頁數據

用python爬取網頁數據就三步，用scrapy（爬蟲框架）
1. 定義item類
2. 開發spider類
3. 開發pipeline
如果有不會的，可以看一看《瘋狂python講義》

❺ 如何使用python抓取炒股軟體中資金數據

這個說來有點復雜，用fiddle監控軟體跟伺服器間的通訊，找到數據源地址，然後用excel或python抓這個源地址數據，可能還要加上反扒代碼，構造時間戳等等，你網上找python網抓視頻教程看看就知道了。

❻ 如何用Python爬蟲抓取網頁內容

爬蟲流程
其實把網路爬蟲抽象開來看，它無外乎包含如下幾個步驟
模擬請求網頁。模擬瀏覽器，打開目標網站。
獲取數據。打開網站之後，就可以自動化的獲取我們所需要的網站數據。
保存數據。拿到數據之後，需要持久化到本地文件或者資料庫等存儲設備中。
那麼我們該如何使用 Python 來編寫自己的爬蟲程序呢，在這里我要重點介紹一個 Python 庫：Requests。
Requests 使用
Requests 庫是 Python 中發起 HTTP 請求的庫，使用非常方便簡單。
模擬發送 HTTP 請求
發送 GET 請求
當我們用瀏覽器打開豆瓣首頁時，其實發送的最原始的請求就是 GET 請求
import requests
res = requests.get('http://www.douban.com')
print(res)
print(type(res))
>>>
<Response [200]>
<class 'requests.models.Response'>

❼ 如何使用Python獲取股票分時成交數據

可以使用爬蟲來爬取數據，在寫個處理邏輯進行數據的整理。你可以詳細說明下你的需求，要爬取的網站等等。
希望我的回答對你有幫助

❽ 如何用python抓取股票數據

在 Python的QSTK中，是通過 s_datapath 變數，定義相應股票數據所在的文件夾。一般可以通過 QSDATA 這個環境變數來設置對應的數據文件夾。
具體的股票數據來源，例如滬深、港股等市場，你可以使用免費的WDZ程序輸出相應日線、5分鍾數據到 s_datapath 變數所指定的文件夾中。然後可使用 Python的QSTK中，qstkutil.DataAccess進行數據訪問。

❾ python怎麼抓新浪百度股票數據 datareader

應該都是可以獲取的，一般獲取數據有兩個方法，get和post，在源碼能夠顯示的使用的是get，而post一般是用非同步載入的形式進行展現的。

❿ 如何用python 爬蟲抓取金融數據

獲取數據是數據分析中必不可少的一部分，而網路爬蟲是是獲取數據的一個重要渠道之一。鑒於此，我拾起了Python這把利器，開啟了網路爬蟲之路。

本篇使用的版本為python3.5，意在抓取證券之星上當天所有A股數據。程序主要分為三個部分：網頁源碼的獲取、所需內容的提取、所得結果的整理。

一、網頁源碼的獲取

很多人喜歡用python爬蟲的原因之一就是它容易上手。只需以下幾行代碼既可抓取大部分網頁的源碼。

為了減少干擾，我先用正則表達式從整個頁面源碼中匹配出以上的主體部分，然後從主體部分中匹配出每隻股票的信息。代碼如下。

pattern=re.compile('<tbody[sS]*</tbody>')
body=re.findall(pattern,str(content)) #匹配<tbody和</tbody>之間的所有代碼pattern=re.compile('>(.*?)<')
stock_page=re.findall(pattern,body[0]) #匹配>和<之間的所有信息

其中compile方法為編譯匹配模式，findall方法用此匹配模式去匹配出所需信息，並以列表的方式返回。正則表達式的語法還挺多的，下面我只羅列所用到符號的含義。

語法說明

. 匹配任意除換行符「」外的字元

* 匹配前一個字元0次或無限次

？匹配前一個字元0次或一次

s 空白字元：[<空格> fv]

S 非空白字元：[^s]

[...] 字元集，對應的位置可以是字元集中任意字元

(...) 被括起來的表達式將作為分組，裡面一般為我們所需提取的內容

正則表達式的語法挺多的，也許有大牛隻要一句正則表達式就可提取我想提取的內容。在提取股票主體部分代碼時發現有人用xpath表達式提取顯得更簡潔一些，看來頁面解析也有很長的一段路要走。

三、所得結果的整理

通過非貪婪模式(.*?)匹配>和<之間的所有數據，會匹配出一些空白字元出來，所以我們採用如下代碼把空白字元移除。

stock_last=stock_total[:] #stock_total：匹配出的股票數據for data in stock_total: #stock_last：整理後的股票數據
if data=='':
stock_last.remove('')

最後，我們可以列印幾列數據看下效果，代碼如下

print('代碼',' ','簡稱',' ',' ','最新價',' ','漲跌幅',' ','漲跌額',' ','5分鍾漲幅')for i in range(0,len(stock_last),13): #網頁總共有13列數據
print(stock_last[i],' ',stock_last[i+1],' ',' ',stock_last[i+2],' ',' ',stock_last[i+3],' ',' ',stock_last[i+4],' ',' ',stock_last[i+5])

導航:首頁 > 數據行情 > python如何爬取股票網頁的資料庫

python如何爬取股票網頁的資料庫

與python如何爬取股票網頁的資料庫相關的資料