导航:首页 > 数据行情 > python利用网址下载股票数据

python利用网址下载股票数据

发布时间：2023-10-29 00:15:12

‘壹’ 如何用python 爬虫抓取金融数据

获取数据是数据分析中必不可少的一部分，而网络爬虫是是获取数据的一个重要渠道之一。鉴于此，我拾起了Python这把利器，开启了网络爬虫之路。

本篇使用的版本为python3.5，意在抓取证券之星上当天所有A股数据。程序主要分为三个部分：网页源码的获取、所需内容的提取、所得结果的整理。

一、网页源码的获取

很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。

为了减少干扰，我先用正则表达式从整个页面源码中匹配出以上的主体部分，然后从主体部分中匹配出每只股票的信息。代码如下。

pattern=re.compile('<tbody[sS]*</tbody>')
body=re.findall(pattern,str(content)) #匹配<tbody和</tbody>之间的所有代码pattern=re.compile('>(.*?)<')
stock_page=re.findall(pattern,body[0]) #匹配>和<之间的所有信息

其中compile方法为编译匹配模式，findall方法用此匹配模式去匹配出所需信息，并以列表的方式返回。正则表达式的语法还挺多的，下面我只罗列所用到符号的含义。

语法说明

. 匹配任意除换行符“ ”外的字符

* 匹配前一个字符0次或无限次

？匹配前一个字符0次或一次

s 空白字符：[<空格> fv]

S 非空白字符：[^s]

[...] 字符集，对应的位置可以是字符集中任意字符

(...) 被括起来的表达式将作为分组，里面一般为我们所需提取的内容

正则表达式的语法挺多的，也许有大牛只要一句正则表达式就可提取我想提取的内容。在提取股票主体部分代码时发现有人用xpath表达式提取显得更简洁一些，看来页面解析也有很长的一段路要走。

三、所得结果的整理

通过非贪婪模式(.*?)匹配>和<之间的所有数据，会匹配出一些空白字符出来，所以我们采用如下代码把空白字符移除。

stock_last=stock_total[:] #stock_total：匹配出的股票数据for data in stock_total: #stock_last：整理后的股票数据
if data=='':
stock_last.remove('')

最后，我们可以打印几列数据看下效果，代码如下

print('代码',' ','简称',' ',' ','最新价',' ','涨跌幅',' ','涨跌额',' ','5分钟涨幅')for i in range(0,len(stock_last),13): #网页总共有13列数据
print(stock_last[i],' ',stock_last[i+1],' ',' ',stock_last[i+2],' ',' ',stock_last[i+3],' ',' ',stock_last[i+4],' ',' ',stock_last[i+5])

‘贰’ python如何获得股票实时交易数据

使用easyquotation这个库。(不用重复造轮子了)
github地址是：
https://github.com/shidenggui/easyquotation

‘叁’ 炒股软件的实时数据是怎么获取的

如果你只是需要进行实时选股，则可以采用通达信、大智慧、同花顺等看盘软件。通达信、大智慧等软件中有一个“鹰眼盯盘”的功能（各家叫法不同，但意思一样的），结合自己在这些软件中编写的自编公式、指标，可实现实时的的股票监控。

如果你需要的是实时获取股票数据，则有专门的股票实时行情API接口，例如微盛的股票实时API接口，通过这样的接口，编程即可取得实时的股票数据。

‘肆’ tushare的接口怎么样使用

一、安装TuShare

方式1：pip install tushare

方式2：访问https://pypi.python.org/pypi/tushare/下载安装

方式3：将源代码下载到本地python setup.py install

二、升级TuShare

1、先查看本地与线上的版本版本号：

pip search tushare

2、升级TuShare：

pip install tushare --upgrade

确认安装成功

import tushare as ts
print ts.__version__
import tushare as ts
df = ts.get_hist_data（‘600848’）
ts.get_hist_data（‘600848’，ktype='W‘） #获取周k线数据
ts.get_hist_data（'600848’，ktype='M‘） #获取月k线数据
ts.get_hist_data（'600848’，ktype='5‘） #获取5分钟k线数据
ts.get_hist_data（'600848’，ktype='15‘） #获取15分钟k线数据
ts.get_hist_data（'600848’，ktype='30‘） #获取30分钟k线数据
ts.get_hist_data（'600848’，ktype='60‘） #获取60分钟k线数据
ts.get_hist_data（'sh’）#获取上证指数k线数据，其它参数与个股一致，下同
ts.get_hist_data（‘sz’）#获取深圳成指k线数据 ts.get_hist_data（‘hs300’）#获取沪深300指数k线数据
ts.get_hist_data（‘sz50’）#获取上证50指数k线数据
ts.get_hist_data（‘zxb’）#获取中小板指数k线数据
ts.get_hist_data（‘cyb’）#获取创业板指数k线数据
Python财经数据接口包TuShare的使用
获取历史分笔数据
df = ts.get_tick_data（‘000756','2015-03-27’）
df.head（10）
Python财经数据接口包TuShare的使用
获取实时分笔数据
df = ts.get_realtime_quotes（‘000581’）
print df[['code','name','price','bid','ask','volume','amount','time']]
返回值说明：
0：name，股票名字
1：open，今日开盘价
2：pre_close，昨日收盘价
3：price，当前价格
4：high，今日最高价
5：low，今日最低价
6：bid，竞买价，即“买一”报价
7：ask，竞卖价，即“卖一”报价
8：volumn，成交量 maybe you need do volumn/100
9：amount，成交金额（元 CNY）
10：b1_v，委买一（笔数 bid volume）
11：b1_p，委买一（价格 bid price）
12：b2_v，“买二”
13：b2_p，“买二”
14：b3_v，“买三”
15：b3_p，“买三”
16：b4_v，“买四”
17：b4_p，“买四”
18：b5_v，“买五”
19：b5_p，“买五”
20：a1_v，委卖一（笔数 ask volume）
21：a1_p，委卖一（价格 ask price）
…
30：date，日期
31：time，时间

‘伍’ 如何使用python 抓取雪球网页

现在关注一个组合，就会有持仓变动的提示了。不过我觉得这事情挺有意思的。比如可以把很多持仓的数据都抓下来，做一些综合的分析，看看现在网站上被持有最多的股票是哪一支，某一天被调入最多的又是哪一支之类。
于是我决定来抓抓看，顺便借此说说我通常用程序做自动抓取的过程。
Step.1 分析页面
要抓一个网页，首先自然是要“研究”这个网页。通常我会用两种方式：
一个是 Chrome 的 Developer Tools。通过它里面的 Network 功能可以看到页面发出的所有网络请求，而大多数数据请求都会在 XHR 标签下。点击某一个请求，可以看到其具体信息，以及服务器的返回结果。很多网站在对于某些数据会有专门的请求接口，返回一组 json 或者 XML 格式的数据，供前台处理后显示。

另一个就是直接查看网页源代码。通常浏览器的右键菜单里都有这个功能。从页面的 HTML 源码里直接寻找你要的数据，分析它格式，为抓取做准备。
对于雪球上的一个组合页面粗略地看了一下它发出的请求，并没有如预想那样直接找到某个数据接口。看源代码，发现有这样一段：
SNB.cubeInfo = {"id":10289,"name":"誓把老刀挑下位","symbol":"ZH010389" ...此处略过三千字... "created_date":"2014.11.25"}
SNB.cubePieData = [{"name":"汽车","weight":100,"color":"#537299"}];

cubeInfo 是一个 json 格式的数据，看上去就是我们需要的内容。一般我会找个格式化 json 的网站把数据复制进去方便查看。

这应该就是组合的持仓数据。那么接下来，一切似乎都简单了。只要直接发送网页请求，然后把其中 cubeInfo 这段文字取出，按 json 读出数据，就完成了抓取。甚至不用动用什么 BeautifulSoup、正则表达式。
Step.2 获取页面
分析完毕，开抓。
直接 urllib.urlopen 向目标网页发送请求，读出网页。结果，失败了……
看了下返回结果：
403 Forbidden
You don't have permission to access the URL on this server. Sorry for the inconvenience.

被拒了，所以这种赤裸裸地请求是不行的。没关系，那就稍微包装一下：
send_headers = {
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Connection':'keep-alive',
'Host':'xueqiu.com',
'Cookie':r'xxxxxx',
}
req = urllib2.Request(url, headers=send_headers)
resp = urllib2.urlopen(req)
html = resp.read()

header 数据都可以从 Developer Tools 里拿到。这次顺利抓到页面内容。
一般网站或多或少都会对请求来源做一些阻拦，通过加 header 可以搞定大部分情况。
Step.3 提取数据
因为这个数据比较明显，直接用通过一些字符串查找和截取操作就可以取出来。
pos_start = html.find('SNB.cubeInfo = ') + len('SNB.cubeInfo = ')
pos_end = html.find('SNB.cubePieData')
data = html[pos_start:pos_end]
dic = json.loads(data)

dic 就是一个包含数据的字典对象。之后想干什么就随便你了。
对于复杂一点的情况，可以通过 BeautifulSoup 来定位 html 标签。再不好办的，就用正则表达式，基本都可以解决掉。
Step.4 处理数据
因为我想对数据进行持久化存储，并且做展示和分析，所以我用了 django 里的 ORM 来处理抓下来的数据。
# add Portfolio
portfolio, c = models.Portfolio.objects.get_or_create(code=dic['symbol'])
portfolio.name = dic['name']
portfolio.earnings = dic['total_gain']
portfolio.save()
# add Stock
stocks = dic['view_rebalancing']['holdings']
for s in stocks:
stock, c = models.Stock.objects.get_or_create(code=s['stock_symbol'])
stock.name = s['stock_name']
stock.count += 1
stock.weight += s['weight']
stock.save()

Portfolio 记录下组合及其收益，Stock则记录每支股票的被收录数和总收录份额。
对于抓取到的，一般也可以存在文件中，或者直接通过 SQL 存入数据库，视不同情况和个人喜好而定。
Step.5 批量抓取
前面的一套做下来，就完整地抓取了一组数据。要达到目的，还要设计一下批量抓取的程序。
一个要解决的问题就是如何获得组合列表。这个可以再通过另一个抓取程序来实现。然后根据这些列表来循环抓取就可以了。
若要细究，还要考虑列表如何保存和使用，如何处理抓取失败和重复抓取，如何控制抓取频率防止被封，可否并行抓取等等。
Step.6 数据分析
数据有了，你要怎么用它，这是个很大的问题。可以简单的统计现象，也可以想办法深入分析背后隐藏的逻辑。不多说，我也还只是在摸索之中。

‘陆’ 如何用python在掘金量化抓取数据

TuShare财经数据接口 – 可以直接抓取新浪财经、凤凰财经的网站数据，包括行情、基本面、经济数据等等。
完全免费，简洁易用，API设计得非常友好，提取的数据格式是Pandas的DataFrame。同时可以获取非高频实时数据（取决于网站更新速度，同事经验大约是15秒），一个极好的非高频股票策略数据解决方案。

‘柒’ 如何利用python抓取美股数据

一准备环境

1 安装tushare模块包。

pip install tushare

二注册tushare账号，获取token（目前tushare pro版本必须有token值才能正常访问）

访问https://tushare.pro/register?reg=380388 tushare官网进行注册，然后记录token值备用。

三开始python编程

Python代码：

import tushare as ts

#设置token

token='你自己的token'

pro = ts.pro_api(token)

#获取002242.SZ日行数据

pa=pro.daily(ts_code='002242.SZ', start_date='20200701',end_date='20200716')

# 打印获取数据

print(pa)

运行程序，可见如下打印，002242.SZ最近两周的数据都在这里了。

阅读全文

与python利用网址下载股票数据相关的资料

热点内容

000066中国长城股票近1年价发布：2025-04-29 19:20:00 浏览：799

股票分类数据发布：2025-04-29 19:14:53 浏览：309

长亮科技关于限制性股票发布：2025-04-29 19:13:47 浏览：904

每天退市的股票多不多发布：2025-04-29 19:10:13 浏览：859

香港账户可以炒哪些股票发布：2025-04-29 19:05:29 浏览：971

大博医疗股票行情走势发布：2025-04-29 18:43:49 浏览：305

证券基金期货保险股票发布：2025-04-29 18:43:11 浏览：521

下载什么软件买股票发布：2025-04-29 18:43:08 浏览：589

网宿科技怎么股票跌那么多发布：2025-04-29 18:41:33 浏览：15

股票账户内有80股的怎么卖发布：2025-04-29 18:21:06 浏览：803

a股长期投资股票发布：2025-04-29 18:19:27 浏览：269

天津中星资产上市股票代码发布：2025-04-29 18:15:01 浏览：50

哪个股票app可自己编辑公式发布：2025-04-29 18:14:16 浏览：551

资金转不了股票里面发布：2025-04-29 17:57:06 浏览：19

股票的资产负债率是高好还是低好发布：2025-04-29 17:49:27 浏览：340

新纶科技发行股票发布：2025-04-29 17:35:07 浏览：938

现买股票赚钱发布：2025-04-29 17:13:22 浏览：699

指南针股票软件首页打不开发布：2025-04-29 17:08:00 浏览：696

巴菲特投资的中国公司有哪些股票发布：2025-04-29 16:56:08 浏览：640

新中国第一支股票叫什么发布：2025-04-29 16:50:50 浏览：461