导航:首页 > 数据行情 > pandas爬取股票数据

pandas爬取股票数据

发布时间：2022-05-15 06:40:55

㈠如何编程从免费股票软件中提取实时数据

自己写程序的话，一种方法是从已提供的信息源，例如webservice获取数据。还有种办法就是去连接提供即时信息的网页硬解析。

代码举例如下：

Created on Thu Jul 23 09:17:27 2015
@author: jet
"""
DAY_PRICE_COLS = ['date', 'open', 'high', 'close', 'low', 'volume',
'chg', '%chg', 'ma5', 'ma10', 'ma20',
'vma5', 'vma10', 'vma20', 'turnover']
DAY_PRICE_URL = '%sapi.finance.%s/%s/?code=%s&type=last'
INDEX_KEY = ['SH', 'SZ', 'HS300', 'SZ50', 'GEB', 'SMEB']
INDEX_LIST = {'SH': 'sh000001', 'SZ': 'sz399001', 'HS300': 'sz399300',
'SZ50': 'sh000016', 'GEB': 'sz399006', 'SMEB': 'sz399005'}
INDEX_DAY_PRICE_COLS= ['date', 'open', 'high', 'close', 'low', 'volume',
'chg', '%chg', 'ma5', 'ma10', 'ma20',
'vma5', 'vma10', 'vma20']
K_TYPE_KEY = ['D', 'W', 'M']
K_TYPE_MIN_KEY = ['5', '15', '30', '60']
K_TYPE = {'D': 'akdaily', 'W': 'akweekly', 'M': 'akmonthly'}
MIN_PRICE_URL = '%sapi.finance.%s/akmin?scode=%s&type=%s'
PAGE_TYPE = {'http': 'http://', 'ftp': 'ftp://'}
PAGE_DOMAIN = {'sina': 'sina.com.cn', 'ifeng': 'ifeng.com'}
URL_ERROR_MSG = '获取失败，请检查网络状态，或者API端口URL已经不匹配！'

get_hist_data.py
# -*- coding: utf-8 -*-
"""
Created on Thu Jul 23 09:15:40 2015
@author: jet
"""
import const as ct
import pandas as pd
import json
from urllib2 import urlopen,Request

def get_hist_data(code = None, start = None, end = None, ktype = 'D'):
"""
功能:
获取个股历史交易数据
--------
输入:
--------
code:string
股票代码比如:601989
start:string
开始日期格式:YYYY-MM-DD 为空时取到API所提供的最早日期数据
end:string
结束日期格式:YYYY-MM-DD 为空时取到最近一个交易日数据
ktype:string(default=D, 函数内部自动统一为大写)
数据类型 D=日K线，W=周K线，M=月K线，5=5分钟，15=15分钟
30=30分钟，60=60分钟
输出:
--------
DataFrame
date 日期
open 开盘价
high 最高价
close 收盘价
low 最低价
chg 涨跌额
p_chg 涨跌幅
ma5 5日均价
ma10 10日均价
ma20 20日均价
vma5 5日均量
vma10 10日均量
vma20 20日均量
turnover换手率(指数无此项)
"""
code = code_to_APIcode(code.upper())
ktype = ktype.upper()

url = ''
url = get_url(ktype, code)
print(url)

js = json.loads(ping_API(url))
cols = []

if len(js['record'][0]) == 14:
cols = ct.INDEX_DAY_PRICE_COLS
else:
cols = ct.DAY_PRICE_COLS
df = pd.DataFrame(js['record'], columns=cols)

if ktype in ct.K_TYPE_KEY:
df = df.applymap(lambda x:x.replace(u',', u''))
for col in cols[1:]:
df[col]=df[col].astype(float)
if start is not None:
df = df [df.date >= start]
if end is not None:
df = df[df.date <= end]
df = df.set_index('date')
return df

def code_to_APIcode(code):
"""
功能：
验证输入的股票代码是否正确，若正确则返回API对应使用的股票代码
"""
print(code)
if code in ct.INDEX_KEY:
return ct.INDEX_LIST[code]
else:
if len(code) != 6:
raise IOError('code input error!')
else:
return 'sh%s'%code if code[:1] in ['5', '6'] else 'sz%s'%code

def get_url(ktype, code):
"""
功能：
验证输入的K线类型是否正确，若正确则返回url
"""
if ktype in ct.K_TYPE_KEY:
url = ct.DAY_PRICE_URL % (ct.PAGE_TYPE['http'], ct.PAGE_DOMAIN['ifeng'],
ct.K_TYPE[ktype], code)
return url
elif ktype in ct.K_TYPE_MIN_KEY:
url = ct.MIN_PRICE_URL % (ct.PAGE_TYPE['http'], ct.PAGE_DOMAIN['ifeng'],
code, ktype)
return url
else:
raise IOError('ktype input error!')

def ping_API(url):
"""
功能：
向API发送数据请求，若链接正常返回数据
"""
text = ''
try:
req = Request(url)
text = urlopen(req,timeout=10).read()
if len(text) < 15:
raise IOError('no data!')
except Exception as e:
print(e)
else:
return text

#测试入口
print(get_hist_data('601989','2015-07-11','2015-07-22'))

㈡ python用什么方法或者库可以拿到全部股票代码

首先你需要知道哪个网站上有所有股票代码，然后分析这个网站股票代码的存放方式，再利用python写一个爬虫去爬取所有的股票代码

㈢怎么用python计算股票

作为一个python新手，在学习中遇到很多问题，要善于运用各种方法。今天，在学习中，碰到了如何通过收盘价计算股票的涨跌幅。
第一种：
读取数据并建立函数：
import numpy as np
import matplotlib.pyplot as plt
from scipy.interpolate import spline
from pylab import *
import pandas as pd
from pandas import Series
a=pd.read_csv('d:///1.csv',sep=',')#文件位置

t=a['close']
def f(t):
s=[]
for i in range(1,len(t)):
if i==1:
continue
else:
s.append((t[i]-t[i-1])/t[i]*100)
print s
plot(s)

plt.show()
f(t)
第二种：
利用pandas里面的方法：
import pandas as pd

a=pd.read_csv('d:///1.csv')
rets = a['close'].pct_change() * 100
print rets

第三种：
close=a['close']
rets=close/close.shift(1)-1
print rets

总结：python是一种非常好的编程语言，一般而言，我们可以运用构建相关函数来实现自己的思想，但是，众所周知，python中里面的有很多科学计算包，里面有很多方法可以快速解决计算的需要，如上面提到的pandas中的pct_change()。因此在平时的使用中应当学会寻找更好的方法，提高运算速度。

㈣如何编程从免费股票软件中提取实时数据

㈤ Python爬虫可以爬取什么

Python爬虫可以爬取的东西有很多，Python爬虫怎么学？简单的分析下：

如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。

利用爬虫我们可以获取大量的价值数据，从而获得感性认识中不能得到的信息，比如：

知乎：爬取优质答案，为你筛选出各话题下最优质的内容。
淘宝、京东：抓取商品、评论及销量数据，对各种商品及用户的消费场景进行分析。
安居客、链家：抓取房产买卖及租售信息，分析房价变化趋势、做不同区域的房价分析。
拉勾网、智联：爬取各类职位信息，分析各行业人才需求情况及薪资水平。
雪球网：抓取雪球高回报用户的行为，对股票市场进行分析和预测。

爬虫是入门Python最好的方式，没有之一。Python有很多应用的方向，比如后台开发、web开发、科学计算等等，但爬虫对于初学者而言更友好，原理简单，几行代码就能实现基本的爬虫，学习的过程更加平滑，你能体会更大的成就感。

掌握基本的爬虫后，你再去学习Python数据分析、web开发甚至机器学习，都会更得心应手。因为这个过程中，Python基本语法、库的使用，以及如何查找文档你都非常熟悉了。

对于小白来说，爬虫可能是一件非常复杂、技术门槛很高的事情。比如有人认为学爬虫必须精通 Python，然后哼哧哼哧系统学习 Python 的每个知识点，很久之后发现仍然爬不了数据；有的人则认为先要掌握网页的知识，遂开始 HTMLCSS，结果入了前端的坑，瘁……

但掌握正确的方法，在短时间内做到能够爬取主流网站的数据，其实非常容易实现，但建议你从一开始就要有一个具体的目标。

在目标的驱动下，你的学习才会更加精准和高效。那些所有你认为必须的前置知识，都是可以在完成目标的过程中学到的。这里给你一条平滑的、零基础快速入门的学习路径。

1.学习 Python 包并实现基本的爬虫过程
2.了解非结构化数据的存储
3.学习scrapy，搭建工程化爬虫
4.学习数据库知识，应对大规模数据存储与提取
5.掌握各种技巧，应对特殊网站的反爬措施
6.分布式爬虫，实现大规模并发采集，提升效率

一

学习 Python 包并实现基本的爬虫过程

大部分爬虫都是按“发送请求——获得页面——解析页面——抽取并储存内容”这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。

Python中爬虫相关的包很多：urllib、requests、bs4、scrapy、pyspider 等，建议从requests+Xpath 开始，requests 负责连接网站，返回网页，Xpath 用于解析网页，便于抽取数据。

如果你用过 BeautifulSoup，会发现 Xpath 要省事不少，一层一层检查元素代码的工作，全都省略了。这样下来基本套路都差不多，一般的静态网站根本不在话下，豆瓣、糗事网络、腾讯新闻等基本上都可以上手了。

当然如果你需要爬取异步加载的网站，可以学习浏览器抓包分析真实请求或者学习Selenium来实现自动化，这样，知乎、时光网、猫途鹰这些动态的网站也可以迎刃而解。

二

了解非结构化数据的存储

爬回来的数据可以直接用文档形式存在本地，也可以存入数据库中。

开始数据量不大的时候，你可以直接通过 Python 的语法或 pandas 的方法将数据存为csv这样的文件。

当然你可能发现爬回来的数据并不是干净的，可能会有缺失、错误等等，你还需要对数据进行清洗，可以学习 pandas 包的基本用法来做数据的预处理，得到更干净的数据。

三

学习 scrapy，搭建工程化的爬虫

掌握前面的技术一般量级的数据和代码基本没有问题了，但是在遇到非常复杂的情况，可能仍然会力不从心，这个时候，强大的 scrapy 框架就非常有用了。

scrapy 是一个功能非常强大的爬虫框架，它不仅能便捷地构建request，还有强大的 selector 能够方便地解析 response，然而它最让人惊喜的还是它超高的性能，让你可以将爬虫工程化、模块化。

学会 scrapy，你可以自己去搭建一些爬虫框架，你就基本具备爬虫工程师的思维了。

四

学习数据库基础，应对大规模数据存储

爬回来的数据量小的时候，你可以用文档的形式来存储，一旦数据量大了，这就有点行不通了。所以掌握一种数据库是必须的，学习目前比较主流的 MongoDB 就OK。

MongoDB 可以方便你去存储一些非结构化的数据，比如各种评论的文本，图片的链接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。

因为这里要用到的数据库知识其实非常简单，主要是数据如何入库、如何进行提取，在需要的时候再学习就行。

五

掌握各种技巧，应对特殊网站的反爬措施

当然，爬虫过程中也会经历一些绝望啊，比如被网站封IP、比如各种奇怪的验证码、userAgent访问限制、各种动态加载等等。

遇到这些反爬虫的手段，当然还需要一些高级的技巧来应对，常规的比如访问频率控制、使用代理IP池、抓包、验证码的OCR处理等等。

往往网站在高效开发和反爬虫之间会偏向前者，这也为爬虫提供了空间，掌握这些应对反爬虫的技巧，绝大部分的网站已经难不到你了.

六

分布式爬虫，实现大规模并发采集

爬取基本数据已经不是问题了，你的瓶颈会集中到爬取海量数据的效率。这个时候，相信你会很自然地接触到一个很厉害的名字：分布式爬虫。

分布式这个东西，听起来很恐怖，但其实就是利用多线程的原理让多个爬虫同时工作，需要你掌握 Scrapy + MongoDB + Redis 这三种工具。

Scrapy 前面我们说过了，用于做基本的页面爬取，MongoDB 用于存储爬取的数据，Redis 则用来存储要爬取的网页队列，也就是任务队列。

所以有些东西看起来很吓人，但其实分解开来，也不过如此。当你能够写分布式的爬虫的时候，那么你可以去尝试打造一些基本的爬虫架构了，实现一些更加自动化的数据获取。

你看，这一条学习路径下来，你已然可以成为老司机了，非常的顺畅。所以在一开始的时候，尽量不要系统地去啃一些东西，找一个实际的项目（开始可以从豆瓣、小猪这种简单的入手），直接开始就好。

因为爬虫这种技术，既不需要你系统地精通一门语言，也不需要多么高深的数据库技术，高效的姿势就是从实际的项目中去学习这些零散的知识点，你能保证每次学到的都是最需要的那部分。

当然唯一麻烦的是，在具体的问题中，如何找到具体需要的那部分学习资源、如何筛选和甄别，是很多初学者面临的一个大问题。

以上就是我的回答，希望对你有所帮助，望采纳。

㈥怎么用python panda 算股票市场收益率

1.收集数据，开盘价，收盘价，交易量
2.用pandas处理数据，处理缺失值
3.用股票收益率的公式带入
说白了，pandas只是个好用的工具，方法都是一样的，只是效率问题
有多少人工，就有多少智能

㈦如何选取过去每个月股票的市值 python

类似，可以修改一下
股票涨跌幅数据是量化投资学习的基本数据资料之一，下面以python代码编程为工具，获得所需要的历史数据。主要步骤有：
（1） #按照市值从小到大的顺序活得N支股票的代码；
（2） #分别对这一百只股票进行100支股票操作；
（3） #获取从2016.05.01到2016.11.17的涨跌幅数据；
（4） #选取记录大于40个的数据，去除次新股；
（5） #将文件名名为“股票代码.csv”。
具体代码如下：
# -*- coding: utf-8 -*-
"""
Created on Thu Nov 17 23:04:33 2016
获取股票的历史涨跌幅，并分别存为csv格式
@author: yehxqq151376026
"""

import numpy as np
import pandas as pd

#按照市值从小到大的顺序活得100支股票的代码
df = get_fundamentals(
query(fundamentals.eod_derivative_indicator.market_cap)
.order_by(fundamentals.eod_derivative_indicator.market_cap.asc())
.limit(100),'2016-11-17', '1y'
)

#分别对这一百只股票进行100支股票操作
#获取从2016.05.01到2016.11.17的涨跌幅数据
#选取记录大于40个的数据，去除次新股
#将文件名名为“股票代码.csv”
for stock in range(100):
priceChangeRate = get_price_change_rate(df['market_cap'].columns[stock], '20160501', '20161117')
if priceChangeRate is None:
openDays = 0
else:
openDays = len(priceChangeRate)
if openDays > 40:
tempPrice = priceChangeRate[39:(openDays - 1)]
for rate in range(len(tempPrice)):
tempPrice[rate] = "%.3f" %tempPrice[rate]
fileName = ''
fileName = fileName.join(df['market_cap'].columns[i].split('.')) + '.csv'
fileName
tempPrice.to_csv(fileName)

㈧怎样用python提取不同股票csv里特定时间段的数据

用pandas库，
import pandas as pd

data = pd.read_csv('train.csv')
train_data = data.values[0:TRAIN_NUM,1:]
train_label = data.values[0:TRAIN_NUM,0]
study.163.com/course/courseMain.htm?courseId=1000035
机器学习正好讲了这个手写识别的例子！

㈨学python能做什么

Python第三方模块众多，下面我介绍一些比较实用而又有趣的模块，主要分为爬虫、数据处理、可视化、机器学习、神经网络、股票财经、游戏这7个方面，主要内容如下：

1.爬虫：
相信大部分人都用Python爬过数据，目前来说，比较流行的框架是scrapy，对爬取数据来说，简单方便了不少，只需要自己添加少量的代码，框架便可启动开始爬取，当然，还有简单地爬虫包，像requests+BeautifulSoup，对于爬取简单网页来说，也足够了：

如果你想要学好Python最好加入一个好的学习环境，可以来这个Q群，首先是629，中间是440，最后是234，这样大家学习的话就比较方便，还能够共同交流和分享资料

2.数据处理：
numpy,scipy,pandas这些包对于处理数据来说非常方便，线性代数、科学计算等，利用numpy处理起来非常方便，pandas提供的DataFrame类可以方便的处理各种类型的文件，像excel,csv等，是分析数据的利器：

3.可视化：
这里的包其实也挺多的，除了我们常用的matplotlib外，还有seaborn,pyecharts等，可以绘制出各种各样类型的图形，除了常见的线图、饼图和柱状图外，还可以绘制出地图、词云图、地理坐标系图等，美观大方，所需的代码量还少，更容易上手：

4.机器学习：
说起python机器学习，大部分人都应该scikit-learn这个包，常见的机器学习算法，像回归、分类、聚类、降维、模型选择等，这里都有现成的代码可供利用，对于这机器学习方面感兴趣的人来说，这是一个入门机器学习的好包：

5.神经网络：
说起神经网络，大部分人都应该会想起深度学习，对应的就会想到谷歌目前非常流行的深度学习框架—tensorflow，tesndorflow可被用于语音识别和图像识别等众多领域，其发展前景光明，对于这方面感兴趣的科研人员来说，是一个很不错的工具，当然，还有基于tensorflow的theano,keras等，都是学习神经网络的不错选择：

6.股票财经：
对于股票和财经比较感兴趣的朋友来说，python也提供了现成的库来获取和分析股票财经数据—tushare，tushare是一个免费、开源的python财经数据接口包，可以快速的获取到国内大部分股票数据，对于金融分析人员来说，可以说是一个利器，降低了许多任务量：

7.游戏：
Python专门为游戏开发提供了一个平台—Pygame，对于想快速开发小型游戏的用户来说，是一个很不错的选择，简单易学、容易上手，脱离了低级语言的束缚，使用起来也挺方便的：

㈩ PYthon遍历语句求指导，如何通过python下载某时期所有股票日线信息然后存文件

你可以去官网看看怎么去做，

阅读全文

与pandas爬取股票数据相关的资料

热点内容

地产投资股票发布：2025-01-31 02:49:38 浏览：210

原油上涨对股票的影响发布：2025-01-31 02:48:06 浏览：110

怎么申请开通st股票交易权限发布：2025-01-31 02:46:24 浏览：748

股票软件名称大全发布：2025-01-31 02:44:45 浏览：274

股票交易时间要去领航VIP官网发布：2025-01-31 02:43:04 浏览：630

再升科技股票数据发布：2025-01-31 02:37:22 浏览：244

股票账户证转银密码忘记怎么办发布：2025-01-31 02:35:34 浏览：558

中国航空工业集团公司的股票发布：2025-01-31 02:34:02 浏览：968

数源科技的股票发布：2025-01-31 02:22:01 浏览：38

2015下半年有重组预期的股票发布：2025-01-31 02:17:53 浏览：156

股票软件上的参数净资产怎么看发布：2025-01-31 02:17:40 浏览：921

伊利股份股票历史数据分析发布：2025-01-31 02:05:16 浏览：454

新浪财经股票首页中国银行发布：2025-01-31 01:56:49 浏览：552

科创板退市整理股票的简称前冠以不进入发布：2025-01-31 01:53:49 浏览：4

三棵树股票最新价格表发布：2025-01-31 01:37:32 浏览：384

财通股票上市时间发布：2025-01-31 01:35:46 浏览：968

股票财务报表的7个重要指标发布：2025-01-31 01:18:24 浏览：170

深圳湾科技股票发布：2025-01-31 01:16:49 浏览：583

股票长期持有每天做t十o结果怎样发布：2025-01-31 01:04:48 浏览：125

股票投资选大财优配很专业发布：2025-01-31 00:58:19 浏览：294