導航:首頁 > 數據行情 > python股票數據源

python股票數據源

發布時間:2022-10-25 05:33:26

❶ python yahoo的數據源已經失效可換成什麼數據源

import xlrddata = xlrd.open_workbook('excelFile.xls')table = data.sheets()[0] #通過索引順序獲取table = data.sheet_by_index(0) #通過索引順序獲取table = data.sheet_by_name(u'Sheet1')#通過名稱獲取

❷ python cmo刪除weblogic數據源

雙擊右鍵進行刪除。
Python由荷蘭數學和計算機科學研究學會的吉多·范羅蘇姆於1990年代初設計,作為一門叫做ABC語言的替代品。Python提供了高效的高級數據結構,還能簡單有效地面向對象編程。Python語法和動態類型,以及解釋型語言的本質,使它成為多數平台上寫腳本和快速開發應用的編程語言,隨著版本的不斷更新和語言新功能的添加,逐漸被用於獨立的、大型項目的開發。
Python解釋器易於擴展,可以使用C語言或C++(或者其他可以通過C調用的語言)擴展新的功能和數據類型。Python也可用於可定製化軟體中的擴展程序語言。Python豐富的標准庫,提供了適用於各個主要系統平台的源碼或機器碼。

❸ 如何用python 接入實時行情數據

有專門的實時行情API介面,例如微盛的實時行情API介面,通過類似這樣的介面就可以接入了。

❹ Python數據分析: 初識Pandas,理解Pandas實現和原理

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯系我們以作處理

01 重要的前言

這段時間和一些做數據分析的同學閑聊,我發現數據分析技能入門階段存在一個普遍性的問題,很多憑著興趣入坑的同學,都能夠很快熟悉Python基礎語法,然後不約而同的一頭扎進《利用Python進行數據分析》這本經典之中,硬著頭皮啃完之後,好像自己什麼都會了一點,然而實際操作起來既不知從何操起,又漏洞百出。

至於原因嘛,理解不夠,實踐不夠是兩條老牌的攔路虎,只能靠自己來克服。還有一個非常有意思且經常被忽視的因素——陷入舉三反一的懵逼狀態。

什麼意思呢?假如我是個旱鴨子,想去學游泳,教練很認真的給我剖析了蛙泳的動作,扶著我的腰讓我在水裡劃拉了5分鍾,接著馬上給我講解了蝶泳,又是劃拉了5分鍾,然後又硬塞給我潛泳的姿勢,依然是劃拉5分鍾。最後,教練一下子把我丟進踩不到底的泳池,給我吶喊助威。

作為一個還沒入門的旱鴨子,教練傾囊授了我3種游泳技巧,讓我分別實踐了5分鍾。這樣做的結果就是我哪一種游泳技巧也沒學會,只學會了喝水。當一個初學者一開始就陷入針對單個問題的多種解決方法,而每一種方法的實踐又淺嘗輒止,在面對具體問題時往往會手忙腳亂。

拿Pandas來說,它的多種構造方式,多種索引方式以及類似效果的多種實現方法,很容易把初學者打入舉三反一的懵逼狀態。所以,盡量避開這個坑也是我寫Pandas基礎系列的初衷,希望通過梳理和精簡知識點的方式,給需要的同學一些啟發。目前暫定整個基礎系列分為4篇,基礎篇過後便是有趣的實戰篇。

下面開始進入正題(我真是太嘮叨了)。

02 Pandas簡介

江湖上流傳著這么一句話——分析不識潘大師(PANDAS),縱是老手也枉然。

Pandas是基於Numpy的專業數據分析工具,可以靈活高效的處理各種數據集,也是我們後期分析案例的神器。它提供了兩種類型的數據結構,分別是DataFrame和Series,我們可以簡單粗暴的把DataFrame理解為Excel裡面的一張表,而Series就是表中的某一列,後面學習和用到的所有Pandas騷操作,都是基於這些表和列進行的操作(關於Pandas和Excel的形象關系,這里推薦我的好朋友張俊紅寫的《對比EXCEL,輕松學習Python數據分析》)。

這里有一點需要強調,Pandas和Excel、SQL相比,只是調用和處理數據的方式變了,核心都是對源數據進行一系列的處理,在正式處理之前,更重要的是謀定而後動,明確分析的意義,理清分析思路之後再處理和分析數據,往往事半功倍。

03 創建、讀取和存儲

1、創建

在Pandas中我們想要構造下面這一張表應該如何操作呢?

別忘了,第一步一定是先導入我們的庫——import pandas as pd

構造DataFrame最常用的方式是字典+列表,語句很簡單,先是字典外括,然後依次打出每一列標題及其對應的列值(此處一定要用列表),這里列的順序並不重要:

左邊是jupyter notebook中dataframe的樣子,如果對應到excel中,他就是右邊表格的樣子,通過改變columns,index和values的值來控制數據。

PS,如果我們在創建時不指定index,系統會自動生成從0開始的索引。

2、 讀取

更多時候,我們是把相關文件數據直接讀進PANDAS中進行操作,這里介紹兩種非常接近的讀取方式,一種是CSV格式的文件,一種是EXCEL格式(.xlsx和xls後綴)的文件。

讀取csv文件:

engine是使用的分析引擎,讀取csv文件一般指定python避免中文和編碼造成的報錯。而讀取Excel文件,則是一樣的味道:

非常easy,其實read_csv和read_excel還有一些參數,比如header、sep、names等,大家可以做額外了解。實踐中數據源的格式一般都是比較規整的,更多情況是直接讀取。

3、存儲

存儲起來一樣非常簡單粗暴且相似:

04 快速認識數據

這里以我們的案例數據為例,迅速熟悉查看N行,數據格式概覽以及基礎統計數據。

1、查看數據,掐頭看尾

很多時候我們想要對數據內容做一個總覽,用df.head()函數直接可以查看默認的前5行,與之對應,df.tail()就可以查看數據尾部的5行數據,這兩個參數內可以傳入一個數值來控制查看的行數,例如df.head(10)表示查看前10行數據。

2、 格式查看

df.info()幫助我們一步摸清各列數據的類型,以及缺失情況:

從上面直接可以知道數據集的行列數,數據集的大小,每一列的數據類型,以及有多少條非空數據。

3、統計信息概覽

快速計算數值型數據的關鍵統計指標,像平均數、中位數、標准差等等。

我們本來有5列數據,為什麼返回結果只有兩列?那是因為這個操作只針對數值型的列。其中count是統計每一列的有多少個非空數值,mean、std、min、max對應的分別是該列的均值、標准差、最小值和最大值,25%、50%、75%對應的則是分位數。

05 列的基本處理方式

這里,我們採用SQL四大法寶的邏輯來簡單梳理針對列的基本處理方式——增、刪、選、改。

溫馨提示:使用Pandas時,盡量避免用行或者EXCEL操作單元格的思維來處理數據,要逐漸養成一種列向思維,每一列是同宗同源,處理起來是嗖嗖的快。

1、增

增加一列,用df[『新列名』] = 新列值的形式,在原數據基礎上賦值即可:

2、刪:

我們用drop函數制定刪除對應的列,axis = 1表示針對列的操作,inplace為True,則直接在源數據上進行修改,否則源數據會保持原樣。

3、選:

想要選取某一列怎麼辦?df[『列名』]即可:

選取多列呢?需要用列表來傳遞:df[[『第一列』,『第二列』,『第三列』…]]

4、 改:

好事多磨,復雜的針對特定條件和行列的篩選、修改,放在後面結合案例細講,這里只講一下最簡單的更改:df[『舊列名』] = 某個值或者某列值,就完成了對原列數值的修改。

06 常用數據類型及操作

1、字元串

字元串類型是最常用的格式之一了,Pandas中字元串的操作和原生字元串操作幾乎一毛一樣,唯一不同的是需要在操作前加上".str"。

小Z溫馨提示:我們最初用df2.info()查看數據類型時,非數值型的列都返回的是object格式,和str類型深層機制上的區別就不展開了,在常規實際應用中,我們可以先理解為object對應的就是str格式,int64對應的就是int格式,float64對應的就是float格式即可。

在案例數據中,我們發現來源明細那一列,可能是系統導出的歷史遺留問題,每一個字元串前面都有一個「-」符號,又丑又無用,所以把他給拿掉:

一般來說清洗之後的列是要替換掉原來列的:

2、 數值型

數值型數據,常見的操作是計算,分為與單個值的運算,長度相等列的運算。

以案例數據為例,源數據訪客數我們是知道的,現在想把所有渠道的訪客都加上10000,怎麼操作呢?

只需要選中訪客數所在列,然後加上10000即可,pandas自動將10000和每一行數值相加,針對單個值的其他運算(減乘除)也是如此。

列之間的運算語句也非常簡潔。源數據是包含了訪客數、轉化率和客單價,而實際工作中我們對每個渠道貢獻的銷售額更感興趣。(銷售額 = 訪客數 X 轉化率 X 客單價)

對應操作語句:df[『銷售額』] = df[『訪客數』] * df[『轉化率』] * df[『客單價』]

但為什麼瘋狂報錯?

導致報錯的原因,是數值型數據和非數值型數據相互計算導致的。PANDAS把帶「%」符號的轉化率識別成字元串類型,我們需要先拿掉百分號,再將這一列轉化為浮點型數據:

要注意的是,這樣操作,把9.98%變成了9.98,所以我們還需要讓支付轉化率除以100,來還原百分數的真實數值:

然後,再用三個指標相乘計算銷售額:

3、時間類型

PANDAS中時間序列相關的水非常深,這里只對日常中最基礎的時間格式進行講解,對時間序列感興趣的同學可以自行查閱相關資料,深入了解。

以案例數據為例,我們這些渠道數據,是在2019年8月2日提取的,後面可能涉及到其他日期的渠道數據,所以需要加一列時間予以區分,在EXCEL中常用的時間格式是』2019-8-3』或者』2019/8/3』,我們用PANDAS來實現一下:

在實際業務中,一些時候PANDAS會把文件中日期格式的欄位讀取為字元串格式,這里我們先把字元串』2019-8-3』賦值給新增的日期列,然後用to_datetime()函數將字元串類型轉換成時間格式:

轉換成時間格式(這里是datetime64)之後,我們可以用處理時間的思路高效處理這些數據,比如,我現在想知道提取數據這一天離年末還有多少天(『2019-12-31』),直接做減法(該函數接受時間格式的字元串序列,也接受單個字元串):

❺ python中如何將表中的數據做成一張表,然後再從中取出數據

第一部分是生成數據表,常見的生成方法有兩種,第一種是導入外部數據,第二種是直接寫入數據。 Excel 中的文件菜單中提供了獲取外部數據的功能,支持資料庫和文本文件和頁面的多種數據源導入。
獲取外部數據
python 支持從多種類型的數據導入。在開始使用 python 進行數據導入前需要先導入 pandas 庫,為了方便起見,我們也同時導入 numpy 庫。
1 import numpy as np
2 import pandas as pd
導入數據表
下面分別是從 excel 和 csv 格式文件導入數據並創建數據表的方法。代碼是最簡模式,裡面有很多可選參數設置,例如列名稱,索引列,數據格式等等。感興趣的朋友可以參考 pandas 的
官方文檔。

1 df=pd.DataFrame(pd.read_csv(『name.csv』,header=1))

2 df=pd.DataFrame(pd.read_excel(『name.xlsx』))

創建數據表
另一種方法是通過直接寫入數據來生成數據表,excel 中直接在單元格中輸入數據就可以,python 中通過下面的代碼來實現。生成數據表的函數是 pandas 庫中的 DateFrame 函數,數據表一共有 6 行數據,每行有 6 個欄位。在數據中我們特意設置了一些 NA 值和有問題的欄位,例如包含空格等。後面將在數據清洗步驟進行處理。後面我們將統一以 DataFrame 的簡稱 df 來命名數據表。
1 df = pd.DataFrame({『id』:[1001,1002,1003,1004,1005,1006],
2 『date』:pd.date_range(『20130102』, periods=6),
3 『city』:['Beijing ', 『SH』, 』 guangzhou ', 『Shenzhen』, 『shanghai』, 'BEIJING '],
4 『age』:[23,44,54,32,34,32],
5 『category』:[『100-A』,『100-B』,『110-A』,『110-C』,『210-A』,『130-F』],
6 『price』:[1200,np.nan,2133,5433,np.nan,4432]},

7 columns =[『id』,『date』,『city』,『category』,『age』,『price』])

這是剛剛創建的數據表,我們沒有設置索引列,price 欄位中包含有 NA 值,city 欄位中還包含了一些臟數據。

數據表檢查
python 中處理的數據量通常會比較大,所以就需要我們對數據表進行檢查。比如我們之前的文章中介紹的紐約計程車數據和 Citibike 的騎行數據,數據量都在千萬級,我們無法一目瞭然的了解數據表的整體情況,必須要通過一些方法來獲得數據表的關鍵信息。數據表檢查的另一個目的是了解數據的概況,例如整個數據表的大小,所佔空間,數據格式,是否有空值和重復項和具體的數據內容。為後面的清洗和預處理做好准備。
數據維度(行列)

Excel 中可以通過 CTRL 向下的游標鍵,和 CTRL 向右的游標鍵來查看行號和列號。Python 中使用 shape 函數來查看數據表的維度,也就是行數和列數,函數返回的結果(6,6)表示數據表有 6 行,6 列。下面是具體的代碼。

1 #查看數據表的維度

2 df.shape

3 (6, 6)

數據表信息

使用 info 函數查看數據表的整體信息,這里返回的信息比較多,包括數據維度,列名稱,數據格式和所佔空間等信息。

1 #數據表信息

2 df.info()

4 <class 『pandas.core.frame.DataFrame』>

5 RangeIndex: 6 entries, 0 to 5

6 Data columns (total 6 columns):

7 id 6 non-null int64

8 date 6 non-null datetime64[ns]

9 city 6 non-null object

10 category 6 non-null object

11 age 6 non-null int64

12 price 4 non-null float64

13 dtypes: datetime64ns, float64(1), int64(2), object(2)

14 memory usage: 368.0 bytes

查看數據格式

Excel 中通過選中單元格並查看開始菜單中的數值類型來判斷數據的格式。Python 中使用 dtypes 函數來返回數據格式。

Dtypes 是一個查看數據格式的函數,可以一次性查看數據表中所有數據的格式,也可以指定一列來單獨查看。
1#查看數據表各列格式
2df.dtypes
3

4id int64

5date datetime64[ns]

6city object

7category object

8age int64

9price float64

10dtype: object

11

12#查看單列格式

13df[『B』].dtype

14

15dtype(『int64』)

查看空值

Excel 中查看空值的方法是使用「定位條件」功能對數據表中的空值進行定位。「定位條件」在「開始」目錄下的「查找和選擇」目錄中。

Isnull 是 Python 中檢驗空值的函數,返回的結果是邏輯值,包含空值返回 True,不包含則返回 False。可以對整個數據表進行檢查,也可以單獨對某一列進行空值檢查。

df_isnull

1#檢查特定列空值

2df[『price』].isnull()

3

40 False

51 True
62 False
73 False

84 True

95 False

10Name: price, dtype: bool

查看唯一值

Excel 中查看唯一值的方法是使用「條件格式」對唯一值進行顏色標記。Python 中使用 unique 函數查看唯一值。

Unique 是查看唯一值的函數,只能對數據表中的特定列進行檢查。下面是代碼,返回的結果是該列中的唯一值。類似與 Excel 中刪除重復項後的結果。

1 #查看 city 列中的唯一值

2 df[『city』].unique()34array(['Beijing ', 『SH』, 』 guangzhou ', 『Shenzhen』, 『shanghai』, 'BEIJING '], dtype=object)

查看數據表數值

Python 中的 Values 函數用來查看數據表中的數值。以數組的形式返回,不包含表頭信息。

1#查看數據表的值

2df.values

3
4array([[1001, Timestamp(『2013-01-02 00:00:00』), 'Beijing ', 『100-A』, 23,
5 1200.0],

6 [1002, Timestamp(『2013-01-03 00:00:00』), 『SH』, 『100-B』, 44, nan],

7 [1003, Timestamp(『2013-01-04 00:00:00』), 』 guangzhou ', 『110-A』, 54,

8 2133.0],

9 [1004, Timestamp(『2013-01-05 00:00:00』), 『Shenzhen』, 『110-C』, 32,

10 5433.0],

11 [1005, Timestamp(『2013-01-06 00:00:00』), 『shanghai』, 『210-A』, 34,
12 nan],

13 [1006, Timestamp(『2013-01-07 00:00:00』), 'BEIJING ', 『130-F』, 32,

14 4432.0]], dtype=object)

查看列名稱

Colums 函數用來單獨查看數據表中的列名稱。

1 #查看列名稱

2 df.columns

3

4 Index([『id』, 『date』, 『city』, 『category』, 『age』, 『price』], dtype=『object』)

查看前 10 行數據

Head 函數用來查看數據表中的前 N 行數據,默認 head()顯示前 10 行數據,可以自己設置參數值來確定查看的行數。下面的代碼中設置查看前 3 行的數據。

1#查看前 3 行數據``df.head(``3``)

Tail 行數與 head 函數相反,用來查看數據表中後 N 行的數據,默認 tail()顯示後 10 行數據,可以自己設置參數值來確定查看的行數。下面的代碼中設置查看後 3 行的數據。

1#查看最後 3 行df.tail(3)

❻ 用Python怎麼做量化投資

本文將會講解量化投資過程中的基本流程,量化投資無非這幾個流程,數據輸入------策略書寫------回測輸出
其中策略書寫部分還涉及到編程語言的選擇,如果不想苦惱數據輸入和回測輸出的話,還要選擇回測平台。
一、數據
首先,必須是數據,數據是量化投資的基礎
如何得到數據?

Wind:數據來源的最全的還是Wind,但是要付費,學生可以有免費試用的機會,之後還會和大家分享一下怎樣才Wind里摘取數據,Wind有很多軟體的借口,Excel,Matlab,Python,C++。
預測者網:不經意間發現,一個免費提供股票數據網站 預測者網,下載的是CSV格式
TB交易開拓者:Tradeblazer,感謝@孫存浩提供數據源
TuShare:TuShare -財經數據介麵包,基於Python的財經數據包,利用Python進行摘取
如何存儲數據?
Mysql
如何預處理數據?

空值處理:利用DataFrame的fill.na()函數,將空值(Nan)替換成列的平均數、中位數或者眾數
數據標准化
數據如何分類?
行情數據
財務數據
宏觀數據
二、計算語言&軟體

已經有很多人在網上詢問過該選擇什麼語言?筆者一開始用的是matlab,但最終選擇了python
python:庫很多,只有你找不到的,沒有你想不到,和量化這塊結合比較緊密的有:
Numpy&Scipy:科學計算庫,矩陣計算
Pandas:金融數據分析神器,原AQR資本員工寫的一個庫,處理時間序列的標配

Matplotlib:畫圖庫
scikit-learn:機器學習庫
statsmodels:統計分析模塊
TuShare:免費、開源的python財經數據介麵包

Zipline:回測系統
TaLib:技術指標庫
matlab:主要是矩陣運算、科學運算這一塊很強大,主要有優點是WorkSpace變數可視化

python的Numpy+Scipy兩個庫完全可以替代Matlab的矩陣運算
Matplotlib完克Matlab的畫圖功能
python還有很多其他的功能
pycharm(python的一款IDE)有很棒的調試功能,能代替Matlab的WorkSpace變數可視化
推薦的python學習文檔和書籍
關於python的基礎,建議廖雪峰Python 2.7教程,適合於沒有程序基礎的人來先看,涉及到python的基本數據類型、循環語句、條件語句、函數、類與對象、文件讀寫等很重要的基礎知識。

涉及到數據運算的話,其實基礎教程沒什麼應用,python各類包都幫你寫好了,最好的學習資料還是它的官方文檔,文檔中的不僅有API,還會有寫實例教程
pandas文檔
statsmodels文檔
scipy和numpy文檔
matplotlib文檔

TuShare文檔
第二,推薦《利用Python進行數據分析》,pandas的開發初衷就是用來處理金融數據的
三、回測框架和網站
兩個開源的回測框架
PyAlgoTrade - Algorithmic Trading

Zipline, a Pythonic Algorithmic Trading Library

❼ Python培訓課程內容有哪些

Python開發基礎課程內容包括:計算機硬體、操作系統原理、安裝linux操作系統、linux操作系統維護常用命令、Python語言介紹、環境安裝、基本語法、基本數據類型、二進制運算、流程式控制制、字元編碼、文件處理、數據類型、用戶認證、三級菜單程序、購物車程序開發、函數、內置方法、遞歸、迭代器、裝飾器、內置方法、員工信息表開發、模塊的跨目錄導入、常用標准庫學習,b加密 e正則logging日誌模塊等,軟體開發規范學習,計算器程序、ATM程序開發等。

Linux是作為開發者必須要掌握的操作平台,在這個平台上無論是開發Web項目,運行SQL資料庫還是部署爬蟲、大數據分析、以及AI開發,都可以很好的實現。作為一門編程語言的學習,大概可以分為幾個部分:編程語法、面向對象的編程思想、常用設計模式、常用排序演算法,內容有關系型資料庫表的設計、增刪改查以及SQL語句的編寫、SQL和NoSQL資料庫的使用場景和設計難點、Python對資料庫的連接。千鋒教育擁有多年Python培訓服務經驗,採用全程面授高品質、高體驗培養模式,擁有國內一體化教學管理及學員服務,助力更多學員實現高薪夢想。

❽ 如何使用python抓取炒股軟體中資金數據

這個說來有點復雜,用fiddle監控軟體跟伺服器間的通訊,找到數據源地址,然後用excel或python抓這個源地址數據,可能還要加上反扒代碼,構造時間戳等等,你網上找python網抓視頻教程看看就知道了。

❾ 如何用python代碼判斷一段范圍內股票最高點

Copyright © 1999-2020, CSDN.NET, All Rights Reserved




登錄

python+聚寬 統計A股市場個股在某時間段的最高價、最低價及其時間 原創
2019-10-12 09:20:50

開拖拉機的大寶

碼齡4年

關注
使用工具pycharm + 聚寬數據源,統計A股市場個股在某時間段的最高價、最低價及其時間,並列印excel表格輸出

from jqdatasdk import *
import pandas as pd
import logging
import sys
logger = logging.getLogger("logger")
logger.setLevel(logging.INFO)

# 聚寬數據賬戶名和密碼設置
auth('username','password')

#獲取A股列表,包括代號,名稱,上市退市時間等。
security = get_all_securities(types=[], date=None)
pd2 = get_all_securities(['stock'])


# 獲取股票代號
stocks = list(get_all_securities(['stock']).index)

# 獲取股票名稱
stocknames = pd2['display_name']

start_date = 񟭏-01-01'
end_date = 񟭒-12-31'
def get_stocks_high_low(start_date,end_date):
# 新建表,表頭列
# 為:"idx","stockcode","stockname","maxvalue","maxtime","lowvalue","lowtime"
result = pd.DataFrame(columns=["idx", "stockcode", "stockname", "maxvalue", "maxtime", "lowvalue", "lowtime"])
for i in range(0,stocks.__len__()-1):
pd01 = get_price(stocks[i], start_date, end_date, frequency='daily',
fields=None, skip_paused=False,fq='pre', count=None)
result=result.append(pd.DataFrame({'idx':[i],'stockcode':[stocks[i]],'stockname':
[stocknames[i]],'maxvalue':[pd01['high'].max()],'maxtime':
[pd01['high'].idxmax()],'lowvalue': [pd01['low'].min()], 'lowtime':
[pd01['low'].idxmin()]}),ignore_index=True)

result.to_csv("stock_max_min.csv",encoding = 'utf-8', index = True)
logger.warning("執行完畢!

閱讀全文

與python股票數據源相關的資料

熱點內容
阿里年會股票中獎員工 瀏覽:869
tableau分析股票數據 瀏覽:598
股票漲停值怎麼算 瀏覽:655
退市股票多久進三版 瀏覽:642
n天沒有漲停的股票指標 瀏覽:560
股票九華科技 瀏覽:199
購買長期股票的會計分錄 瀏覽:450
和科技有關的股票有哪些方面 瀏覽:829
蕭楠管理的基金易方達消費行業股票 瀏覽:659
八元股票投資app 瀏覽:354
為什大資金一入市全部股票都漲 瀏覽:373
股票交易截圖生成器app 瀏覽:108
點讀科技股票代碼 瀏覽:987
股票漲停板怎麼買不過去了 瀏覽:857
怎樣抓住指標共振的股票 瀏覽:687
股票軟體累計浮動盈虧 瀏覽:429
股票軟體如何看資金流向 瀏覽:885
股票數據回測網站 瀏覽:92
暴跌抄底一字板漲停的股票 瀏覽:787
股票合盛硅業最新價 瀏覽:596