1. 學python能做什麼
Python第三方模塊眾多,下面我介紹一些比較實用而又有趣的模塊,主要分為爬蟲、數據處理、可視化、機器學習、神經網路、股票財經、游戲這7個方面,主要內容如下:
1.爬蟲:
相信大部分人都用Python爬過數據,目前來說,比較流行的框架是scrapy,對爬取數據來說,簡單方便了不少,只需要自己添加少量的代碼,框架便可啟動開始爬取,當然,還有簡單地爬蟲包,像requests+BeautifulSoup,對於爬取簡單網頁來說,也足夠了:
如果你想要學好Python最好加入一個好的學習環境,可以來這個Q群,首先是629,中間是440,最後是234,這樣大家學習的話就比較方便,還能夠共同交流和分享資料
2.數據處理:
numpy,scipy,pandas這些包對於處理數據來說非常方便,線性代數、科學計算等,利用numpy處理起來非常方便,pandas提供的DataFrame類可以方便的處理各種類型的文件,像excel,csv等,是分析數據的利器:
3.可視化:
這里的包其實也挺多的,除了我們常用的matplotlib外,還有seaborn,pyecharts等,可以繪制出各種各樣類型的圖形,除了常見的線圖、餅圖和柱狀圖外,還可以繪制出地圖、詞雲圖、地理坐標系圖等,美觀大方,所需的代碼量還少,更容易上手:
4.機器學習:
說起python機器學習,大部分人都應該scikit-learn這個包,常見的機器學習演算法,像回歸、分類、聚類、降維、模型選擇等,這里都有現成的代碼可供利用,對於這機器學習方面感興趣的人來說,這是一個入門機器學習的好包:
5.神經網路:
說起神經網路,大部分人都應該會想起深度學習,對應的就會想到谷歌目前非常流行的深度學習框架—tensorflow,tesndorflow可被用於語音識別和圖像識別等眾多領域,其發展前景光明,對於這方面感興趣的科研人員來說,是一個很不錯的工具,當然,還有基於tensorflow的theano,keras等,都是學習神經網路的不錯選擇:
6.股票財經:
對於股票和財經比較感興趣的朋友來說,python也提供了現成的庫來獲取和分析股票財經數據—tushare,tushare是一個免費、開源的python財經數據介麵包,可以快速的獲取到國內大部分股票數據,對於金融分析人員來說,可以說是一個利器,降低了許多任務量:
7.游戲:
Python專門為游戲開發提供了一個平台—Pygame,對於想快速開發小型游戲的用戶來說,是一個很不錯的選擇,簡單易學、容易上手,脫離了低級語言的束縛,使用起來也挺方便的:
2. python用什麼方法或者庫可以拿到全部股票代碼
首先你需要知道哪個網站上有所有股票代碼,然後分析這個網站股票代碼的存放方式,再利用python寫一個爬蟲去爬取所有的股票代碼
3. 如何用Python進行大數據挖掘和分析
如何用Python進行大數據挖掘和分析?快速入門路徑圖
大數據無處不在。在時下這個年代,不管你喜歡與否,在運營一個成功的商業的過程中都有可能會遇到它。
什麼是 大數據 ?
大數據就像它看起來那樣——有大量的數據。單獨而言,你能從單一的數據獲取的洞見窮其有限。但是結合復雜數學模型以及強大計算能力的TB級數據,卻能創造出人類無法製造的洞見。大數據分析提供給商業的價值是無形的,並且每天都在超越人類的能力。
大數據分析的第一步就是要收集數據本身,也就是眾所周知的「數據挖掘」。大部分的企業處理著GB級的數據,這些數據有用戶數據、產品數據和地理位置數據。今天,我將會帶著大家一起探索如何用 Python 進行大數據挖掘和分析?
為什麼選擇Python?
Python最大的優點就是簡單易用。這個語言有著直觀的語法並且還是個強大的多用途語言。這一點在大數據分析環境中很重要,並且許多企業內部已經在使用Python了,比如Google,YouTube,迪士尼等。還有,Python是開源的,並且有很多用於數據科學的類庫。
現在,如果你真的要用Python進行大數據分析的話,毫無疑問你需要了解Python的語法,理解正則表達式,知道什麼是元組、字元串、字典、字典推導式、列表和列表推導式——這只是開始。
數據分析流程
一般可以按「數據獲取-數據存儲與提取-數據預處理-數據建模與分析-數據可視化」這樣的步驟來實施一個數據分析項目。按照這個流程,每個部分需要掌握的細分知識點如下:
數據獲取:公開數據、Python爬蟲
外部數據的獲取方式主要有以下兩種。
第一種是獲取外部的公開數據集,一些科研機構、企業、政府會開放一些數據,你需要到特定的網站去下載這些數據。這些數據集通常比較完善、質量相對較高。
另一種獲取外部數據的方式就是爬蟲。
比如你可以通過爬蟲獲取招聘網站某一職位的招聘信息,爬取租房網站上某城市的租房信息,爬取豆瓣評分評分最高的電影列表,獲取知乎點贊排行、網易雲音樂評論排行列表。基於互聯網爬取的數據,你可以對某個行業、某種人群進行分析。
在爬蟲之前你需要先了解一些 Python 的基礎知識:元素(列表、字典、元組等)、變數、循環、函數………
以及,如何用 Python 庫(urllib、BeautifulSoup、requests、scrapy)實現網頁爬蟲。
掌握基礎的爬蟲之後,你還需要一些高級技巧,比如正則表達式、使用cookie信息、模擬用戶登錄、抓包分析、搭建代理池等等,來應對不同網站的反爬蟲限制。
數據存取:SQL語言
在應對萬以內的數據的時候,Excel對於一般的分析沒有問題,一旦數據量大,就會力不從心,資料庫就能夠很好地解決這個問題。而且大多數的企業,都會以SQL的形式來存儲數據。
SQL作為最經典的資料庫工具,為海量數據的存儲與管理提供可能,並且使數據的提取的效率大大提升。你需要掌握以下技能:
提取特定情況下的數據
資料庫的增、刪、查、改
數據的分組聚合、如何建立多個表之間的聯系
數據預處理:Python(pandas)
很多時候我們拿到的數據是不幹凈的,數據的重復、缺失、異常值等等,這時候就需要進行數據的清洗,把這些影響分析的數據處理好,才能獲得更加精確地分析結果。
對於數據預處理,學會 pandas (Python包)的用法,應對一般的數據清洗就完全沒問題了。需要掌握的知識點如下:
選擇:數據訪問
缺失值處理:對缺失數據行進行刪除或填充
重復值處理:重復值的判斷與刪除
異常值處理:清除不必要的空格和極端、異常數據
相關操作:描述性統計、Apply、直方圖等
合並:符合各種邏輯關系的合並操作
分組:數據劃分、分別執行函數、數據重組
Reshaping:快速生成數據透視表
概率論及統計學知識
需要掌握的知識點如下:
基本統計量:均值、中位數、眾數、百分位數、極值等
其他描述性統計量:偏度、方差、標准差、顯著性等
其他統計知識:總體和樣本、參數和統計量、ErrorBar
概率分布與假設檢驗:各種分布、假設檢驗流程
其他概率論知識:條件概率、貝葉斯等
有了統計學的基本知識,你就可以用這些統計量做基本的分析了。你可以使用 Seaborn、matplotlib 等(python包)做一些可視化的分析,通過各種可視化統計圖,並得出具有指導意義的結果。
Python 數據分析
掌握回歸分析的方法,通過線性回歸和邏輯回歸,其實你就可以對大多數的數據進行回歸分析,並得出相對精確地結論。這部分需要掌握的知識點如下:
回歸分析:線性回歸、邏輯回歸
基本的分類演算法:決策樹、隨機森林……
基本的聚類演算法:k-means……
特徵工程基礎:如何用特徵選擇優化模型
調參方法:如何調節參數優化模型
Python 數據分析包:scipy、numpy、scikit-learn等
在數據分析的這個階段,重點了解回歸分析的方法,大多數的問題可以得以解決,利用描述性的統計分析和回歸分析,你完全可以得到一個不錯的分析結論。
當然,隨著你實踐量的增多,可能會遇到一些復雜的問題,你就可能需要去了解一些更高級的演算法:分類、聚類。
然後你會知道面對不同類型的問題的時候更適合用哪種演算法模型,對於模型的優化,你需要去了解如何通過特徵提取、參數調節來提升預測的精度。
你可以通過 Python 中的 scikit-learn 庫來實現數據分析、數據挖掘建模和分析的全過程。
總結
其實做數據挖掘不是夢,5步就能讓你成為一個Python爬蟲高手!
4. 金融需要學python爬蟲還是數據分析
鏈接:http://pan..com/s/1djPqbCXnQrRpW0dgi2MCJg
華爾街學堂 python金融實務從入門到精通。最近,越來越多的研究員、基金經理甚至財務會計領域的朋友,向小編咨詢:金融人需要學Python么?事實上在現在,這已經不是一個問題了。Python已成為國內很多頂級投行、基金、咨詢等泛金融、商科領域的必備技能。中金公司、銀河證券、南方基金、銀華基金在招聘分析師崗位時,紛紛要求熟練掌握Python數據分析技能。
課程目錄:
Python在金融資管領域中的應用
安裝anaconda步驟
Python基礎知識
Python基礎金融分析應用
成為編程能手:Python知識進階
利用Python實現金融數據收集、分析與可視化
......
5. 我想把這個爬取出來的表格數據可視化成折線圖怎麼破,用python3
直接使用matplotlib或者pyecharts
6. 如何用python 爬蟲抓取金融數據
獲取數據是數據分析中必不可少的一部分,而網路爬蟲是是獲取數據的一個重要渠道之一。鑒於此,我拾起了Python這把利器,開啟了網路爬蟲之路。
本篇使用的版本為python3.5,意在抓取證券之星上當天所有A股數據。程序主要分為三個部分:網頁源碼的獲取、所需內容的提取、所得結果的整理。
一、網頁源碼的獲取
很多人喜歡用python爬蟲的原因之一就是它容易上手。只需以下幾行代碼既可抓取大部分網頁的源碼。
為了減少干擾,我先用正則表達式從整個頁面源碼中匹配出以上的主體部分,然後從主體部分中匹配出每隻股票的信息。代碼如下。
pattern=re.compile('<tbody[sS]*</tbody>')
body=re.findall(pattern,str(content)) #匹配<tbody和</tbody>之間的所有代碼pattern=re.compile('>(.*?)<')
stock_page=re.findall(pattern,body[0]) #匹配>和<之間的所有信息
其中compile方法為編譯匹配模式,findall方法用此匹配模式去匹配出所需信息,並以列表的方式返回。正則表達式的語法還挺多的,下面我只羅列所用到符號的含義。
語法 說明
. 匹配任意除換行符「 」外的字元
* 匹配前一個字元0次或無限次
? 匹配前一個字元0次或一次
s 空白字元:[<空格> fv]
S 非空白字元:[^s]
[...] 字元集,對應的位置可以是字元集中任意字元
(...) 被括起來的表達式將作為分組,裡面一般為我們所需提取的內容
正則表達式的語法挺多的,也許有大牛隻要一句正則表達式就可提取我想提取的內容。在提取股票主體部分代碼時發現有人用xpath表達式提取顯得更簡潔一些,看來頁面解析也有很長的一段路要走。
三、所得結果的整理
通過非貪婪模式(.*?)匹配>和<之間的所有數據,會匹配出一些空白字元出來,所以我們採用如下代碼把空白字元移除。
stock_last=stock_total[:] #stock_total:匹配出的股票數據for data in stock_total: #stock_last:整理後的股票數據
if data=='':
stock_last.remove('')
最後,我們可以列印幾列數據看下效果,代碼如下
print('代碼',' ','簡稱',' ',' ','最新價',' ','漲跌幅',' ','漲跌額',' ','5分鍾漲幅')for i in range(0,len(stock_last),13): #網頁總共有13列數據
print(stock_last[i],' ',stock_last[i+1],' ',' ',stock_last[i+2],' ',' ',stock_last[i+3],' ',' ',stock_last[i+4],' ',' ',stock_last[i+5])
7. 如何使用Python獲取股票分時成交數據
可以使用爬蟲來爬取數據,在寫個處理邏輯進行數據的整理。你可以詳細說明下你的需求,要爬取的網站等等。
希望我的回答對你有幫助
8. 學python可以做什麼
1WEB開發
在國內,豆瓣一開始就使用Python作為web開發基礎語言,知乎的整個架構也是基於Python語言,這使得web開發這塊在國內發展的很不錯。
盡管目前Python並不是做Web開發的首選,但一直都佔有不可忽視的一席。Python中有各類Web框架,無論是簡單而可以自由搭配的微框架還是全功能的大型MVC框架都一應俱全,這在需要敏捷開發的Web項目中也是十分具有優勢的。廣泛使用(或曾經廣泛使用)Python提供的大型Web服務包括知乎、豆瓣、Dropbox等網站。加之Python本身的「膠水」特性,很容易實現在需要大規模性能級計算時整合其它語言,同時保留Web開發時的輕便快捷。
除此之外,Python中還有大量「開箱即用」的模塊,用於與各種其它網站的對接等相關功能。如果希望開發個微信公眾號相關功能,wechat-sdk/weixin-python等包,能夠使你幾乎完全不用管文檔中提及的各種伺服器交互細節,專注於功能實現即能完成開發。
目前,國內的Python web開發主要有兩個技術棧:
(1)Django
Django是一個高級的敏捷web開發框架,如果學會了,擼一個網站很快。當然如果純粹比擼網站的速度,基於ruby的Ruby on rails顯然更快,但是Django有一個優勢就是性能優秀,更適合國內網站的應用場景。國外的著名圖片社區Pinterest早期也是基於Django開發的,承受了用戶快速增長的沖擊。所以說如果你想快速開發一個網站,還能兼顧APP客戶端的API調用需求,Django是可以信賴的。
(2)Flask
相對於Django,Flask則是一個輕量級的web框架,Flask的最大的優勢是性能優越,適合配合手機客戶端開發後台API服務。國內基於Flask的Restful API服務這快很火,也是需求最大的。知名的比如網路、網易、小米、陌陌等等很多公司都有基於Flask的應用部署。當然,如果你想做一個傳統的web網站,還是建議使用Django,Flask的優勢是後端、API,不適合構建全功能網站。
2網路爬蟲
網路爬蟲是Python比較常用的一個場景,國際上,google在早期大量地使用Python語言作為網路爬蟲的基礎,帶動了整個Python語言的應用發展。以前國內很多人用採集器搜刮網上的內容,現在用Python收集網上的信息比以前容易很多了。
Python在這個方面有許多工具上的積累,無論是用於模擬HTTP請求的Requests、用於HTML DOM解析的PyQuery/BeautifulSoup、用於自動化分布式爬取任務的Scrapy,還是用於最簡化資料庫訪問的各種ORM,都使得Python成為數據爬取的首選語言之一。特別是,爬取後的數據分析與計算是Python最為擅長的領域,非常容易整合。目前Python比較流行的網路爬蟲框架是功能非常強大的scrapy。
3人工智慧與機器學習
人工智慧是現在非常火的一個方向,AI熱潮讓Python語言的未來充滿了無限的潛力。現在釋放出來的幾個非常有影響力的AI框架,大多是Python的實現,為什麼呢?
因為Python足夠動態、具有足夠性能,這是AI技術所需要的技術特點。比如基於Python的深度學習庫、深度學習方向、機器學習方向、自然語言處理方向的一些網站基本都是通過Python來實現的。機器學習,尤其是現在火爆的深度學習,其工具框架大都提供了Python介面。Python在科學計算領域一直有著較好的聲譽,其簡潔清晰的語法以及豐富的計算工具,深受此領域開發者喜愛。
6桌面程序
Python也可以用於桌面軟體開發(如sublime text等),甚至移動端開發(參看kivy)。Python簡潔方便,各種工具包齊全的環境,能大幅度減少開發者的負擔。著名的UI框架QT有Python語言的實現版本PyQT。Python簡單易用的特性加上QT的優雅,可以很輕松的開發界面復雜的桌面程序,並且能輕松實現跨平台特性。
7多媒體應用
可以用Python裡面的PIL、Piddle、ReportLab 等模塊對圖象、聲音、視頻、動畫等進行處理,還可以用Python生成動態圖表和統計分析圖表。另外,還可以利用PyOpenGl模塊非常快速有效的編寫出三維場景。
9. Python中數據可視化經典庫有哪些
Python有很多經典的數據可視化庫,比較經典的數據可視化庫有下面幾個。
是Python編程語言及其數值數學擴展包 NumPy 的可視化操作界面。它利用通用的圖形用戶界面工具包,如 Tkinter, wxPython, Qt 或 GTK+,向應用程序嵌入式繪圖提供了應用程序介面。
pyplot 是 matplotlib 的一個模塊,它提供了一個類似 MATLAB 的介面。 matplotlib 被設計得用起來像 MATLAB,具有使用 Python 的能力。
優點:繪圖質量高,可繪制出版物質量級別的圖形。代碼夠簡單,易於理解和擴展,使繪圖變得輕松,通過Matplotlib可以很輕松地畫一些或簡單或復雜的圖形,幾行代碼即可生成直方圖、條形圖、散點圖、密度圖等等,最重要的是免費和開源。
優點:用於創建、操縱和研究復雜網路的結構、以及學習復雜網路的結構、功能及其動力學。
上面是我的回答,希望對您有所幫助!
10. 如何用python獲取股票數據
在Python的QSTK中,是通過s_datapath變數,定義相應股票數據所在的文件夾。一般可以通過QSDATA這個環境變數來設置對應的數據文件夾。具體的股票數據來源,例如滬深、港股等市場,你可以使用免費的WDZ程序輸出相應日線、5分鍾數據到s_datapath變數所指定的文件夾中。然後可使用Python的QSTK中,qstkutil.DataAccess進行數據訪問。