mangodb股票資料庫_Python爬蟲可以爬取什麼

⑴ 段友們，有沒有比較好看的直播軟體.求推薦

不得用於商業用途，請在下載後24小時內刪除

⑵ Quant 應該學習哪些 Python 知識

1. 如果還需要Deep Learning方面的東西的話，可以考慮Theano或者Keras。這兩個東西可能會用在分析新聞數據方面。不過不是很推薦使用這類方法去做量化模型，因為計算量實在是太大，成本很高。
2. 交易框架方面，除了vn.py，還推薦PyAlgoTrade框架，github上可以搜到。私以為這個框架比vn.py牛逼太多了，畢竟是一個在金融IT領域混跡近20年的老妖的作品，架構設計不是一般的優秀。
3. 國內的話，ricequant是個不錯的選擇，雖然使用的是Java，但是團隊我見過，都是做金融IT出身的，基本上都有7、8年以上經驗，底層功底非常扎實，做事情都很靠譜。現在他們也在考慮把SDK擴展到Python這邊。
4. 國內的行情和交易介面，使用的是自己的協議（比如CTP介面使用的是FTD協議），而不是國際上廣泛使用的FIX協議，並且都不開源。如果需要連接行情，還需要考慮將介面SDK為python封裝一下。（修改：評論中有人提到很多券商也開放了FIX介面，不過似乎是在內網使用）
5. 有人談到資料庫了，這里我也說一下，對於高頻tick級別的數據，其量級可以達到每天TB級別，普通的關系資料庫是扛不住的。如果試圖使用傳統的關系資料庫，比如Oracle之類的可以省省了。對付這種級別的數據，採用文件系統+內存索引會更好。不過這種場景，一般也就是機構裡面能碰到了，個人quant可以不用考慮。

⑶ 10億級別的資料庫用什麼比較好mysql合適嗎

10億級別的什麼數據？

如果是關系型很強，而且數據很值錢的數據，例如顧客--交易--商品--金額一個系列的，那麼這種很重要的數據，建議是 Oracle，因為數據丟不起啊。

如果是關系型強，但是數據不是很值錢的數據，例如 A股從開市以來，所有股票的每日，每小時，30分，15分，5分鍾的行情數據。那麼你可以使用 Mysql。反正丟了就重新導入一次。

如果是關系型不強，數據也不是很值錢的數據，例如論壇的帖子這一類的，那麼用 mongodb 就更合適一些。

⑷ NoSQL自動生成上千萬的數據可以有哪些方法

1. CouchDB

所用語言： Erlang
特點：DB一致性，易於使用
使用許可： Apache
協議： HTTP/REST
雙向數據復制，
持續進行或臨時處理，
處理時帶沖突檢查，
因此，採用的是master-master復制（見編注2）
MVCC – 寫操作不阻塞讀操作
可保存文件之前的版本
Crash-only（可靠的）設計
需要不時地進行數據壓縮
視圖：嵌入式映射/減少
格式化視圖：列表顯示
支持進行伺服器端文檔驗證
支持認證
根據變化實時更新
支持附件處理
因此， CouchApps（獨立的 js應用程序）
需要 jQuery程序庫

最佳應用場景：適用於數據變化較少，執行預定義查詢，進行數據統計的應用程序。適用於需要提供數據版本支持的應用程序。

例如： CRM、CMS系統。 master-master復制對於多站點部署是非常有用的。

（編注2：master-master復制：是一種資料庫同步方法，允許數據在一組計算機之間共享數據，並且可以通過小組中任意成員在組內進行數據更新。）

2. Redis

所用語言：C/C++
特點：運行異常快
使用許可： BSD
協議：類 Telnet
有硬碟存儲支持的內存資料庫，
但自2.0版本以後可以將數據交換到硬碟（注意， 2.4以後版本不支持該特性！）
Master-slave復制（見編注3）
雖然採用簡單數據或以鍵值索引的哈希表，但也支持復雜操作，例如 ZREVRANGEBYSCORE。
INCR & co （適合計算極限值或統計數據）
支持 sets（同時也支持 union/diff/inter）
支持列表（同時也支持隊列；阻塞式 pop操作）
支持哈希表（帶有多個域的對象）
支持排序 sets（高得分表，適用於范圍查詢）
Redis支持事務
支持將數據設置成過期數據（類似快速緩沖區設計）
Pub/Sub允許用戶實現消息機制

最佳應用場景：適用於數據變化快且資料庫大小可遇見（適合內存容量）的應用程序。

例如：股票價格、數據分析、實時數據搜集、實時通訊。

（編注3：Master-slave復制：如果同一時刻只有一台伺服器處理所有的復制請求，這被稱為
Master-slave復制，通常應用在需要提供高可用性的伺服器集群。）

3. MongoDB

所用語言：C++
特點：保留了SQL一些友好的特性（查詢，索引）。
使用許可： AGPL（發起者： Apache）
協議： Custom, binary（ BSON）
Master/slave復制（支持自動錯誤恢復，使用 sets 復制）
內建分片機制
支持 javascript表達式查詢
可在伺服器端執行任意的 javascript函數
update-in-place支持比CouchDB更好
在數據存儲時採用內存到文件映射
對性能的關注超過對功能的要求
建議最好打開日誌功能（參數 –journal）
在32位操作系統上，資料庫大小限制在約2.5Gb
空資料庫大約占 192Mb
採用 GridFS存儲大數據或元數據（不是真正的文件系統）

最佳應用場景：適用於需要動態查詢支持；需要使用索引而不是 map/rece功能；需要對大資料庫有性能要求；需要使用
CouchDB但因為數據改變太頻繁而占滿內存的應用程序。

例如：你本打算採用 MySQL或 PostgreSQL，但因為它們本身自帶的預定義欄讓你望而卻步。

4. Riak

所用語言：Erlang和C，以及一些Javascript
特點：具備容錯能力
使用許可： Apache
協議： HTTP/REST或者 custom binary
可調節的分發及復制(N, R, W)
用 JavaScript or Erlang在操作前或操作後進行驗證和安全支持。
使用JavaScript或Erlang進行 Map/rece
連接及連接遍歷：可作為圖形資料庫使用
索引：輸入元數據進行搜索（1.0版本即將支持）
大數據對象支持（ Luwak）
提供「開源」和「企業」兩個版本
全文本搜索，索引，通過 Riak搜索伺服器查詢（ beta版）
支持Masterless多站點復制及商業許可的 SNMP監控

最佳應用場景：適用於想使用類似 Cassandra（類似Dynamo）資料庫但無法處理
bloat及復雜性的情況。適用於你打算做多站點復制，但又需要對單個站點的擴展性，可用性及出錯處理有要求的情況。

例如：銷售數據搜集，工廠控制系統；對宕機時間有嚴格要求；可以作為易於更新的 web伺服器使用。

5. Membase

所用語言： Erlang和C
特點：兼容 Memcache，但同時兼具持久化和支持集群
使用許可： Apache 2.0
協議：分布式緩存及擴展
非常快速（200k+/秒），通過鍵值索引數據
可持久化存儲到硬碟
所有節點都是唯一的（ master-master復制）
在內存中同樣支持類似分布式緩存的緩存單元
寫數據時通過去除重復數據來減少 IO
提供非常好的集群管理 web界面
更新軟體時軟無需停止資料庫服務
支持連接池和多路復用的連接代理

最佳應用場景：適用於需要低延遲數據訪問，高並發支持以及高可用性的應用程序

例如：低延遲數據訪問比如以廣告為目標的應用，高並發的 web 應用比如網路游戲（例如 Zynga）

6. Neo4j

所用語言： Java
特點：基於關系的圖形資料庫
使用許可： GPL，其中一些特性使用 AGPL/商業許可
協議： HTTP/REST（或嵌入在 Java中）
可獨立使用或嵌入到 Java應用程序
圖形的節點和邊都可以帶有元數據
很好的自帶web管理功能
使用多種演算法支持路徑搜索
使用鍵值和關系進行索引
為讀操作進行優化
支持事務（用 Java api）
使用 Gremlin圖形遍歷語言
支持 Groovy腳本
支持在線備份，高級監控及高可靠性支持使用 AGPL/商業許可

最佳應用場景：適用於圖形一類數據。這是 Neo4j與其他nosql資料庫的最顯著區別

例如：社會關系，公共交通網路，地圖及網路拓譜

7. Cassandra

所用語言： Java
特點：對大型表格和 Dynamo支持得最好
使用許可： Apache
協議： Custom, binary (節約型)
可調節的分發及復制(N, R, W)
支持以某個范圍的鍵值通過列查詢
類似大表格的功能：列，某個特性的列集合
寫操作比讀操作更快
基於 Apache分布式平台盡可能地 Map/rece
我承認對 Cassandra有偏見，一部分是因為它本身的臃腫和復雜性，也因為 Java的問題（配置，出現異常，等等）

最佳應用場景：當使用寫操作多過讀操作（記錄日誌）如果每個系統組建都必須用 Java編寫（沒有人因為選用
Apache的軟體被解僱）

例如：銀行業，金融業（雖然對於金融交易不是必須的，但這些產業對資料庫的要求會比它們更大）寫比讀更快，所以一個自然的特性就是實時數據分析

8. HBase

（配合 ghshephard使用）

所用語言： Java
特點：支持數十億行X上百萬列
使用許可： Apache
協議：HTTP/REST （支持 Thrift，見編注4）
在 BigTable之後建模
採用分布式架構 Map/rece
對實時查詢進行優化
高性能 Thrift網關
通過在server端掃描及過濾實現對查詢操作預判
支持 XML, Protobuf, 和binary的HTTP
Cascading, hive, and pig source and sink moles
基於 Jruby（ JIRB）的shell
對配置改變和較小的升級都會重新回滾
不會出現單點故障
堪比MySQL的隨機訪問性能

最佳應用場景：適用於偏好BigTable:)並且需要對大數據進行隨機、實時訪問的場合。

例如： Facebook消息資料庫（更多通用的用例即將出現）

編注4：Thrift
是一種介面定義語言，為多種其他語言提供定義和創建服務，由Facebook開發並開源。

當然，所有的系統都不只具有上面列出的這些特性。這里我僅僅根據自己的觀點列出一些我認為的重要特性。與此同時，技術進步是飛速的，所以上述的內容肯定需要不斷更新。我會盡我所能地更新這個列表。

⑸ 如何設置redis一秒鍾持久化一次

此外，我還討論過較為常見的基於伺服器的數據存儲，比如MongoDB和CouchDB。每個數據存儲都有其優勢和劣勢，特別是當應用於特定領域時。本期的Java開發2.0關注的是Redis，一種輕量級鍵值對數據存儲。多數NoSQL實現本質上都是鍵值對，但是Redis支持非常豐富的值集，其中包括字元串、列表、集以及散列。因此，Redis通常被稱為數據結構伺服器。Redis也以異常快速而聞名，這使得它成為某一特定類型使用案例的最優選擇。當我們想要了解一種新事物時，將其同熟知的事物進行比較可能會有所幫助，因此，我們將通過對比其與memcached的相似性以開啟Redis探索之旅。接著我們將介紹Redis的主要功能，這些功能可以使其在某些應用場景可以勝過memcached。最後我將向您展示如何將Redis作為一個傳統數據存儲用於模型對象。Redis和memcachedMemcached是一個眾所周知的內存對象緩存系統，通過將目標鍵和值導入內存緩存運行。因此，Memcached能迴避讀取磁碟時發生的I/O成本問題。在Web應用程序和資料庫之間粘貼memcached時會產生更好的讀取性能。因此，對於那些需要快速數據查詢的應用程序，Memcached是一個不錯的選擇。其中的一個例子為股票查詢服務，需要另外訪問資料庫獲取相對靜態數據，如股票名稱或價格信息。MemcacheDB將Redis與memcached相比較並不公平，它與MemcacheDB相比要好的多，MemcacheDB是一個分布式鍵值對存儲系統，專為數據持久化而設計。MemcacheDB與Redis較為相似，其新增優勢可以使其輕松地與memcached實現的客戶端進行通信。但是memcached也有其局限性，其中一個事實就是它所有的值均是簡單的字元串。Redis作為memcached的替代者，支持更加豐富的功能集。一些基準(benchmarks)也表明Redis的速度要比memcached快很多。Redis提供的豐富數據類型使其可以在內存中存儲更為復雜的數據，這是使用memcached無法實現的。同memcached不一樣，Redis可以持久化其數據。Redis解決了一個重大的緩存問題，而其豐富的功能集又為其找到了其他用途。由於Redis能夠在磁碟上存儲數據以及跨節點復制數據，因而可以作為數據倉庫用於傳統數據模式（也就是說，您可以使用Redis，就像使用RDBMS一樣）。Redis還經常被用作隊列系統。在本用例中，Redis是備份和工作隊列持久化存儲（利用Redis的列表類型）的基礎。GitHub是以此種方法使用Redis的大規模基礎架構示例准備好Redis，立即開始!要開始使用Redis，您需要訪問它，可以通過本地安裝或者託管供應商來實現訪問。如果您使用的MAC，安裝過程可能就不那麼簡單。如果您使用的是Windows??，您需要先安裝Cygwin。如果您正在尋找一個託管供應商，Redis4You擁有一個免費計劃。不管您以何種方式訪問，您都能夠根據本文下列示例進行操作，但是我需要指出的是，使用一個託管供應商進行緩存可能並不是很好的緩存解決方案，因為網路延遲可能會抵消任何性能優勢。您需要通過命令與Redis進行交互，這就是說，這里沒有SQL類查詢語言。使用Redis工作非常類似於使用傳統map數據結構，即所有的一切都擁有一個鍵和一個值，每個值都有多種與之關聯的數據類型。每個數據類型都有其自己的命令集。例如，如果您計劃使用簡單數據類型，比如某種緩存模式，您可以使用命令set和get。您可以通過命令行shell與一個Reids實例進行交互。還有多個客戶端實現，可以以編程方式與Redis進行交互。清單1展示了一個使用基礎命令的簡單命令行shell交互：清單1.使用基礎的Redis命令redis127.0.0.1:6379>setpageregistrationOKredis127.0.0.1:6379>keys*1)"foo"2)"page"redis127.0.0.1:6379>getpage"registration"在這里，我通過set命令將鍵"page"與值"registration"相關聯。接著，我發出keys命令（後綴*表示我想看到所有可用的實例鍵。keys命令顯示有一個page值和一個foo，我可以通過get命令檢索到與一個鍵關聯的值。請記住，使用get檢索到的值只能是一個字元串。如果一個鍵的值是一個列表，那麼您必須使用一個特定列表的命令來檢索列表元素。（注意，有可以查詢值類型的命令）。Java與Jedis集成對於那些想要將Redis集成到Java應用程序的編程人員，Redis團隊建議使用一個名為Jedis的項目，Jedis是一個輕量級庫，可以將本地Redis命令映射到Java方法。例如Jedis可以獲取並設置簡單值，如清單2所示：清單2.Java代碼中的基礎Redis命令JedisPoolpool=newJedisPool(newJedisPoolConfig(),"localhost");Jedisjedis=pool.getResource();jedis.set("foo","bar");Stringfoobar=jedis.get("foo");assertfoobar.equals("bar");pool.returnResource(jedis);pool.destroy();在清單2中，我配置了一個連接池並捕獲連接，（與您在典型JDBC場景中的操作非常相似）然後我在清單的底部設置了返回操作。在連接池邏輯之間，我設置了值"bar"和鍵"foo"，這是我通過get命令檢索到的。與memcached類似，Redis允許您將過期（expiration）時間關聯到一個值。因此我設置了這樣一個值（比如，股票臨時交易價格），最終將從Redis緩存中清除掉。如果我想在Jedis中設置一個過期時間，需要在發出set調用之後將其和一個過期時間關聯。如清單3所示：清單3.Redis值可以設置為終止jedis.set("gone","daddy,gone");jedis.expire("gone",10);Stringthere=jedis.get("gone");assertthere.equals("daddy,gone");Thread.sleep(4500);StringnotThere=jedis.get("gone");assertnotThere==null;在清單3中，我使用了一個expire調用將"gone"的值設置為在10秒鍾內終止。調用Thread.sleep之後，"gone"的get調用會返回null。Redis中的數據類型使用Redis數據類型，比如列表和散列需要專用命令用法。例如，我可以通過為鍵附加值來創建列表。

⑹ 華為大數據解決方案是什麼

大數據解決方案的邏輯層

邏輯層提供了一種組織您的組件的方式。這些層提供了一種方法來組織執行特定功能的組件。這些層只是邏輯層；這並不意味著支持每層的功能在獨立的機器或獨立的進程上運行。大數據解決方案通常由以下邏輯層組成：

1、大數據來源

2、數據改動 (massaging) 和存儲層

3、分析層

4、使用層

結束語

對開發人員而言，層提供了一種對大數據解決方案必須執行的功能進行分類的途徑，為組織建議必需執行這些功能所需的代碼。但是，對於想要從大數據獲取洞察的業務用戶，考慮大數據需求和范圍通常會有所幫助。原子模式解決了訪問、處理、存儲和使用大數據的機制，為業務用戶提供了一種解決需求和范圍的途徑。下一篇文章將介紹用於此用途的原子模式。

⑺ 什麼是大數據時代

大數據時代

（巨量資料（IT行業術語））
編輯
最早提出「大數據」時代到來的是全球知名咨詢公司麥肯錫，麥肯錫稱：「數據，已經滲透到當今每一個行業和業務職能領域，成為重要的生產因素。人們對於海量數據的挖掘和運用，預示著新一波生產率增長和消費者盈餘浪潮的到來。」「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日，卻因為近年來互聯網和信息行業的發展而引起人們關注。
中文名
大數據時代
外文名
Big data
提出者
麥肯錫
類屬
科技名詞
目錄
1 產生背景
2 影響
▪ 大數據
▪ 大數據的精髓
▪ 數據價值
▪ 可視化
3 特徵
4 案例分析
5 產業崛起
6 提供依據
7 應對措施

產生背景
編輯

進入2012年，大數據（big data）一詞越來越多地被提及，人們用它來描述和定義信息爆炸時代產生的海量數
大數據時代來臨
據，並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面，進入美國白宮官網的新聞，現身在國內一些互聯網主題的講座沙龍中，甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。[1]
數據正在迅速膨脹並變大，它決定著企業的未來發展，雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患，但是隨著時間的推移，人們將越來越多的意識到數據對企業的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱，「大數據」時代已經降臨，在商業、經濟及其他領域中，決策將日益基於數據和分析而作出，而並非基於經驗和直覺。
哈佛大學社會學教授加里·金說：「這是一場革命，龐大的數據資源使得各個領域開始了量化進程，無論學術界、商界還是政府，所有領域都將開始這種進程。」[2]

影響
編輯

大數據
現在的社會是一個高速發展的社會，科技發達，信息流通，人們之間的交流越來越密切，生活也越來越方便，大數據就是這個高科技時代的產物。[3]
隨著雲時代的來臨，大數據（Big data）也吸引了越來越多的關注。大數據（Big data）通常用來形容一個公司創造的大量非結構化和半結構化數據，這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起，因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。[2]
在現今的社會，大數據的應用越來越彰顯他的優勢，它佔領的領域也越來越大，電子商務、O2O、物流配送等，各種利用大數據進行發展的領域正在協助企業不斷地發展新業務，創新運營模式。有了大數據這個概念，對於消費者行為的判斷，產品銷售量的預測，精確的營銷范圍以及存貨的補給已經得到全面的改善與優化。[4]
「大數據」在互聯網行業指的是這樣一種現象：互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大，以至於不能用G或T來衡量。
大數據到底有多大？一組名為「互聯網上一天」的數據告訴我們，一天之中，互聯網產生的全部內容可以刻滿1.68億張DVD；發出的郵件有2940億封之多（相當於美國兩年的紙質信件數量）；發出的社區帖子達200萬個（相當於《時代》雜志770年的文字量）；賣出的手機為37.8萬台，高於全球每天出生的嬰兒數量37.1萬……[1]
截止到2012年，數據量已經從TB（1024GB=1TB）級別躍升到PB（1024TB=1PB）、EB（1024PB=1EB）乃至ZB(1024EB=1ZB)級別。國際數據公司（IDC）的研究結果表明，2008年全球產生的數據量為0.49ZB，2009年的數據量為0.8ZB，2010年增長為1.2ZB，2011年的數量更是高達1.82ZB，相當於全球每人產生200GB以上的數據。而到2012年為止，人類生產的所有印刷材料的數據量是200PB，全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱，整個人類文明所獲得的全部數據中，有90%是過去兩年內產生的。而到了2020年，全世界所產生的數據規模將達到今天的44倍。[5] 每一天，全世界會上傳超過5億張圖片，每分鍾就有20小時時長的視頻被分享。然而，即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在內的各種通信，以及上傳的全部圖片、視頻與音樂，其信息量也無法匹及每一天所創造出的關於人們自身的數字信息量。
這樣的趨勢會持續下去。我們現在還處於所謂「物聯網」的最初級階段，而隨著技術成熟，我們的設備、交通工具和迅速發展的「可穿戴」科技將能互相連接與溝通。科技的進步已經使創造、捕捉和管理信息的成本降至2005年的六分之一，而從2005年起，用在硬體、軟體、人才及服務之上的商業投資也增長了整整50%，達到了4000億美元。[5]

大數據的精髓
大數據帶給我們的三個顛覆性觀念轉變：是全部數據，而不是隨機采樣；是大體方向，而不是精確制導；是相關關系，而不是因果關系。[6]
A.不是隨機樣本，而是全體數據：在大數據時代，我們可以分析更多的數據，有時候甚至可以處理和某個特別現象相關的所有數據，而不再依賴於隨機采樣(隨機采樣，以前我們通常把這看成是理所應當的限制，但高性能的數字技術讓我們意識到，這其實是一種人為限制);
B.不是精確性，而是混雜性：研究數據如此之多，以至於我們不再熱衷於追求精確度;之前需要分析的數據很少，所以我們必須盡可能精確地量化我們的記錄，隨著規模的擴大，對精確度的痴迷將減弱;擁有了大數據，我們不再需要對一個現象刨根問底，只要掌握了大體的發展方向即可，適當忽略微觀層面上的精確度，會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系，而是相關關系：我們不再熱衷於找因果關系，尋找因果關系是人類長久以來的習慣，在大數據時代，我們無須再緊盯事物之間的因果關系，而應該尋找事物之間的相關關系;相關關系也許不能准確地告訴我們某件事情為何會發生，但是它會提醒我們這件事情正在發生。

數據價值
大數據時代，什麼最貴?
十年前，葛大爺曾說過，「21世紀什麼最貴?」——「人才」，深以為然。只是，十年後的今天，大數據時代也帶來了身價不斷翻番的各種數據。由於急速拓展的網路帶寬以及各種穿戴設備所帶來的大量數據，數據的增長從未停歇，甚至呈井噴式增長。[7]
一分鍾內，微博推特上新發的數據量超過10萬；社交網路「臉譜」的瀏覽量超過600萬……
這些龐大數字，意味著什麼？
它意味著，一種全新的致富手段也許就擺在面前，它的價值堪比石油和黃金。
事實上，當你仍然在把微博等社交平台當作抒情或者發議論的工具時，華爾街的斂財高手們卻正在挖掘這些互聯網的「數據財富」，先人一步用其預判市場走勢，而且取得了不俗的收益。
讓我們一起來看看——他們是怎麼做的。
這些數據都能幹啥。具體有六大價值：
●1、華爾街根據民眾情緒拋售股票；
●2、對沖基金依據購物網站的顧客評論，分析企業產品銷售狀況；
●3、銀行根據求職網站的崗位數量，推斷就業率；
●4、投資機構搜集並分析上市企業聲明，從中尋找破產的蛛絲馬跡；
●5、美國疾病控制和預防中心依據網民搜索，分析全球范圍內流感等病疫的傳播狀況；
●6、美國總統奧巴馬的競選團隊依據選民的微博，實時分析選民對總統競選人的喜好。[1]

可視化
「數據是新的石油。」亞馬遜前任首席科學家Andreas Weigend說。Instagram以10億美元出售之時，成立於1881年的世界最大影像產品及服務商柯達正申請破產。
大數據是如此重要，以至於其獲取、儲存、搜索、共享、分析，乃至可視化地呈現，都成為了當前重要的研究課題[1] 。
「當時時變幻的、海量的數據出現在眼前，是怎樣一幅壯觀的景象？在後台注視著這一切，會不會有接近上帝俯視人間星火的感覺？」
這個問題我曾請教過劉建國，中國著名的搜索引擎專家。劉曾主持開發過國內第一個大規模中英文搜索引擎系統「天網」。
要知道，劉建國曾任至網路的首席技術官，在這樣一家每天需應對網民各種搜索請求1.7億次（2013年約為8.77億次）的網站中，如果只是在後台靜靜端坐，可能片刻都不能安心吧。網路果然在提供搜索服務之外，逐漸增添了網路指數，後又建立了基於網民搜索數據的重要產品「貼吧」及網路統計產品等。
劉建國沒有直接回答這個問題，他想了很久，似乎陷入了回憶，嘴角的笑容含著詭秘。
倒是有公司已經在大數據中有接近上帝俯視的感覺，美國洛杉磯就有企業宣稱，他們將全球夜景的歷史數據建立模型，在過濾掉波動之後，做出了投資房地產和消費的研究報告。
在數據可視化呈現方面，我最新接收到的故事是，一位在美國思科物流部門工作的朋友，很聰明的印度裔小夥子，被Facebook高價挖角，進入其數據研究小組。他後來驚訝地發現，裡面全是來自物流企業、供應鏈方面的技術人員和專家，「Facebook想知道，能不能用物流的角度和流程的方式，分析用戶的路徑和行為。」

特徵
編輯
數據量大（Volume）
第一個特徵是數據量大。大數據的起始計量單位至少是P（1000個T）、E（100萬個T）或Z（10億個T）。
類型繁多（Variety）
第二個特徵是數據類型繁多。包括網路日誌、音頻、視頻、圖片、地理位置信息等等，多類型的數據對數據的處理能力提出了更高的要求。
價值密度低（Value）
第三個特徵是數據價值密度相對較低。如隨著物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，如何通過強大的機器演算法更迅速地完成數據的價值「提純」，是大數據時代亟待解決的難題。
速度快、時效高（Velocity）
第四個特徵是處理速度快，時效性要求高。這是大數據區分於傳統數據挖掘最顯著的特徵。
既有的技術架構和路線，已經無法高效處理如此海量的數據，而對於相關組織來說，如果投入巨大採集的信息無法通過及時處理反饋有效信息，那將是得不償失的。可以說，大數據時代對人類的數據駕馭能力提出了新的挑戰，也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。[2]

案例分析
編輯
個案一
你開心他就買你焦慮他就拋[2]
華爾街「德溫特資本市場」公司首席執行官保羅·霍廷每天的工作之一，就是利用電腦程序分析全球3.4億微博賬戶的留言，進而判斷民眾情緒，再以「1」到「50」進行打分。根據打分結果，霍廷再決定如何處理手中數以百萬美元計的股票。
霍廷的判斷原則很簡單：如果所有人似乎都高興，那就買入；如果大家的焦慮情緒上升，那就拋售。
這一招收效顯著——當年第一季度，霍廷的公司獲得了7%的收益率。
個案二
國際商用機器公司（IBM）估測，這些「數據」值錢的地方主要在於時效。對於片刻便能定輸贏的華爾街，這一時效至關重要。曾經，華爾街2%的企業搜集微博等平台的「非正式」數據；如今，接近半數企業採用了這種手段。
●「社會流動」創業公司在「大數據」行業生機勃勃，和微博推特是合作夥伴。它分析數據，告訴廣告商什麼是正確的時間，誰是正確的用戶，什麼是應該發表的正確內容，備受廣告商熱愛。
●通過喬希·詹姆斯的Omniture（著名的網頁流量分析工具）公司，你可以知道有多少人訪問你的網站，以及他們呆了多長時間——這些數據對於任何企業來說都至關重要。詹姆斯把公司賣掉，進賬18億美元。
●微軟專家吉拉德喜歡把這些「大數據」結果可視化：他把客戶請到辦公室，將包含這些公司的數據圖譜展現出來——有些是普通的時間軸，有些像蒲公英，有些則是鋪滿整個畫面的泡泡，泡泡中顯示這些客戶的粉絲正在談論什麼話題。
●「臉譜」數據分析師傑弗遜的工作就是搭建數據分析模型，弄清楚用戶點擊廣告的動機和方式。
處理和分析工具
用於分析大數據的工具主要有開源與商用兩個生態圈。
開源大數據生態圈：
1、Hadoop HDFS、HadoopMapRece, HBase、Hive 漸次誕生，早期Hadoop生態圈逐步形成。
2、. Hypertable是另類。它存在於Hadoop生態圈之外，但也曾經有一些用戶。
3、NoSQL，membase、MongoDb
商用大數據生態圈：
1、一體機資料庫/數據倉庫：IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數據倉庫：TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數據集市：QlikView、 Tableau 、以及國內的Yonghong Data Mart 。

產業崛起
編輯
越來越多的政府、企業等機構開始意識到數據正在成為組織最重要的資產，數據分析能力正在成為組織的核心競爭力。具體有以下三大案例：
1、2012年3月22日，奧巴馬政府宣布投資2億美元拉動大數據相關產業發展，將「大數據戰略」上升為國家意志。奧巴馬政府將數據定義為「未來的新石油」，並表示一個國家擁有數據的規模、活性及解釋運用的能力將成為綜合國力的重要組成部分，未來，對數據的佔有和控制甚至將成為陸權、海權、空權之外的另一種國家核心資產。
2、聯合國也在2012年發布了大數據政務白皮書，指出大數據對於聯合國和各國政府來說是一個歷史性的機遇，人們如今可以使用極為豐富的數據資源，來對社會經濟進行前所未有的實時分析，幫助政府更好地響應社會和經濟運行。
3、而最為積極的還是眾多的IT企業。麥肯錫在一份名為《大數據，是下一輪創新、競爭和生產力的前沿》的專題研究報告中提出，「對於企業來說，海量數據的運用將成為未來競爭和增長的基礎」，該報告在業界引起廣泛反響。
IBM則提出，上一個十年，他們拋棄了PC，成功轉向了軟體和服務，而這次將遠離服務與咨詢，更多地專注於因大數據分析軟體而帶來的全新業務增長點。IBM執行總裁羅睿蘭認為，「數據將成為一切行業當中決定勝負的根本因素，最終數據將成為人類至關重要的自然資源。」
在國內，網路已經致力於開發自己的大數據處理和存儲系統；騰訊也提出2013年已經到了數據化運營的黃金時期，如何整合這些數據成為未來的關鍵任務。
事實上，自2009年以來，有關「大數據」主題的並購案層出不窮，且並購數量和規模呈逐步上升的態勢。其中，Oracle對Sun、惠普對Autonomy兩大並購案總金額高達176億美元，大數據的產業價值由此可見一斑。[1-2]

提供依據
編輯
大數據是信息通信技術發展積累至今，按照自身技術發展邏輯，從提高生產效率向更高級智能階段的自然生長。無處不在的信息感知和採集終端為我們採集了海量的數據，而以雲計算為代表的計算技術的不斷進步，為我們提供了強大的計算能力，這就圍繞個人以及組織的行為構建起了一個與物質世界相平行的數字世界[1-2] 。
大數據雖然孕育於信息通信技術的日漸普遍和成熟，但它對社會經濟生活產生的影響絕不限於技術層面，更本質上，它是為我們看待世界提供了一種全新的方法，即決策行為將日益基於數據分析做出，而不是像過去更多憑借經驗和直覺做出。
事實上，大數據的影響並不僅僅限於信息通信產業，而是正在「吞噬」和重構很多傳統行業，廣泛運用數據分析手段管理和優化運營的公司其實質都是一個數據公司。麥當勞、肯德基以及蘋果公司等旗艦專賣店的位置都是建立在數據分析基礎之上的精準選址。而在零售業中，數據分析的技術與手段更是得到廣泛的應用，傳統企業如沃爾瑪通過數據挖掘重塑並優化供應鏈，新崛起的電商如卓越亞馬遜、淘寶等則通過對海量數據的掌握和分析，為用戶提供更加專業化和個性化的服務。
最讓人吃驚的例子是，社交媒體監測平台DataSift監測了Facebook（臉譜） IPO當天Twitter上的情感傾向與Facebook股價波動的關聯。在Facebook開盤前Twitter上的情感逐漸轉向負面，25分鍾之後Facebook的股價便開始下跌。而當Twitter上的情感轉向正面時，Facebook股價在8分鍾之後也開始了回彈。最終當股市接近收盤、Twitter上的情感轉向負面時，10分鍾後Facebook的股價又開始下跌。最終的結論是：Twitter上每一次情感傾向的轉向都會影響Facebook股價的波動。
這僅僅只是基於社交網路產生的大數據「預見未來」的眾多案例之一，此外還有谷歌通過網民搜索行為預測流感爆發等例子。不僅在商業方面，大數據在社會建設方面的作為同樣令人驚嘆，智能電網、智慧交通、智慧醫療、智慧環保、智慧城市等的蓬勃興起，都與大數據技術與應用的發展息息相關。
「大數據」可能帶來的巨大價值正漸漸被人們認可，它通過技術的創新與發展，以及數據的全面感知、收集、分析、共享，為人們提供了一種全新的看待世界的方法。更多地基於事實與數據做出決策，這樣的思維方式，可以預見，將推動一些習慣於靠「差不多」運行的社會發生巨大變革。

應對措施
編輯
一個好的企業應該未雨綢繆，從現在開始就應該著手准備，為企業的後期的數據收集和分析做好准備，企業可以從下面六個方面著手，這樣當面臨鋪天蓋地的大數據的時候，以確保企業能夠快速發展，具體為下面六點。
目標
幾乎每個組織都可能有源源不斷的數據需要收集，無論是社交網路還是車間感測器設備，而且每個組織都有大量的數據需要處理，IT人員需要了解自己企業運營過程中都產生了什麼數據，以自己的數據為基準，確定數據的范圍。
准則
雖然每個企業都會產生大量數據，而且互不相同、多種多樣的，這就需要企業IT人員在現在開始收集確認什麼數據是企業業務需要的，找到最能反映企業業務情況的數據。
重新評估
大數據需要在伺服器和存儲設施中進行收集，並且大多數的企業信息管理體系結構將會發生重要大變化，IT經理則需要准備擴大他們的系統，以解決數據的不斷擴大，IT經理要了解公司現有IT設施的情況，以組建處理大數據的設施為導向，避免一些不必要的設備的購買。
重視大數據技術
大數據是最近幾年才興起的詞語，而並不是所有的IT人員對大數據都非常了解，例如如今的Hadoop，MapRece，NoSQL等技術都是2013年剛興起的技術，企業IT人員要多關注這方面的技術和工具，以確保將來能夠面對大數據的時候做出正確的決定。
培訓企業的員工
大多數企業最缺乏的是人才，而當大數據到臨的時候，企業將會缺少這方面的採集收集分析方面的人才，對於一些公司，特別是那種人比較少的公司，工作人員面臨大數據將是一種挑戰，企業要在平時的時候多對員工進行這方面的培訓，以確保在大數據到來時，員工也能適應相關的工作。
培養三種能力
Teradata大中華區首席執行官辛兒倫對新浪科技表示，隨著大數據時代的到來，企業應該在內部培養三種能力。第一，整合企業數據的能力；第二，探索數據背後價值和制定精確行動綱領的能力；第三，進行精確快速實時行動的能力。
做到上面的幾點，當大數據時代來臨的時候，面臨大量數據將不是束手無策，而是成竹在胸，而從數據中得到的好處也將促進企業快速發展。
望採納，謝謝

⑻ 如何運用大數據

1.可視化分析
大數據分析的使用者有大數據分析專家，同時還有普通用戶，但是他們二者對於大數據分析最基本的要求就是可視化分析，因為可視化分析能夠直觀的呈現大數據特點，同時能夠非常容易被讀者所接受，就如同看圖說話一樣簡單明了。
2. 數據挖掘演算法

大數據分析的理論核心就是數據挖掘演算法，各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點，也正是因為這些被全世界統
計
學家所公認的各種統計方法（可以稱之為真理）才能深入數據內部，挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據，如
果一個演算法得花上好幾年才能得出結論，那大數據的價值也就無從說起了。
3. 預測性分析
大數據分析最終要的應用領域之一就是預測性分析，從大數據中挖掘出特點，通過科學的建立模型，之後便可以通過模型帶入新的數據，從而預測未來的數據。
4. 語義引擎
非結構化數據的多元化給數據分析帶來新的挑戰，我們需要一套工具系統的去分析，提煉數據。語義引擎需要設計到有足夠的人工智慧以足以從數據中主動地提取信息。
5.數據質量和數據管理。大數據分析離不開數據質量和數據管理，高質量的數據和有效的數據管理，無論是在學術研究還是在商業應用領域，都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面，當然更加深入大數據分析的話，還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。

大數據的技術
數據採集： ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成，最後載入到數據倉庫或數據集市中，成為聯機分析處理、數據挖掘的基礎。
數據存取：關系資料庫、NOSQL、SQL等。
基礎架構：雲存儲、分布式文件存儲等。
數
據處理：自然語言處理(NLP，Natural Language
Processing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機」理解」自然語言，所以自然語言處理又叫做自然語言理
解也稱為計算語言學。一方面它是語言信息處理的一個分支，另一方面它是人工智慧的核心課題之一。
統計分析：
假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、
卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、
因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析（最優尺度分析）、bootstrap技術等等。
數
據挖掘：分類
（Classification）、估計（Estimation）、預測（Prediction）、相關性分組或關聯規則（Affinity
grouping or association rules）、聚類（Clustering）、描述和可視化、Description and
Visualization）、復雜數據類型挖掘(Text, Web ,圖形圖像，視頻，音頻等)
模型預測：預測模型、機器學習、建模模擬。
結果呈現：雲計算、標簽雲、關系圖等。

大數據的處理
1. 大數據處理之一：採集
大
數據的採集是指利用多個資料庫來接收發自客戶端（Web、App或者感測器形式等）的
數據，並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如，電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據，除
此之外，Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中，其主要特點和挑戰是並發數高，因為同時
有可能會有成千上萬的用戶
來進行訪問和操作，比如火車票售票網站和淘寶，它們並發的訪問量在峰值時達到上百萬，所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間
進行負載均衡和分片的確是需要深入的思考和設計。
2. 大數據處理之二：導入/預處理
雖然採集端本身會有很多資料庫，但是如果要對這些
海量數據進行有效的分析，還是應該將這
些來自前端的數據導入到一個集中的大型分布式資料庫，或者分布式存儲集群，並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使
用來自Twitter的Storm來對數據進行流式計算，來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大，每秒鍾的導入量經常會達到百兆，甚至千兆級別。
3. 大數據處理之三：統計/分析
統
計與分析主要利用分布式資料庫，或者分布式計算集群來對存儲於其內的海量數據進行普通
的分析和分類匯總等，以滿足大多數常見的分析需求，在這方面，一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata，以及基於
MySQL的列式存儲Infobright等，而一些批處理，或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大，其對系統資源，特別是I/O會有極大的佔用。
4. 大數據處理之四：挖掘
與
前面統計和分析過程不同的是，數據挖掘一般沒有什麼預先設定好的主題，主要是在現有數
據上面進行基於各種演算法的計算，從而起到預測（Predict）的效果，從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於

統計學習的SVM和用於分類的NaiveBayes，主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜，並
且計算涉及的數據量和計算量都很大，常用數據挖掘演算法都以單線程為主。

整個大數據處理的普遍流程至少應該滿足這四個方面的步驟，才能算得上是一個比較完整的大數據處理。

⑼ Python爬蟲可以爬取什麼

Python爬蟲可以爬取的東西有很多，Python爬蟲怎麼學？簡單的分析下：

如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，互聯網可以獲取的數據越來越多，另一方面，像 Python這樣的編程語言提供越來越多的優秀工具，讓爬蟲變得簡單、容易上手。

利用爬蟲我們可以獲取大量的價值數據，從而獲得感性認識中不能得到的信息，比如：

知乎：爬取優質答案，為你篩選出各話題下最優質的內容。
淘寶、京東：抓取商品、評論及銷量數據，對各種商品及用戶的消費場景進行分析。
安居客、鏈家：抓取房產買賣及租售信息，分析房價變化趨勢、做不同區域的房價分析。
拉勾網、智聯：爬取各類職位信息，分析各行業人才需求情況及薪資水平。
雪球網：抓取雪球高回報用戶的行為，對股票市場進行分析和預測。

爬蟲是入門Python最好的方式，沒有之一。Python有很多應用的方向，比如後台開發、web開發、科學計算等等，但爬蟲對於初學者而言更友好，原理簡單，幾行代碼就能實現基本的爬蟲，學習的過程更加平滑，你能體會更大的成就感。

掌握基本的爬蟲後，你再去學習Python數據分析、web開發甚至機器學習，都會更得心應手。因為這個過程中，Python基本語法、庫的使用，以及如何查找文檔你都非常熟悉了。

對於小白來說，爬蟲可能是一件非常復雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python，然後哼哧哼哧系統學習 Python 的每個知識點，很久之後發現仍然爬不了數據；有的人則認為先要掌握網頁的知識，遂開始 HTMLCSS，結果入了前端的坑，瘁……

但掌握正確的方法，在短時間內做到能夠爬取主流網站的數據，其實非常容易實現，但建議你從一開始就要有一個具體的目標。

在目標的驅動下，你的學習才會更加精準和高效。那些所有你認為必須的前置知識，都是可以在完成目標的過程中學到的。這里給你一條平滑的、零基礎快速入門的學習路徑。

1.學習 Python 包並實現基本的爬蟲過程
2.了解非結構化數據的存儲
3.學習scrapy，搭建工程化爬蟲
4.學習資料庫知識，應對大規模數據存儲與提取
5.掌握各種技巧，應對特殊網站的反爬措施
6.分布式爬蟲，實現大規模並發採集，提升效率

一

學習 Python 包並實現基本的爬蟲過程

大部分爬蟲都是按「發送請求——獲得頁面——解析頁面——抽取並儲存內容」這樣的流程來進行，這其實也是模擬了我們使用瀏覽器獲取網頁信息的過程。

Python中爬蟲相關的包很多：urllib、requests、bs4、scrapy、pyspider 等，建議從requests+Xpath 開始，requests 負責連接網站，返回網頁，Xpath 用於解析網頁，便於抽取數據。

如果你用過 BeautifulSoup，會發現 Xpath 要省事不少，一層一層檢查元素代碼的工作，全都省略了。這樣下來基本套路都差不多，一般的靜態網站根本不在話下，豆瓣、糗事網路、騰訊新聞等基本上都可以上手了。

當然如果你需要爬取非同步載入的網站，可以學習瀏覽器抓包分析真實請求或者學習Selenium來實現自動化，這樣，知乎、時光網、貓途鷹這些動態的網站也可以迎刃而解。

二

了解非結構化數據的存儲

爬回來的數據可以直接用文檔形式存在本地，也可以存入資料庫中。

開始數據量不大的時候，你可以直接通過 Python 的語法或 pandas 的方法將數據存為csv這樣的文件。

當然你可能發現爬回來的數據並不是干凈的，可能會有缺失、錯誤等等，你還需要對數據進行清洗，可以學習 pandas 包的基本用法來做數據的預處理，得到更干凈的數據。

三

學習 scrapy，搭建工程化的爬蟲

掌握前面的技術一般量級的數據和代碼基本沒有問題了，但是在遇到非常復雜的情況，可能仍然會力不從心，這個時候，強大的 scrapy 框架就非常有用了。

scrapy 是一個功能非常強大的爬蟲框架，它不僅能便捷地構建request，還有強大的 selector 能夠方便地解析 response，然而它最讓人驚喜的還是它超高的性能，讓你可以將爬蟲工程化、模塊化。

學會 scrapy，你可以自己去搭建一些爬蟲框架，你就基本具備爬蟲工程師的思維了。

四

學習資料庫基礎，應對大規模數據存儲

爬回來的數據量小的時候，你可以用文檔的形式來存儲，一旦數據量大了，這就有點行不通了。所以掌握一種資料庫是必須的，學習目前比較主流的 MongoDB 就OK。

MongoDB 可以方便你去存儲一些非結構化的數據，比如各種評論的文本，圖片的鏈接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。

因為這里要用到的資料庫知識其實非常簡單，主要是數據如何入庫、如何進行提取，在需要的時候再學習就行。

五

掌握各種技巧，應對特殊網站的反爬措施

當然，爬蟲過程中也會經歷一些絕望啊，比如被網站封IP、比如各種奇怪的驗證碼、userAgent訪問限制、各種動態載入等等。

遇到這些反爬蟲的手段，當然還需要一些高級的技巧來應對，常規的比如訪問頻率控制、使用代理IP池、抓包、驗證碼的OCR處理等等。

往往網站在高效開發和反爬蟲之間會偏向前者，這也為爬蟲提供了空間，掌握這些應對反爬蟲的技巧，絕大部分的網站已經難不到你了.

六

分布式爬蟲，實現大規模並發採集

爬取基本數據已經不是問題了，你的瓶頸會集中到爬取海量數據的效率。這個時候，相信你會很自然地接觸到一個很厲害的名字：分布式爬蟲。

分布式這個東西，聽起來很恐怖，但其實就是利用多線程的原理讓多個爬蟲同時工作，需要你掌握 Scrapy + MongoDB + Redis 這三種工具。

Scrapy 前面我們說過了，用於做基本的頁面爬取，MongoDB 用於存儲爬取的數據，Redis 則用來存儲要爬取的網頁隊列，也就是任務隊列。

所以有些東西看起來很嚇人，但其實分解開來，也不過如此。當你能夠寫分布式的爬蟲的時候，那麼你可以去嘗試打造一些基本的爬蟲架構了，實現一些更加自動化的數據獲取。

你看，這一條學習路徑下來，你已然可以成為老司機了，非常的順暢。所以在一開始的時候，盡量不要系統地去啃一些東西，找一個實際的項目（開始可以從豆瓣、小豬這種簡單的入手），直接開始就好。

因為爬蟲這種技術，既不需要你系統地精通一門語言，也不需要多麼高深的資料庫技術，高效的姿勢就是從實際的項目中去學習這些零散的知識點，你能保證每次學到的都是最需要的那部分。

當然唯一麻煩的是，在具體的問題中，如何找到具體需要的那部分學習資源、如何篩選和甄別，是很多初學者面臨的一個大問題。

以上就是我的回答，希望對你有所幫助，望採納。

⑽ 什麼是金融數據

怎麼給你說呢，學術化的定義很多，通俗點的例子，某隻股票一段時期的價格數據按既定的時間順序排列就可以稱之為一種金融時間序列數據。

導航:首頁 > 數據行情 > mangodb股票資料庫

mangodb股票資料庫

與mangodb股票資料庫相關的資料