mangodb股票数据库_Python爬虫可以爬取什么

⑴ 段友们，有没有比较好看的直播软件.求推荐

不得用于商业用途，请在下载后24小时内删除

⑵ Quant 应该学习哪些 Python 知识

1. 如果还需要Deep Learning方面的东西的话，可以考虑Theano或者Keras。这两个东西可能会用在分析新闻数据方面。不过不是很推荐使用这类方法去做量化模型，因为计算量实在是太大，成本很高。
2. 交易框架方面，除了vn.py，还推荐PyAlgoTrade框架，github上可以搜到。私以为这个框架比vn.py牛逼太多了，毕竟是一个在金融IT领域混迹近20年的老妖的作品，架构设计不是一般的优秀。
3. 国内的话，ricequant是个不错的选择，虽然使用的是Java，但是团队我见过，都是做金融IT出身的，基本上都有7、8年以上经验，底层功底非常扎实，做事情都很靠谱。现在他们也在考虑把SDK扩展到Python这边。
4. 国内的行情和交易接口，使用的是自己的协议（比如CTP接口使用的是FTD协议），而不是国际上广泛使用的FIX协议，并且都不开源。如果需要连接行情，还需要考虑将接口SDK为python封装一下。（修改：评论中有人提到很多券商也开放了FIX接口，不过似乎是在内网使用）
5. 有人谈到数据库了，这里我也说一下，对于高频tick级别的数据，其量级可以达到每天TB级别，普通的关系数据库是扛不住的。如果试图使用传统的关系数据库，比如Oracle之类的可以省省了。对付这种级别的数据，采用文件系统+内存索引会更好。不过这种场景，一般也就是机构里面能碰到了，个人quant可以不用考虑。

⑶ 10亿级别的数据库用什么比较好mysql合适吗

10亿级别的什么数据？

如果是关系型很强，而且数据很值钱的数据，例如顾客--交易--商品--金额一个系列的，那么这种很重要的数据，建议是 Oracle，因为数据丢不起啊。

如果是关系型强，但是数据不是很值钱的数据，例如 A股从开市以来，所有股票的每日，每小时，30分，15分，5分钟的行情数据。那么你可以使用 Mysql。反正丢了就重新导入一次。

如果是关系型不强，数据也不是很值钱的数据，例如论坛的帖子这一类的，那么用 mongodb 就更合适一些。

⑷ NoSQL自动生成上千万的数据可以有哪些方法

1. CouchDB

所用语言： Erlang
特点：DB一致性，易于使用
使用许可： Apache
协议： HTTP/REST
双向数据复制，
持续进行或临时处理，
处理时带冲突检查，
因此，采用的是master-master复制（见编注2）
MVCC – 写操作不阻塞读操作
可保存文件之前的版本
Crash-only（可靠的）设计
需要不时地进行数据压缩
视图：嵌入式映射/减少
格式化视图：列表显示
支持进行服务器端文档验证
支持认证
根据变化实时更新
支持附件处理
因此， CouchApps（独立的 js应用程序）
需要 jQuery程序库

最佳应用场景：适用于数据变化较少，执行预定义查询，进行数据统计的应用程序。适用于需要提供数据版本支持的应用程序。

例如： CRM、CMS系统。 master-master复制对于多站点部署是非常有用的。

（编注2：master-master复制：是一种数据库同步方法，允许数据在一组计算机之间共享数据，并且可以通过小组中任意成员在组内进行数据更新。）

2. Redis

所用语言：C/C++
特点：运行异常快
使用许可： BSD
协议：类 Telnet
有硬盘存储支持的内存数据库，
但自2.0版本以后可以将数据交换到硬盘（注意， 2.4以后版本不支持该特性！）
Master-slave复制（见编注3）
虽然采用简单数据或以键值索引的哈希表，但也支持复杂操作，例如 ZREVRANGEBYSCORE。
INCR & co （适合计算极限值或统计数据）
支持 sets（同时也支持 union/diff/inter）
支持列表（同时也支持队列；阻塞式 pop操作）
支持哈希表（带有多个域的对象）
支持排序 sets（高得分表，适用于范围查询）
Redis支持事务
支持将数据设置成过期数据（类似快速缓冲区设计）
Pub/Sub允许用户实现消息机制

最佳应用场景：适用于数据变化快且数据库大小可遇见（适合内存容量）的应用程序。

例如：股票价格、数据分析、实时数据搜集、实时通讯。

（编注3：Master-slave复制：如果同一时刻只有一台服务器处理所有的复制请求，这被称为
Master-slave复制，通常应用在需要提供高可用性的服务器集群。）

3. MongoDB

所用语言：C++
特点：保留了SQL一些友好的特性（查询，索引）。
使用许可： AGPL（发起者： Apache）
协议： Custom, binary（ BSON）
Master/slave复制（支持自动错误恢复，使用 sets 复制）
内建分片机制
支持 javascript表达式查询
可在服务器端执行任意的 javascript函数
update-in-place支持比CouchDB更好
在数据存储时采用内存到文件映射
对性能的关注超过对功能的要求
建议最好打开日志功能（参数 –journal）
在32位操作系统上，数据库大小限制在约2.5Gb
空数据库大约占 192Mb
采用 GridFS存储大数据或元数据（不是真正的文件系统）

最佳应用场景：适用于需要动态查询支持；需要使用索引而不是 map/rece功能；需要对大数据库有性能要求；需要使用
CouchDB但因为数据改变太频繁而占满内存的应用程序。

例如：你本打算采用 MySQL或 PostgreSQL，但因为它们本身自带的预定义栏让你望而却步。

4. Riak

所用语言：Erlang和C，以及一些Javascript
特点：具备容错能力
使用许可： Apache
协议： HTTP/REST或者 custom binary
可调节的分发及复制(N, R, W)
用 JavaScript or Erlang在操作前或操作后进行验证和安全支持。
使用JavaScript或Erlang进行 Map/rece
连接及连接遍历：可作为图形数据库使用
索引：输入元数据进行搜索（1.0版本即将支持）
大数据对象支持（ Luwak）
提供“开源”和“企业”两个版本
全文本搜索，索引，通过 Riak搜索服务器查询（ beta版）
支持Masterless多站点复制及商业许可的 SNMP监控

最佳应用场景：适用于想使用类似 Cassandra（类似Dynamo）数据库但无法处理
bloat及复杂性的情况。适用于你打算做多站点复制，但又需要对单个站点的扩展性，可用性及出错处理有要求的情况。

例如：销售数据搜集，工厂控制系统；对宕机时间有严格要求；可以作为易于更新的 web服务器使用。

5. Membase

所用语言： Erlang和C
特点：兼容 Memcache，但同时兼具持久化和支持集群
使用许可： Apache 2.0
协议：分布式缓存及扩展
非常快速（200k+/秒），通过键值索引数据
可持久化存储到硬盘
所有节点都是唯一的（ master-master复制）
在内存中同样支持类似分布式缓存的缓存单元
写数据时通过去除重复数据来减少 IO
提供非常好的集群管理 web界面
更新软件时软无需停止数据库服务
支持连接池和多路复用的连接代理

最佳应用场景：适用于需要低延迟数据访问，高并发支持以及高可用性的应用程序

例如：低延迟数据访问比如以广告为目标的应用，高并发的 web 应用比如网络游戏（例如 Zynga）

6. Neo4j

所用语言： Java
特点：基于关系的图形数据库
使用许可： GPL，其中一些特性使用 AGPL/商业许可
协议： HTTP/REST（或嵌入在 Java中）
可独立使用或嵌入到 Java应用程序
图形的节点和边都可以带有元数据
很好的自带web管理功能
使用多种算法支持路径搜索
使用键值和关系进行索引
为读操作进行优化
支持事务（用 Java api）
使用 Gremlin图形遍历语言
支持 Groovy脚本
支持在线备份，高级监控及高可靠性支持使用 AGPL/商业许可

最佳应用场景：适用于图形一类数据。这是 Neo4j与其他nosql数据库的最显着区别

例如：社会关系，公共交通网络，地图及网络拓谱

7. Cassandra

所用语言： Java
特点：对大型表格和 Dynamo支持得最好
使用许可： Apache
协议： Custom, binary (节约型)
可调节的分发及复制(N, R, W)
支持以某个范围的键值通过列查询
类似大表格的功能：列，某个特性的列集合
写操作比读操作更快
基于 Apache分布式平台尽可能地 Map/rece
我承认对 Cassandra有偏见，一部分是因为它本身的臃肿和复杂性，也因为 Java的问题（配置，出现异常，等等）

最佳应用场景：当使用写操作多过读操作（记录日志）如果每个系统组建都必须用 Java编写（没有人因为选用
Apache的软件被解雇）

例如：银行业，金融业（虽然对于金融交易不是必须的，但这些产业对数据库的要求会比它们更大）写比读更快，所以一个自然的特性就是实时数据分析

8. HBase

（配合 ghshephard使用）

所用语言： Java
特点：支持数十亿行X上百万列
使用许可： Apache
协议：HTTP/REST （支持 Thrift，见编注4）
在 BigTable之后建模
采用分布式架构 Map/rece
对实时查询进行优化
高性能 Thrift网关
通过在server端扫描及过滤实现对查询操作预判
支持 XML, Protobuf, 和binary的HTTP
Cascading, hive, and pig source and sink moles
基于 Jruby（ JIRB）的shell
对配置改变和较小的升级都会重新回滚
不会出现单点故障
堪比MySQL的随机访问性能

最佳应用场景：适用于偏好BigTable:)并且需要对大数据进行随机、实时访问的场合。

例如： Facebook消息数据库（更多通用的用例即将出现）

编注4：Thrift
是一种接口定义语言，为多种其他语言提供定义和创建服务，由Facebook开发并开源。

当然，所有的系统都不只具有上面列出的这些特性。这里我仅仅根据自己的观点列出一些我认为的重要特性。与此同时，技术进步是飞速的，所以上述的内容肯定需要不断更新。我会尽我所能地更新这个列表。

⑸ 如何设置redis一秒钟持久化一次

此外，我还讨论过较为常见的基于服务器的数据存储，比如MongoDB和CouchDB。每个数据存储都有其优势和劣势，特别是当应用于特定领域时。本期的Java开发2.0关注的是Redis，一种轻量级键值对数据存储。多数NoSQL实现本质上都是键值对，但是Redis支持非常丰富的值集，其中包括字符串、列表、集以及散列。因此，Redis通常被称为数据结构服务器。Redis也以异常快速而闻名，这使得它成为某一特定类型使用案例的最优选择。当我们想要了解一种新事物时，将其同熟知的事物进行比较可能会有所帮助，因此，我们将通过对比其与memcached的相似性以开启Redis探索之旅。接着我们将介绍Redis的主要功能，这些功能可以使其在某些应用场景可以胜过memcached。最后我将向您展示如何将Redis作为一个传统数据存储用于模型对象。Redis和memcachedMemcached是一个众所周知的内存对象缓存系统，通过将目标键和值导入内存缓存运行。因此，Memcached能回避读取磁盘时发生的I/O成本问题。在Web应用程序和数据库之间粘贴memcached时会产生更好的读取性能。因此，对于那些需要快速数据查询的应用程序，Memcached是一个不错的选择。其中的一个例子为股票查询服务，需要另外访问数据库获取相对静态数据，如股票名称或价格信息。MemcacheDB将Redis与memcached相比较并不公平，它与MemcacheDB相比要好的多，MemcacheDB是一个分布式键值对存储系统，专为数据持久化而设计。MemcacheDB与Redis较为相似，其新增优势可以使其轻松地与memcached实现的客户端进行通信。但是memcached也有其局限性，其中一个事实就是它所有的值均是简单的字符串。Redis作为memcached的替代者，支持更加丰富的功能集。一些基准(benchmarks)也表明Redis的速度要比memcached快很多。Redis提供的丰富数据类型使其可以在内存中存储更为复杂的数据，这是使用memcached无法实现的。同memcached不一样，Redis可以持久化其数据。Redis解决了一个重大的缓存问题，而其丰富的功能集又为其找到了其他用途。由于Redis能够在磁盘上存储数据以及跨节点复制数据，因而可以作为数据仓库用于传统数据模式（也就是说，您可以使用Redis，就像使用RDBMS一样）。Redis还经常被用作队列系统。在本用例中，Redis是备份和工作队列持久化存储（利用Redis的列表类型）的基础。GitHub是以此种方法使用Redis的大规模基础架构示例准备好Redis，立即开始!要开始使用Redis，您需要访问它，可以通过本地安装或者托管供应商来实现访问。如果您使用的MAC，安装过程可能就不那么简单。如果您使用的是Windows??，您需要先安装Cygwin。如果您正在寻找一个托管供应商，Redis4You拥有一个免费计划。不管您以何种方式访问，您都能够根据本文下列示例进行操作，但是我需要指出的是，使用一个托管供应商进行缓存可能并不是很好的缓存解决方案，因为网络延迟可能会抵消任何性能优势。您需要通过命令与Redis进行交互，这就是说，这里没有SQL类查询语言。使用Redis工作非常类似于使用传统map数据结构，即所有的一切都拥有一个键和一个值，每个值都有多种与之关联的数据类型。每个数据类型都有其自己的命令集。例如，如果您计划使用简单数据类型，比如某种缓存模式，您可以使用命令set和get。您可以通过命令行shell与一个Reids实例进行交互。还有多个客户端实现，可以以编程方式与Redis进行交互。清单1展示了一个使用基础命令的简单命令行shell交互：清单1.使用基础的Redis命令redis127.0.0.1:6379>setpageregistrationOKredis127.0.0.1:6379>keys*1)"foo"2)"page"redis127.0.0.1:6379>getpage"registration"在这里，我通过set命令将键"page"与值"registration"相关联。接着，我发出keys命令（后缀*表示我想看到所有可用的实例键。keys命令显示有一个page值和一个foo，我可以通过get命令检索到与一个键关联的值。请记住，使用get检索到的值只能是一个字符串。如果一个键的值是一个列表，那么您必须使用一个特定列表的命令来检索列表元素。（注意，有可以查询值类型的命令）。Java与Jedis集成对于那些想要将Redis集成到Java应用程序的编程人员，Redis团队建议使用一个名为Jedis的项目，Jedis是一个轻量级库，可以将本地Redis命令映射到Java方法。例如Jedis可以获取并设置简单值，如清单2所示：清单2.Java代码中的基础Redis命令JedisPoolpool=newJedisPool(newJedisPoolConfig(),"localhost");Jedisjedis=pool.getResource();jedis.set("foo","bar");Stringfoobar=jedis.get("foo");assertfoobar.equals("bar");pool.returnResource(jedis);pool.destroy();在清单2中，我配置了一个连接池并捕获连接，（与您在典型JDBC场景中的操作非常相似）然后我在清单的底部设置了返回操作。在连接池逻辑之间，我设置了值"bar"和键"foo"，这是我通过get命令检索到的。与memcached类似，Redis允许您将过期（expiration）时间关联到一个值。因此我设置了这样一个值（比如，股票临时交易价格），最终将从Redis缓存中清除掉。如果我想在Jedis中设置一个过期时间，需要在发出set调用之后将其和一个过期时间关联。如清单3所示：清单3.Redis值可以设置为终止jedis.set("gone","daddy,gone");jedis.expire("gone",10);Stringthere=jedis.get("gone");assertthere.equals("daddy,gone");Thread.sleep(4500);StringnotThere=jedis.get("gone");assertnotThere==null;在清单3中，我使用了一个expire调用将"gone"的值设置为在10秒钟内终止。调用Thread.sleep之后，"gone"的get调用会返回null。Redis中的数据类型使用Redis数据类型，比如列表和散列需要专用命令用法。例如，我可以通过为键附加值来创建列表。

⑹ 华为大数据解决方案是什么

大数据解决方案的逻辑层

逻辑层提供了一种组织您的组件的方式。这些层提供了一种方法来组织执行特定功能的组件。这些层只是逻辑层；这并不意味着支持每层的功能在独立的机器或独立的进程上运行。大数据解决方案通常由以下逻辑层组成：

1、大数据来源

2、数据改动 (massaging) 和存储层

3、分析层

4、使用层

结束语

对开发人员而言，层提供了一种对大数据解决方案必须执行的功能进行分类的途径，为组织建议必需执行这些功能所需的代码。但是，对于想要从大数据获取洞察的业务用户，考虑大数据需求和范围通常会有所帮助。原子模式解决了访问、处理、存储和使用大数据的机制，为业务用户提供了一种解决需求和范围的途径。下一篇文章将介绍用于此用途的原子模式。

⑺ 什么是大数据时代

大数据时代

（巨量资料（IT行业术语））
编辑
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡，麦肯锡称：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日，却因为近年来互联网和信息行业的发展而引起人们关注。
中文名
大数据时代
外文名
Big data
提出者
麦肯锡
类属
科技名词
目录
1 产生背景
2 影响
▪ 大数据
▪ 大数据的精髓
▪ 数据价值
▪ 可视化
3 特征
4 案例分析
5 产业崛起
6 提供依据
7 应对措施

产生背景
编辑

进入2012年，大数据（big data）一词越来越多地被提及，人们用它来描述和定义信息爆炸时代产生的海量数
大数据时代来临
据，并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面，进入美国白宫官网的新闻，现身在国内一些互联网主题的讲座沙龙中，甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。[1]
数据正在迅速膨胀并变大，它决定着企业的未来发展，虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患，但是随着时间的推移，人们将越来越多的意识到数据对企业的重要性。
正如《纽约时报》2012年2月的一篇专栏中所称，“大数据”时代已经降临，在商业、经济及其他领域中，决策将日益基于数据和分析而作出，而并非基于经验和直觉。
哈佛大学社会学教授加里·金说：“这是一场革命，庞大的数据资源使得各个领域开始了量化进程，无论学术界、商界还是政府，所有领域都将开始这种进程。”[2]

影响
编辑

大数据
现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。[3]
随着云时代的来临，大数据（Big data）也吸引了越来越多的关注。大数据（Big data）通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapRece一样的框架来向数十、数百或甚至数千的电脑分配工作。[2]
在现今的社会，大数据的应用越来越彰显他的优势，它占领的领域也越来越大，电子商务、O2O、物流配送等，各种利用大数据进行发展的领域正在协助企业不断地发展新业务，创新运营模式。有了大数据这个概念，对于消费者行为的判断，产品销售量的预测，精确的营销范围以及存货的补给已经得到全面的改善与优化。[4]
“大数据”在互联网行业指的是这样一种现象：互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大，以至于不能用G或T来衡量。
大数据到底有多大？一组名为“互联网上一天”的数据告诉我们，一天之中，互联网产生的全部内容可以刻满1.68亿张DVD；发出的邮件有2940亿封之多（相当于美国两年的纸质信件数量）；发出的社区帖子达200万个（相当于《时代》杂志770年的文字量）；卖出的手机为37.8万台，高于全球每天出生的婴儿数量37.1万……[1]
截止到2012年，数据量已经从TB（1024GB=1TB）级别跃升到PB（1024TB=1PB）、EB（1024PB=1EB）乃至ZB(1024EB=1ZB)级别。国际数据公司（IDC）的研究结果表明，2008年全球产生的数据量为0.49ZB，2009年的数据量为0.8ZB，2010年增长为1.2ZB，2011年的数量更是高达1.82ZB，相当于全球每人产生200GB以上的数据。而到2012年为止，人类生产的所有印刷材料的数据量是200PB，全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称，整个人类文明所获得的全部数据中，有90%是过去两年内产生的。而到了2020年，全世界所产生的数据规模将达到今天的44倍。[5] 每一天，全世界会上传超过5亿张图片，每分钟就有20小时时长的视频被分享。然而，即使是人们每天创造的全部信息——包括语音通话、电子邮件和信息在内的各种通信，以及上传的全部图片、视频与音乐，其信息量也无法匹及每一天所创造出的关于人们自身的数字信息量。
这样的趋势会持续下去。我们现在还处于所谓“物联网”的最初级阶段，而随着技术成熟，我们的设备、交通工具和迅速发展的“可穿戴”科技将能互相连接与沟通。科技的进步已经使创造、捕捉和管理信息的成本降至2005年的六分之一，而从2005年起，用在硬件、软件、人才及服务之上的商业投资也增长了整整50%，达到了4000亿美元。[5]

大数据的精髓
大数据带给我们的三个颠覆性观念转变：是全部数据，而不是随机采样；是大体方向，而不是精确制导；是相关关系，而不是因果关系。[6]
A.不是随机样本，而是全体数据：在大数据时代，我们可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再依赖于随机采样(随机采样，以前我们通常把这看成是理所应当的限制，但高性能的数字技术让我们意识到，这其实是一种人为限制);
B.不是精确性，而是混杂性：研究数据如此之多，以至于我们不再热衷于追求精确度;之前需要分析的数据很少，所以我们必须尽可能精确地量化我们的记录，随着规模的扩大，对精确度的痴迷将减弱;拥有了大数据，我们不再需要对一个现象刨根问底，只要掌握了大体的发展方向即可，适当忽略微观层面上的精确度，会让我们在宏观层面拥有更好的洞察力;
C.不是因果关系，而是相关关系：我们不再热衷于找因果关系，寻找因果关系是人类长久以来的习惯，在大数据时代，我们无须再紧盯事物之间的因果关系，而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生，但是它会提醒我们这件事情正在发生。

数据价值
大数据时代，什么最贵?
十年前，葛大爷曾说过，“21世纪什么最贵?”——“人才”，深以为然。只是，十年后的今天，大数据时代也带来了身价不断翻番的各种数据。由于急速拓展的网络带宽以及各种穿戴设备所带来的大量数据，数据的增长从未停歇，甚至呈井喷式增长。[7]
一分钟内，微博推特上新发的数据量超过10万；社交网络“脸谱”的浏览量超过600万……
这些庞大数字，意味着什么？
它意味着，一种全新的致富手段也许就摆在面前，它的价值堪比石油和黄金。
事实上，当你仍然在把微博等社交平台当作抒情或者发议论的工具时，华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”，先人一步用其预判市场走势，而且取得了不俗的收益。
让我们一起来看看——他们是怎么做的。
这些数据都能干啥。具体有六大价值：
●1、华尔街根据民众情绪抛售股票；
●2、对冲基金依据购物网站的顾客评论，分析企业产品销售状况；
●3、银行根据求职网站的岗位数量，推断就业率；
●4、投资机构搜集并分析上市企业声明，从中寻找破产的蛛丝马迹；
●5、美国疾病控制和预防中心依据网民搜索，分析全球范围内流感等病疫的传播状况；
●6、美国总统奥巴马的竞选团队依据选民的微博，实时分析选民对总统竞选人的喜好。[1]

可视化
“数据是新的石油。”亚马逊前任首席科学家Andreas Weigend说。Instagram以10亿美元出售之时，成立于1881年的世界最大影像产品及服务商柯达正申请破产。
大数据是如此重要，以至于其获取、储存、搜索、共享、分析，乃至可视化地呈现，都成为了当前重要的研究课题[1] 。
“当时时变幻的、海量的数据出现在眼前，是怎样一幅壮观的景象？在后台注视着这一切，会不会有接近上帝俯视人间星火的感觉？”
这个问题我曾请教过刘建国，中国着名的搜索引擎专家。刘曾主持开发过国内第一个大规模中英文搜索引擎系统“天网”。
要知道，刘建国曾任至网络的首席技术官，在这样一家每天需应对网民各种搜索请求1.7亿次（2013年约为8.77亿次）的网站中，如果只是在后台静静端坐，可能片刻都不能安心吧。网络果然在提供搜索服务之外，逐渐增添了网络指数，后又建立了基于网民搜索数据的重要产品“贴吧”及网络统计产品等。
刘建国没有直接回答这个问题，他想了很久，似乎陷入了回忆，嘴角的笑容含着诡秘。
倒是有公司已经在大数据中有接近上帝俯视的感觉，美国洛杉矶就有企业宣称，他们将全球夜景的历史数据建立模型，在过滤掉波动之后，做出了投资房地产和消费的研究报告。
在数据可视化呈现方面，我最新接收到的故事是，一位在美国思科物流部门工作的朋友，很聪明的印度裔小伙子，被Facebook高价挖角，进入其数据研究小组。他后来惊讶地发现，里面全是来自物流企业、供应链方面的技术人员和专家，“Facebook想知道，能不能用物流的角度和流程的方式，分析用户的路径和行为。”

特征
编辑
数据量大（Volume）
第一个特征是数据量大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。
类型繁多（Variety）
第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高的要求。
价值密度低（Value）
第三个特征是数据价值密度相对较低。如随着物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，如何通过强大的机器算法更迅速地完成数据的价值“提纯”，是大数据时代亟待解决的难题。
速度快、时效高（Velocity）
第四个特征是处理速度快，时效性要求高。这是大数据区分于传统数据挖掘最显着的特征。
既有的技术架构和路线，已经无法高效处理如此海量的数据，而对于相关组织来说，如果投入巨大采集的信息无法通过及时处理反馈有效信息，那将是得不偿失的。可以说，大数据时代对人类的数据驾驭能力提出了新的挑战，也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。[2]

案例分析
编辑
个案一
你开心他就买你焦虑他就抛[2]
华尔街“德温特资本市场”公司首席执行官保罗·霍廷每天的工作之一，就是利用电脑程序分析全球3.4亿微博账户的留言，进而判断民众情绪，再以“1”到“50”进行打分。根据打分结果，霍廷再决定如何处理手中数以百万美元计的股票。
霍廷的判断原则很简单：如果所有人似乎都高兴，那就买入；如果大家的焦虑情绪上升，那就抛售。
这一招收效显着——当年第一季度，霍廷的公司获得了7%的收益率。
个案二
国际商用机器公司（IBM）估测，这些“数据”值钱的地方主要在于时效。对于片刻便能定输赢的华尔街，这一时效至关重要。曾经，华尔街2%的企业搜集微博等平台的“非正式”数据；如今，接近半数企业采用了这种手段。
●“社会流动”创业公司在“大数据”行业生机勃勃，和微博推特是合作伙伴。它分析数据，告诉广告商什么是正确的时间，谁是正确的用户，什么是应该发表的正确内容，备受广告商热爱。
●通过乔希·詹姆斯的Omniture（着名的网页流量分析工具）公司，你可以知道有多少人访问你的网站，以及他们呆了多长时间——这些数据对于任何企业来说都至关重要。詹姆斯把公司卖掉，进账18亿美元。
●微软专家吉拉德喜欢把这些“大数据”结果可视化：他把客户请到办公室，将包含这些公司的数据图谱展现出来——有些是普通的时间轴，有些像蒲公英，有些则是铺满整个画面的泡泡，泡泡中显示这些客户的粉丝正在谈论什么话题。
●“脸谱”数据分析师杰弗逊的工作就是搭建数据分析模型，弄清楚用户点击广告的动机和方式。
处理和分析工具
用于分析大数据的工具主要有开源与商用两个生态圈。
开源大数据生态圈：
1、Hadoop HDFS、HadoopMapRece, HBase、Hive 渐次诞生，早期Hadoop生态圈逐步形成。
2、. Hypertable是另类。它存在于Hadoop生态圈之外，但也曾经有一些用户。
3、NoSQL，membase、MongoDb
商用大数据生态圈：
1、一体机数据库/数据仓库：IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、数据仓库：TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、数据集市：QlikView、 Tableau 、以及国内的Yonghong Data Mart 。

产业崛起
编辑
越来越多的政府、企业等机构开始意识到数据正在成为组织最重要的资产，数据分析能力正在成为组织的核心竞争力。具体有以下三大案例：
1、2012年3月22日，奥巴马政府宣布投资2亿美元拉动大数据相关产业发展，将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”，并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分，未来，对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。
2、联合国也在2012年发布了大数据政务白皮书，指出大数据对于联合国和各国政府来说是一个历史性的机遇，人们如今可以使用极为丰富的数据资源，来对社会经济进行前所未有的实时分析，帮助政府更好地响应社会和经济运行。
3、而最为积极的还是众多的IT企业。麦肯锡在一份名为《大数据，是下一轮创新、竞争和生产力的前沿》的专题研究报告中提出，“对于企业来说，海量数据的运用将成为未来竞争和增长的基础”，该报告在业界引起广泛反响。
IBM则提出，上一个十年，他们抛弃了PC，成功转向了软件和服务，而这次将远离服务与咨询，更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为，“数据将成为一切行业当中决定胜负的根本因素，最终数据将成为人类至关重要的自然资源。”
在国内，网络已经致力于开发自己的大数据处理和存储系统；腾讯也提出2013年已经到了数据化运营的黄金时期，如何整合这些数据成为未来的关键任务。
事实上，自2009年以来，有关“大数据” 主题的并购案层出不穷，且并购数量和规模呈逐步上升的态势。其中，Oracle对Sun、惠普对Autonomy两大并购案总金额高达176亿美元，大数据的产业价值由此可见一斑。[1-2]

提供依据
编辑
大数据是信息通信技术发展积累至今，按照自身技术发展逻辑，从提高生产效率向更高级智能阶段的自然生长。无处不在的信息感知和采集终端为我们采集了海量的数据，而以云计算为代表的计算技术的不断进步，为我们提供了强大的计算能力，这就围绕个人以及组织的行为构建起了一个与物质世界相平行的数字世界[1-2] 。
大数据虽然孕育于信息通信技术的日渐普遍和成熟，但它对社会经济生活产生的影响绝不限于技术层面，更本质上，它是为我们看待世界提供了一种全新的方法，即决策行为将日益基于数据分析做出，而不是像过去更多凭借经验和直觉做出。
事实上，大数据的影响并不仅仅限于信息通信产业，而是正在“吞噬”和重构很多传统行业，广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中，数据分析的技术与手段更是得到广泛的应用，传统企业如沃尔玛通过数据挖掘重塑并优化供应链，新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析，为用户提供更加专业化和个性化的服务。
最让人吃惊的例子是，社交媒体监测平台DataSift监测了Facebook（脸谱） IPO当天Twitter上的情感倾向与Facebook股价波动的关联。在Facebook开盘前Twitter上的情感逐渐转向负面，25分钟之后Facebook的股价便开始下跌。而当Twitter上的情感转向正面时，Facebook股价在8分钟之后也开始了回弹。最终当股市接近收盘、Twitter上的情感转向负面时，10分钟后Facebook的股价又开始下跌。最终的结论是：Twitter上每一次情感倾向的转向都会影响Facebook股价的波动。
这仅仅只是基于社交网络产生的大数据“预见未来”的众多案例之一，此外还有谷歌通过网民搜索行为预测流感爆发等例子。不仅在商业方面，大数据在社会建设方面的作为同样令人惊叹，智能电网、智慧交通、智慧医疗、智慧环保、智慧城市等的蓬勃兴起，都与大数据技术与应用的发展息息相关。
“大数据”可能带来的巨大价值正渐渐被人们认可，它通过技术的创新与发展，以及数据的全面感知、收集、分析、共享，为人们提供了一种全新的看待世界的方法。更多地基于事实与数据做出决策，这样的思维方式，可以预见，将推动一些习惯于靠“差不多”运行的社会发生巨大变革。

应对措施
编辑
一个好的企业应该未雨绸缪，从现在开始就应该着手准备，为企业的后期的数据收集和分析做好准备，企业可以从下面六个方面着手，这样当面临铺天盖地的大数据的时候，以确保企业能够快速发展，具体为下面六点。
目标
几乎每个组织都可能有源源不断的数据需要收集，无论是社交网络还是车间传感器设备，而且每个组织都有大量的数据需要处理，IT人员需要了解自己企业运营过程中都产生了什么数据，以自己的数据为基准，确定数据的范围。
准则
虽然每个企业都会产生大量数据，而且互不相同、多种多样的，这就需要企业IT人员在现在开始收集确认什么数据是企业业务需要的，找到最能反映企业业务情况的数据。
重新评估
大数据需要在服务器和存储设施中进行收集，并且大多数的企业信息管理体系结构将会发生重要大变化，IT经理则需要准备扩大他们的系统，以解决数据的不断扩大，IT经理要了解公司现有IT设施的情况，以组建处理大数据的设施为导向，避免一些不必要的设备的购买。
重视大数据技术
大数据是最近几年才兴起的词语，而并不是所有的IT人员对大数据都非常了解，例如如今的Hadoop，MapRece，NoSQL等技术都是2013年刚兴起的技术，企业IT人员要多关注这方面的技术和工具，以确保将来能够面对大数据的时候做出正确的决定。
培训企业的员工
大多数企业最缺乏的是人才，而当大数据到临的时候，企业将会缺少这方面的采集收集分析方面的人才，对于一些公司，特别是那种人比较少的公司，工作人员面临大数据将是一种挑战，企业要在平时的时候多对员工进行这方面的培训，以确保在大数据到来时，员工也能适应相关的工作。
培养三种能力
Teradata大中华区首席执行官辛儿伦对新浪科技表示，随着大数据时代的到来，企业应该在内部培养三种能力。第一，整合企业数据的能力；第二，探索数据背后价值和制定精确行动纲领的能力；第三，进行精确快速实时行动的能力。
做到上面的几点，当大数据时代来临的时候，面临大量数据将不是束手无策，而是成竹在胸，而从数据中得到的好处也将促进企业快速发展。
望采纳，谢谢

⑻ 如何运用大数据

1.可视化分析
大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，同时能够非常容易被读者所接受，就如同看图说话一样简单明了。
2. 数据挖掘算法

大数据分析的理论核心就是数据挖掘算法，各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点，也正是因为这些被全世界统
计
学家所公认的各种统计方法（可以称之为真理）才能深入数据内部，挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据，如
果一个算法得花上好几年才能得出结论，那大数据的价值也就无从说起了。
3. 预测性分析
大数据分析最终要的应用领域之一就是预测性分析，从大数据中挖掘出特点，通过科学的建立模型，之后便可以通过模型带入新的数据，从而预测未来的数据。
4. 语义引擎
非结构化数据的多元化给数据分析带来新的挑战，我们需要一套工具系统的去分析，提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。
5.数据质量和数据管理。大数据分析离不开数据质量和数据管理，高质量的数据和有效的数据管理，无论是在学术研究还是在商业应用领域，都能够保证分析结果的真实和有价值。
大数据分析的基础就是以上五个方面，当然更加深入大数据分析的话，还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

大数据的技术
数据采集： ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。
数据存取：关系数据库、NOSQL、SQL等。
基础架构：云存储、分布式文件存储等。
数
据处理：自然语言处理(NLP，Natural Language
Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机”理解”自然语言，所以自然语言处理又叫做自然语言理
解也称为计算语言学。一方面它是语言信息处理的一个分支，另一方面它是人工智能的核心课题之一。
统计分析：
假设检验、显着性检验、差异分析、相关分析、T检验、方差分析、
卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、
因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术等等。
数
据挖掘：分类
（Classification）、估计（Estimation）、预测（Prediction）、相关性分组或关联规则（Affinity
grouping or association rules）、聚类（Clustering）、描述和可视化、Description and
Visualization）、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)
模型预测：预测模型、机器学习、建模仿真。
结果呈现：云计算、标签云、关系图等。

大数据的处理
1. 大数据处理之一：采集
大
数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的
数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除
此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时
有可能会有成千上万的用户
来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间
进行负载均衡和分片的确是需要深入的思考和设计。
2. 大数据处理之二：导入/预处理
虽然采集端本身会有很多数据库，但是如果要对这些
海量数据进行有效的分析，还是应该将这
些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使
用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。
3. 大数据处理之三：统计/分析
统
计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通
的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于
MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。
4. 大数据处理之四：挖掘
与
前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数
据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于

统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并
且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理。

⑼ Python爬虫可以爬取什么

Python爬虫可以爬取的东西有很多，Python爬虫怎么学？简单的分析下：

如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。

利用爬虫我们可以获取大量的价值数据，从而获得感性认识中不能得到的信息，比如：

知乎：爬取优质答案，为你筛选出各话题下最优质的内容。
淘宝、京东：抓取商品、评论及销量数据，对各种商品及用户的消费场景进行分析。
安居客、链家：抓取房产买卖及租售信息，分析房价变化趋势、做不同区域的房价分析。
拉勾网、智联：爬取各类职位信息，分析各行业人才需求情况及薪资水平。
雪球网：抓取雪球高回报用户的行为，对股票市场进行分析和预测。

爬虫是入门Python最好的方式，没有之一。Python有很多应用的方向，比如后台开发、web开发、科学计算等等，但爬虫对于初学者而言更友好，原理简单，几行代码就能实现基本的爬虫，学习的过程更加平滑，你能体会更大的成就感。

掌握基本的爬虫后，你再去学习Python数据分析、web开发甚至机器学习，都会更得心应手。因为这个过程中，Python基本语法、库的使用，以及如何查找文档你都非常熟悉了。

对于小白来说，爬虫可能是一件非常复杂、技术门槛很高的事情。比如有人认为学爬虫必须精通 Python，然后哼哧哼哧系统学习 Python 的每个知识点，很久之后发现仍然爬不了数据；有的人则认为先要掌握网页的知识，遂开始 HTMLCSS，结果入了前端的坑，瘁……

但掌握正确的方法，在短时间内做到能够爬取主流网站的数据，其实非常容易实现，但建议你从一开始就要有一个具体的目标。

在目标的驱动下，你的学习才会更加精准和高效。那些所有你认为必须的前置知识，都是可以在完成目标的过程中学到的。这里给你一条平滑的、零基础快速入门的学习路径。

1.学习 Python 包并实现基本的爬虫过程
2.了解非结构化数据的存储
3.学习scrapy，搭建工程化爬虫
4.学习数据库知识，应对大规模数据存储与提取
5.掌握各种技巧，应对特殊网站的反爬措施
6.分布式爬虫，实现大规模并发采集，提升效率

一

学习 Python 包并实现基本的爬虫过程

大部分爬虫都是按“发送请求——获得页面——解析页面——抽取并储存内容”这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。

Python中爬虫相关的包很多：urllib、requests、bs4、scrapy、pyspider 等，建议从requests+Xpath 开始，requests 负责连接网站，返回网页，Xpath 用于解析网页，便于抽取数据。

如果你用过 BeautifulSoup，会发现 Xpath 要省事不少，一层一层检查元素代码的工作，全都省略了。这样下来基本套路都差不多，一般的静态网站根本不在话下，豆瓣、糗事网络、腾讯新闻等基本上都可以上手了。

当然如果你需要爬取异步加载的网站，可以学习浏览器抓包分析真实请求或者学习Selenium来实现自动化，这样，知乎、时光网、猫途鹰这些动态的网站也可以迎刃而解。

二

了解非结构化数据的存储

爬回来的数据可以直接用文档形式存在本地，也可以存入数据库中。

开始数据量不大的时候，你可以直接通过 Python 的语法或 pandas 的方法将数据存为csv这样的文件。

当然你可能发现爬回来的数据并不是干净的，可能会有缺失、错误等等，你还需要对数据进行清洗，可以学习 pandas 包的基本用法来做数据的预处理，得到更干净的数据。

三

学习 scrapy，搭建工程化的爬虫

掌握前面的技术一般量级的数据和代码基本没有问题了，但是在遇到非常复杂的情况，可能仍然会力不从心，这个时候，强大的 scrapy 框架就非常有用了。

scrapy 是一个功能非常强大的爬虫框架，它不仅能便捷地构建request，还有强大的 selector 能够方便地解析 response，然而它最让人惊喜的还是它超高的性能，让你可以将爬虫工程化、模块化。

学会 scrapy，你可以自己去搭建一些爬虫框架，你就基本具备爬虫工程师的思维了。

四

学习数据库基础，应对大规模数据存储

爬回来的数据量小的时候，你可以用文档的形式来存储，一旦数据量大了，这就有点行不通了。所以掌握一种数据库是必须的，学习目前比较主流的 MongoDB 就OK。

MongoDB 可以方便你去存储一些非结构化的数据，比如各种评论的文本，图片的链接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。

因为这里要用到的数据库知识其实非常简单，主要是数据如何入库、如何进行提取，在需要的时候再学习就行。

五

掌握各种技巧，应对特殊网站的反爬措施

当然，爬虫过程中也会经历一些绝望啊，比如被网站封IP、比如各种奇怪的验证码、userAgent访问限制、各种动态加载等等。

遇到这些反爬虫的手段，当然还需要一些高级的技巧来应对，常规的比如访问频率控制、使用代理IP池、抓包、验证码的OCR处理等等。

往往网站在高效开发和反爬虫之间会偏向前者，这也为爬虫提供了空间，掌握这些应对反爬虫的技巧，绝大部分的网站已经难不到你了.

六

分布式爬虫，实现大规模并发采集

爬取基本数据已经不是问题了，你的瓶颈会集中到爬取海量数据的效率。这个时候，相信你会很自然地接触到一个很厉害的名字：分布式爬虫。

分布式这个东西，听起来很恐怖，但其实就是利用多线程的原理让多个爬虫同时工作，需要你掌握 Scrapy + MongoDB + Redis 这三种工具。

Scrapy 前面我们说过了，用于做基本的页面爬取，MongoDB 用于存储爬取的数据，Redis 则用来存储要爬取的网页队列，也就是任务队列。

所以有些东西看起来很吓人，但其实分解开来，也不过如此。当你能够写分布式的爬虫的时候，那么你可以去尝试打造一些基本的爬虫架构了，实现一些更加自动化的数据获取。

你看，这一条学习路径下来，你已然可以成为老司机了，非常的顺畅。所以在一开始的时候，尽量不要系统地去啃一些东西，找一个实际的项目（开始可以从豆瓣、小猪这种简单的入手），直接开始就好。

因为爬虫这种技术，既不需要你系统地精通一门语言，也不需要多么高深的数据库技术，高效的姿势就是从实际的项目中去学习这些零散的知识点，你能保证每次学到的都是最需要的那部分。

当然唯一麻烦的是，在具体的问题中，如何找到具体需要的那部分学习资源、如何筛选和甄别，是很多初学者面临的一个大问题。

以上就是我的回答，希望对你有所帮助，望采纳。

⑽ 什么是金融数据

怎么给你说呢，学术化的定义很多，通俗点的例子，某只股票一段时期的价格数据按既定的时间顺序排列就可以称之为一种金融时间序列数据。

导航:首页 > 数据行情 > mangodb股票数据库

mangodb股票数据库

与mangodb股票数据库相关的资料