导航:首页 > 数据行情 > 基于数据仓库的股票交易数据分析与预测研究

基于数据仓库的股票交易数据分析与预测研究

发布时间：2022-12-11 16:06:13

㈠银行数据仓库体系实践（18）--数据应用之信用风险建模

信用风险

        银行的经营风险的机构，那在第15节也提到了巴塞尔新资本协议对于银行风险的计量和监管要求，其中信用风险是银行经营的主要风险之一，它的管理好坏直接影响到银行的经营利润和稳定经营。信用风险是指交易对手未能履行约定契约中的义务而给银行造成经济损失的风险。典型的表现形式包括借款人发生违约或信用等级下降。借款人因各种原因未能及时、足额偿还债务/银行贷款、未能履行合同义务而发生违约时，债权人或银行必将因为未能得到预期的收益而承担财务上的损失。

        那如何来表示某个交易对手的信用情况呢，一般使用信用等级或信用评分来来表示，等级越低或评分越低，发生违约的概率会增加。这个信用评分主要应用在客户的贷前和贷后管理中，贷前是指客户贷款申请阶段，银行受理客户贷款申请时会根据客户提交的信息、人行征信、其它数据源按一定的规则计算出一个违约概率和风险评分或信用等级。再根据这个评分或评级来确定客户的授信额度和利率。计算出的评分或评级越高，违约概率越低，比如在进行个人贷前评分时主要关注以下5方面：

        （1）People：贷款人状况，包括历史还款表现、当前负债情况、资金饥渴度等；

        （2）Payment：还款来源，如基本收入、资产水平、月收支负债比、无担保总负债等；

        （3）Purpose：资金用途，如消费、买房，需要规避贷款资金用于投资或投机性质较高领域，如股票和数字货币；

        （4）Protection：债权确保，主要是看是否有抵押物或担保，需要看抵押物用途、质量、价格等关键要素；

        （5）Perspective：借款户展望，从地域、行业、人生阶段等考察稳定性及潜力；

        贷后是指客户借款后银行持续跟进客户的信用情况，如果发现信用评分降低或者某些指标达到风险预警指标的阈值，说明风险升高，则会进行冻结额度甚至提前进行贷款收回。特别是对于逾期客户。

风险建模步骤

       在进行信用评估时如何选择客户属性、如何确定评分或评级规则呢？这就需要进行风险建模，通过分析历史数据来确定哪些特征或指标对客户的违约相关性大，可以了解客户的还款能力以及还款意愿。并通过一定方法来建立评分和评级的规则。那风险建模主要分为以下步骤：

        （1）业务理解：主要评估当前现状、确定业务目标，选择建模方法，比如需要进行XX贷款产品的贷前评分模型并确定准入规则，建模方式比如为评分卡，评分应用为基于评分确定贷款准入规则以及额度和利率规则，同时需要确定分析数据的好客户和坏客户标准，如逾期90天以上为坏客户；

        （2）数据理解：首先需要准备建模的样本数据，如抽取近2年的获得类似产品的客户相关信息以及根据好客户和坏客户标准确定的结果。并针对业务数据进行业务含义理解、对数据进行收集、探索，了解每个变量的数据质量、缺失情况，数据分布等。比如对于客户在人行的征信数据、客户在银行的存款、理财等信息、以及客户申请填写的家庭、房产信息、外部获得的客户教育、司法等相关信息进行业务理解和数据分布、质量的探索，对缺失值比例过大的变量或准确性不高的变量进行剔除，同时也要确定对于样本数据中哪些数据进行建模，哪些数据进行验证。

        （3）数据准备：主要对数据进行预处理和指标加工，指标加工指基于基础数据进行指标加工，如最近1个月的征信查询次数，最近1年的逾期次数等，数据预处理主要工作包括对每一个变量进行数据清洗、缺失值处理、异常值处理、数据标准化等，主要目的是将获取的原始数据转变成可用于建模的结构化数据。

        比如对于连续变量，就是要寻找合适的切割点把变量分为几个区间段以使其具有最强的预测能力，也称为“分箱”。例如客户年龄就是连续变量，在这一步就是要研究分成几组、每组切割点在哪里预测能力是最强的。分箱的方法有等宽、等频、聚类（k-means）、卡方分箱法、单变量决策树算法（ID3、C4.5、CART）、IV最大化分箱法、best-ks分箱法等。如果是离散变量，每个变量值都有一定的预测能力，但是考虑到可能几个变量值有相近的预测能力，因此也需要进行分组。

        通过对变量的分割、分组和合并转换，分析每个变量对于结果的相关性，剔除掉预测能力较弱的变量，筛选出符合实际业务需求、具有较强预测能力的变量。检测变量预测能力的方法有：WOE(weight of Evidence) 、IV(informationvalue)等。

        （4）分析建模：即对于筛选出来的变量以及完成好坏定义的样本结果。放入模型进行拟合。如评分卡一般采用常见的逻辑回归的模型，PYTHON、SAS、R都有相关的函数实现模型拟合。以下是生成的评分卡的例子。

        （5）评估及报告：即通过验证样本对模型的预测进行校验。评估模型的准确性和稳健性，并得出分析报告。常用的方法有ROC曲线、lift提升指数、KS(Kolmogorov-Smirnov)曲线、GINI系数等。

        （6）应用：对模型进行实际部署和应用，如基于评分进行客户准入和产生额度，并在贷款系统进行模型部署，自动对申请客户进行评分。

        （7）监测：建立多种报表对模型的有效性、稳定性进行监测，如稳定性监控报表来比较新申请客户与开发样本客户的分值分布，不良贷款分析报表来评估不同分数段的不良贷款，并且与开发时的预测进行比较，监控客户信贷质量。随着时间的推移和环境变化，评分模型的预测力会减弱，所以需要持续监控并进行适当调整或重建。

        在信用风险建模中，目前评分卡建模还是主要的方式，除了申请评分（A卡（Application score card））还有B卡（Behavior score card）行为评分卡、C卡（Collection score card）催收评分卡。B卡主要进行客户贷后管理，如何进行风险预警，C卡进行催收管理，确定如何催收以及催收方式和时间点。信用风险模型中还有一个是反欺诈模型，它主要是识别假冒身份、虚假信息、批量薅羊毛等欺诈行为。随着机器学习和大数据的发展，其它的一些建模方式如决策树、深度神经网络也越来越多的应用到了风险建模中。

        信用风险模型是数据仓库支持的重要数据应用之一，在风险建模分析阶段，数据仓库是建模样本数据以及衍生指标加工的主要提供者，业务人员一般在自助分析平台进行数据分析和建模，模型建立完成并部署后，会基于数据仓库数据进行模型效果的监控。在贷后管理中，风险集市也会进行贷后指标的加工。另外风险模型以及预警中会经常使用到外部数据，这部分数据也是通过数据仓库进行对接、加工和存储。

㈡数据挖掘的国内外研究现状

摘要：随着网络、数据库技术的迅速发畏以及数据库管理系统的广泛应用，人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识，它利用了数据库、人工智能和数理统计等多方面的技术，是一类深层次的数据分析方法。

关键词：数据挖掘；知识；分析；市场营销；金融投资

随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用，人们积累的数据越来越多。由此，数据挖掘技术应运而生。下面，本文对数据技术及其应用作一简单介绍。
一、数据挖掘定义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。简而言之，数据挖掘其实是一类深层次的数据分析方法。从这个角度数据挖掘也可以描述为：按企业制定的业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。
二、数据挖掘技术
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果，代写论文其中数据仓库技术的发展与数据挖掘有着密切的关系。大部分情况下，数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中，因为数据仓库会对数据进行清理，并会解决数据的不一致问题，这会给数据挖掘带来很多好处。此外数据挖掘还利用了人工智能(AI)和统计分析的进步所带来的好处，这两门学科都致力于模式发现和预测。数据库、人工智能和数理统计是数据挖掘技术的三大支柱。由于数据挖掘所发现的知识的不同，其所利用的技术也有所不同。
1．广义知识。指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识，反映同类事物的共同性质，是对数据的概括、精炼和抽象。广义知识的发现方法和实现技术有很多，如数据立方体、面向屙性的归约等。数据立方体的基本思想是实现某些常用的代价较高的聚集函数的计算，诸如计数、求和、平均、最大值等，并将这些实现视图储存在多维数据库中。而面向属性的归约是以类SQL语言来表示数据挖掘查询，收集数据库中的相关数据集，然后在相关数据集上应用一系列数据推广技术进行数据推广，包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。
2．关联知识。它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联，那么其中一项的属性值就可以依据其他属性值进行预测。最为着名的关联规
则发现方法是Apriori算法和FP—Growth算法。关联规则的发现可分为两步：第一步是迭代识别所有的频繁项目集，要求频繁项目集的支持率不低于用户设定的最低值；第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心，也是计算量最大的部分。
3．分类知识。它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。分类方法有决策树、朴素贝叶斯、神经网络、遗传算法、粗糙集方法、模糊集方法、线性回归和K—Means划分等。其中最为典型的分类方法是决策树。它是从实例集中构造决策树，是一种有指导的学习方法。
该方法先根据训练子集形成决策树，如果该树不能对所有对象给出正确的分类，那么选择一些例外加入到训练子集中，重复该过程一直到形成正确的决策集。最终结果是一棵树，其叶结点是类名，中间结点是带有分枝的屙性，该分枝对应该屙性的某一可能值。
4．预测型知识。它根据时间序列型数据，由历史的和当前的数据去推测未来的数据，也可以认为是以时间为关键属性的关联知识。目前，时间序列预测方法有经典的统计方法、神经网络和机器学习等。1968年BoX和Jenkins提出了一套比较完善的时间序列建模理论和分析方法，这些经典的数学方法通过建立随机模型，进行时间序列的预测。由于大量的时间序列是非平稳的，其特征参数和数据分布随着时间的推移而发生变化。因此，仅仅通过对某段历史数据的训练，建立单一的神经网络预测模型，还无法完成准确的预测任务。为此，人们提出了基于统计学和基于精确性的再训练方法，当发现现存预测模型不再适用于当前数据时，对模型重新训练，获得新的权重参数，建立新的模型。
5．偏差型知识。它是对差异和极端特例的描述，揭示事物偏离常规的异常现象，如标准类外的特例、数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现，并随着概念层次的提升，从微观到中观、到宏观，以满足不同用户不同层次决策的需要。
三、数据挖掘流程
数据挖掘是指一个完整的过程，该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息，代写毕业论文并使用这些信息做出决策或丰富知识。数据挖掘的基本过程和主要步骤如下：
过程中各步骤的大体内容如下：
1．确定业务对象，清晰地定义出业务问题。认清数据挖掘的目的是数据挖掘的重要一步，挖掘的最后结构不可预测，但要探索的问题应该是有预见的，为了数据挖掘而挖掘则带有盲目性，是不会成功的。
2．数据准备。(1)数据选择。搜索所有与业务对象有关的内部和外部数据信息，并从中选择出适用于数据挖掘应用的数据。(2)数据预处理。研究数据的质量，进行数据的集成、变换、归约、压缩等．为进一步的分析作准备，并确定将要进行的挖掘操作的类型。(3)数据转换。将数据转换成一个分析模型，这个分析模型是针对挖掘算法建立的，这是数据挖掘成功的关键。
3．数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外，其余一切工作都能自动地完成。
4．结果分析。解释并评估结果。其使用的分析方法一般应视挖掘操作而定，通常会用到可视化技术。
5．知识同化。将分析所得到的知识集成到业务信息系统的组织结构中去。
四、数据挖掘的应用
数据挖掘技术从一开始就是面向应用的。目前在很多领域，数据挖掘都是一个很时髦的词，尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。
1．市场营销。由于管理信息系统和P0S系统在商业尤其是零售业内的普遍使用，特别是条形码技术的使用，从而可以收集到大量关于用户购买情况的数据，并且数据量在不断激增。对市场营销来说，通过数据分析了解客户购物行为的一些特征，对提高竞争力及促进销售是大有帮助的。利用数据挖掘技术通过对用户数据的分析，可以得到关于顾客购买取向和兴趣的信息，从而为商业决策提供了可靠的依据。数据挖掘在营销业上的应用可分为两类：数据库营销(database markerting)和货篮分析(basket analysis)。数据库营销的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客，以便向它们推销产品。通过对已有的顾客数据的辱淅，可以将用户分为不同级别，级别越高，其购买的可能性就越大。货篮分析
是分析市场销售数据以识别顾客的购买行为模式，例如：如果A商品被选购，那么B商品被购买的可能性为95％，从而帮助确定商店货架的布局排放以促销某些商品，并且对进货的选择和搭配上也更有目的性。这方面的系统有：Opportunity Ex-plorer，它可用于超市商品销售异常情况的因果分析等，另外IBM公司也开发了识别顾客购买行为模式的一些工具(IntdligentMiner和QUEST中的一部分)。
2．金融投资。典型的金融分析领域有投资评估和股票交易市场预测，分析方法一般采用模型预测法(如神经网络或统计回归技术)。代写硕士论文由于金融投资的风险很大，在进行投资决策时，更需要通过对各种投资方向的有关数据进行分析，以选择最佳的投资方向。无论是投资评估还是股票市场预测，都是对事物发展的一种预测，而且是建立在对数据的分析基础之上的。数据挖掘可以通过对已有数据的处理，找到数据对象之间的关系，然后利用学习得到的模式进行合理的预测。这方面的系统有Fidelity Stock Selector和LBS Capital Management。前者的任务是使用神经网络模型选择投资，后者则使用了专家系统、神经网络和基因算法技术来辅助管理多达6亿美元的有价证券。
3．欺诈甄别。银行或商业上经常发生诈骗行为，如恶性透支等，这些给银行和商业单位带来了巨大的损失。对这类诈骗行为进行预测可以减少损失。进行诈骗甄别主要是通过总结正常行为和诈骗行为之间的关系，得到诈骗行为的一些特性，这样当某项业务符合这些特征时，可以向决策人员提出警告。
这方面应用非常成功的系统有：FALCON系统和FAIS系统。FALCON是HNC公司开发的信用卡欺诈估测系统，它已被相当数量的零售银行用于探测可疑的信用卡交易；FAIS则是一个用于识别与洗钱有关的金融交易的系统，它使用的是一般的政府数据表单。此外数据挖掘还可用于天文学上的遥远星体探测、基因工程的研究、web信息检索等。
结束语
随着数据库、人工智能、数理统计及计算机软硬件技术的发展，数据挖掘技术必能在更多的领域内取得更广泛的应用。

参考文献：
[1]闫建红《数据库系统概论》的教学改革与探索[J]．山西广播电视大学学报，2006，(15)：16—17．

㈢教你用数据仓库进行数据分析优化

㈣数据挖掘与预测分析术语总结

数据挖掘与预测分析术语总结

数据挖掘目前在各类企业和机构中蓬勃发展。因此我们制作了一份此领域常见术语总结，希望你喜欢。

分析型客户关系管理（Analytical CRM/aCRM）:用于支持决策，改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识，和如何与顾客有效接触的知识，进行收集、分析、应用。参见>>>

大数据（Big Data）:大数据既是一个被滥用的流行语，也是一个当今社会的真实趋势。此术语指代总量与日俱增的数据，这些数据每天都在被捕获、处理、汇集、储存、分析。维基网络是这样描述“大数据”的：“数据集的总和如此庞大复杂，以至于现有的数据库管理工具难以处理（…）”。

商业智能（Business Intelligence）: 分析数据、展示信息以帮助企业的执行者、管理层、其他人员进行更有根据的商业决策的应用、设施、工具、过程。

流失分析（Churn Analysis/Attrition Analysis）: 描述哪些顾客可能停止使用公司的产品/业务，以及识别哪些顾客的流失会带来最大损失。流失分析的结果用于为可能要流失的顾客准备新的优惠。

联合分析/权衡分析（Conjoint Analysis/ Trade-off Analysis）:在消费者实际使用的基础上，比较同一产品/服务的几个不同变种。它能预测产品/服务上市后的接受度，用于产品线管理、定价等活动。

信用评分（Credit Scoring）:评估一个实体（公司或个人）的信用值。银行（借款人）以此判断借款者是否会还款。

配套销售/增值销售（Cross / Up selling）:一个营销概念。根据特定消费者的特征和过往行为，向其销售补充商品（配套销售）或附加商品（增值销售）。

顾客细分&画像（Customer Segmentation & Profiling）:根据现有的顾客数据，将特征、行为相似的顾客归类分组。描述和比较各组。

数据集市（Data Mart）:特定机构所储存的，关于一个特定主题或部门的数据，如销售、财务、营销数据。

数据仓库（Data Warehouse）: 数据的中央存储库，采集、储存来自一个企业多个商业系统的数据。

数据质量（Data Quality）:有关确保数据可靠性和实用价值的过程和技术。高质量的数据应该忠实体现其背后的事务进程，并能满足在运营、决策、规划中的预期用途。

抽取-转换-加载 ETL (Extract-Transform-Load): 数据仓储中的一个过程。从一个来源获取数据，根据需求转换数据以便接下来使用，之后把数据放置在正确的目标数据库。

欺诈检测（Fraud Detection）: 识别针对特定组织或公司的疑似欺诈式转账、订购、以及其他非法活动。在IT系统预先设计触发式警报，尝试或进行此类活动会出现警告。

Hadoop:另一个当今大数据领域的热门。Apache Hadoop是一个在已有商业硬件组成的计算机集群上，分布式存储、处理庞大数据集的开源软件架构。它使得大规模数据储存和更快速数据处理成为可能。

物联网（Internet of Things, IoT):广泛分布的网络，由诸多种类（个人、家庭、工业）诸多用途（医疗、休闲、媒体、购物、制造、环境调节）的电子设备组成。这些设备通过互联网交换数据，彼此协调活动。

顾客的生命周期价值 (Lifetime Value, LTV)：顾客在他/她的一生中为一个公司产生的预期折算利润。

机器学习（Machine Learning）:一个学科，研究从数据中自动学习，以便计算机能根据它们收到的反馈调整自身运行。与人工智能、数据挖掘、统计方法关系密切。

购物篮分析（Market Basket Analysis）: 识别在交易中经常同时出现的商品组合或服务组合，例如经常被一起购买的产品。此类分析的结果被用于推荐附加商品，为陈列商品的决策提供依据等。

联机分析处理（On-Line Analytical Processing, OLAP）:能让用户轻松制作、浏览报告的工具，这些报告总结相关数据，并从多角度分析。

预测分析（Predictive Analytics）:从现存的数据集中提取信息以便识别模式、预测未来收益和趋势。在商业领域，预测模型及分析被用于分析当前数据和历史事实，以更好了解消费者、产品、合作伙伴，并为公司识别机遇和风险。

实时决策（Real Time Decisioning, RTD）: 帮助企业做出实时（近乎无延迟）的最优销售/营销决策。比如，实时决策系统（打分系统）可以通过多种商业规则或模型，在顾客与公司互动的瞬间，对顾客进行评分和排名。

留存/顾客留存（Retention / Customer Retention):指建立后能够长期维持的客户关系的百分比。

社交网络分析（Social Network Analysis, SNA）:描绘并测量人与人、组与组、机构与机构、电脑与电脑、URL与URL、以及其他种类相连的信息/知识实体之间的关系与流动。这些人或组是网络中的节点，而它们之间的连线表示关系或流动。SNA为分析人际关系提供了一种方法，既是数学的又是视觉的。

生存分析（Survival Analysis）:估测一名顾客继续使用某业务的时间，或在后续时段流失的可能性。此类信息能让企业判断所要预测时段的顾客留存，并引入合适的忠诚度政策。

文本挖掘（Text Mining）:对包含自然语言的数据的分析。对源数据中词语和短语进行统计计算，以便用数学术语表达文本结构，之后用传统数据挖掘技术分析文本结构。

非结构化数据（Unstructured Data）：数据要么缺乏事先定义的数据模型，要么没按事先定义的规范进行组织。这个术语通常指那些不能放在传统的列式数据库中的信息，比如电子邮件信息、评论。

网络挖掘/网络数据挖掘（Web Mining / Web Data Mining): 使用数据挖掘技术从互联网站点、文档或服务中自动发现和提取信息。

以上是小编为大家分享的关于数据挖掘与预测分析术语总结的相关内容，更多信息可以关注环球青藤分享更多干货

㈤浅谈数据挖掘与数据仓库

浅谈数据挖掘与数据仓库
1数据挖掘
1.1数据挖掘与传统数据分析的区别
数据挖掘与传统的数据分析，如查询、报表、联机应用分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越出乎意料就可能越有价值。而传统的数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件。因此数据挖掘与传统分析方法有很大的不同。
1.2数据挖掘的应用价值
（1）分类：首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。（2）估计：与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类是确定数目的，估计是不确定的。（3）聚类：是对记录分组。聚类和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。中国移动采用先进的数据挖掘工具马克威分析系统，对用户wap上网的行为进行聚类分析，通过客户分群，进行精确营销。（4）关联规则和序列模式的发现：关联是某种事物发生时其他事物会发生的这样一种联系。例如：每天购买啤酒的人也有可能购买香烟，比重有多大，可以通过关联的支持度和可信度来描述。与关联不同，序列是一种纵向的联系。例如：今天银行调整利率，明天股市的变化。（5）预测：通过分类或估值得出模型，该模型用于对未知变量的预言。（6）偏差的检测：对分析对象的少数的、极端的特例的描述，揭示内在的原因。除此之外，在客户分析，运筹和企业资源的优化，异常检测，企业分析模型的管理的方面都有广泛使用价值。
2数据仓库
2.1数据仓库的特征
（1）面向主题（Subject Oriented）的数据集合。数据仓库围绕一些主题如顾客、供应商、产品和销售来组织。数据仓库关注决策者的数据建模与分析，而不是组织机构的日常操作和事务处理。（2）集成（Integrated）的数据集合。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。（3）时变（Time Variant）的数据集合。数据存储从历史的角度提供信息。数据仓库中的数据通常包含历史信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。（4）非易失（Nonvolatile）的数据集合。数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，修改和删除操作很少，通常只需要定期的加载、刷新。数据仓库里的数据通常只需要两种操作：初始化载入和数据访问，因此其数据相对稳定，极少或根本不更新。[page] 2.2数据仓库的类型
数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围，一般可将数据仓库分为下列3种类型：企业数据仓库（EDW）、操作型数据库（ODS）和数据集市（Data Marts）。①企业数据仓库为通用数据仓库，它既含有大量详细的数据，也含有大量累赘的或聚集的数据，这些数据具有不易改变性和面向历史性。此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。②操作型数据库既可以被用来针对工作数据做决策支持，又可用做将数据加载到数据仓库时的过渡区域。与EDW相比，ODS是面向主题和面向综合的，易变的，仅含有目前的、详细的数据，不含有累计的、历史性的数据。③数据集市是为了特定的应用目的或应用范围，而从数据仓库中独立出来的一部分数据，也可称为部门数据或主题数据。几组数据集市可以组成一个EDW。
2.3数据仓库与传统数据库的比较
二者的联系既有联系又有区别。数据仓库的出现，并不是要取代数据库。目前，大部分数据仓库还是用关系数据库管理系统来管理的。可以说，数据库、数据仓库相辅相成、各有千秋。二者的区别可以从以下几个方面进行比较：
（1）出发点不同：数据库是面向事务的设计；数据仓库是面向主题设计的。（2）存储的数据不同：数据库一般存储在线交易数据；数据仓库存储的一般是历史数据。（3）设计规则不同：数据库设计是尽量避免冗余，一般采用符合范式的规则来设计；数据仓库在设计是有意引入冗余，采用反范式的方式来设计。（4）提供的功能不同：数据库是为捕获数据而设计，数据仓库是为分析数据而设计。（5）基本元素不同：数据库的基本元素是事实表，数据仓库的基本元素是维度表。（6）容量不同：数据库在基本容量上要比数据仓库小的多。（7）服务对象不同：数据库是为了高效的事务处理而设计的，服务对象为企业业务处理方面的工作人员；数据仓库是为了分析数据进行决策而设计的，服务对象为企业高层决策人员。
3数据仓库与数据挖掘的关系
当然为了数据挖掘你也不必非得建立一个数据仓库，数据仓库不是必需的。建立一个巨大的数据仓库，把各个不同源的数据统一在一起，解决所有的数据冲突问题，然后把所有的数据导到一个数据仓库内，是一项巨大的工程，可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘，你可以把一个或几个事务数据库导到一个只读的数据库中，就把它当作数据集市，然后在他上面进行数据挖掘。

㈥对于数据仓库你知道多少

对于数据仓库你知道多少
数据仓库是商业智能系统的基础，以往的数据库系统主要用于事务处理，很难或无法实现分析处理。近年来，越来越多的数据分析与决策信息支持在被企业所重视，数据仓库技术应运而生。
数据仓库的定义
目前对于数据仓库还没有统一的定义，被称为数据仓库之父的BillInmon在其着作《（Building the Data Warehouse））一书中给出的定义被广泛接受：数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non.Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。
可以从两个层面对数据仓库的概念进行理解，首先数据仓库是面向分析处理的，主要用来支持决策制定；再者数据仓库包含历史数据，是对多个异构的数据源数据按照主题的集成，它的数据相对固定，不会经常改动。
数据仓库的特点
面向主题、集成、相对稳定、反映历史变化是对数据仓库的定义，也是对数据仓库特点的描述，下面分别解释它们的含义。
（1）面向主题的：数据仓库的数据都是按照一定的业务主题进行组织的，面向主题体现在数据仓库的建设中，而且还包含在业务数据分析和存储上。
（2）集成的：数据仓库中的数据来自各个不同的分散数据库中，它并不是对源数据库数据的简单拷贝，而是按照划分好的主题和数据分析要求，经过数据抽取、清理、汇总和整理等步骤，消除源数据中的错误和不一致数据，保证数据仓库中数据的正确性和可用性，所以它是整合集成的。
（3）相对稳定的：数据仓库的稳定性体现在它的非易失性上，由于数据仓库是面向分析的，其中的数据是从业务数据中加载过来的历史数据，所进行的主要操作是查询和分析，供决策分析使用，所以其修改和删除操作很少，只需要定期的增量加载，所以具有相对稳定特征。
（4）反映历史变化：数据仓库必须能够不断地捕捉业务系统中的变化数据，记录企业生产过程的各个阶段的信息，以满足决策分析的需要，所以必须实时地把新变化的业务数据追加到数据仓库中去，通过数据随时问变化的研究和分析，可以对企业的发展历程和未来趋势做出定量分析和预测。
可见数据仓库与业务数据库的不同之处体现在：数据库是面向事务的设计，数仓库是面向主题设计的；数据库一般存储在线交易数据，数据仓库存储的一般是历史数据；数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计；数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。

㈦数据仓库的含义,数据仓库和数据库的区别.

什么是数据仓库

目前，数据仓库一词尚没有一个统一的定义，着名的数据仓库专家 W.H.Inmon 在其着作《 Building the Data Warehouse 》一书中给予如下描述：数据仓库（ Data Warehouse ）是一个面向主题的（ Subject Oriented ）、集成的（ Integrate ）、相对稳定的（ Non-Volatile ）、反映历史变化（ Time Variant ）的数据集合，用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解，首先，数据仓库用于支持决策，面向分析型数据处理，它不同于企业现有的操作型数据库；其次，数据仓库是对多个异构的数据源有效集成，集成后按照主题进行了重组，并包含历史数据，而且存放在数据仓库中的数据一般不再修改。

数据库是一个装数据（信息的原材料）的地方。
数据仓库是一种系统，这种系统也是用数据库装东西。
数据仓库系统（用数据库装东西）与其他基础业务系统（例如财务系统、销售系统、人力资源系统等，也是用数据库装东西）的区别是：
基础业务系统的特点是各管各的，例如财务系统生产了白菜，那么用一个数据库来装，人力资源系统生产了猪肉，再用一个数据库来装。我要做一道菜，需要分别到各个数据库去取，比较麻烦（现实的情况是大部分时候让种菜的农民伯伯送过来，但送过来的东西不一定是我想要的，而且不同的时候我想要不同的东西，经常会被农民伯伯骂，弄得双方都不开心）。另外一方面，各个数据库中放的是一些比较原始的东西，我要拿过来做菜，还需要经过很麻烦的清洗过程，一不小心里面可能就藏着一条大青虫。
那么，数据仓库系统就是建立一个大的超市，将各地农民伯伯出产的东西收集过来，清洗干净，分门别类地放好。这样，你要哪种菜的时候，直接从超市里面拿就可以了。

早期一直不理解数据仓库是什么困惑得很。

宏观一点讲，数据仓库就是堆放公司所有数据的地方，之所以把数据都堆在一起，是为了从中间找到有价值的东西。

数据仓库更多的是一个概念，不要把数据仓库想成那些号称是数据仓库的软件产品们。

数据仓库的物理上就是数据库。相对业务系统数据库叫 OLTP 数据库（用于业务处理），这种数据库叫 OLAP 数据库（用于业务分析）。

数据仓库的概念是针对以下基本需求产生的：
公司的业务系统很多，业务系统的历史数据不方便查询。不同的业务系统往往管理部门不同，地域不同。能不能将所有这些数据集中起来，再淘淘有没有有意义的业务规律。

数据仓库数据库往往很大，因为公司所有的数据集中得越多，越能淘到有价值的发现。例如随便就 100G 以上。

数据仓库的组成十分繁杂，既有业务系统的历史数据，又有人事、财务数据，还要自己建一些基础性的数据，例如，公共假期数据、地理信息、国家信息等等。

数据仓库概念包含从业务生产系统采集数据的程序，这个程序还不能影响业务系统的运行。（属于所谓 “ETL” 过程）

数据仓库包括业务系统长期的历史数据，例如 5 年，用来分析。（所谓 “ODS” 数据）

数据仓库包括针对某相业务值（例如销售量）重新打上标签的业务流水数据。（所谓 “ 事实表 ” 、 “ 维度表 ” ）。

数据仓库概念兴许还包含报表生成工具（所谓 “BI” 工具）。这些工具能够达到几年前所谓 DSS （决策分析）的效果。

数据仓库的客户历史资量的分析，也许又与 CRM 系统粘点边。

总之，一点，一个公司想针对已有的历史业务数据，充分的利用它们，那么就上数据仓库项目。至于哪些吓唬人的大写字母的组合，只是达到这个目标的科学技术罢了。

牢记住数据仓库的基本需求，不要被供应商吓着。

数据仓库可以说是决策支持系统，能帮助老板了解企业的整体全貌，看到数据仓库提供的经过整理统计归纳的数据后老板凭自己的管理经验可以发现企业的问题或困难或成功因素在哪一方面，然后可以不断的追溯数据，直到确定到最具体的细节上，这样能够不断提升老板或管理层的管理水平，不断改善企业的管理。我们知道的最好的一个例子就是美国某大型超市啤酒和尿布的故事。
沃尔玛公司在美国的一位店面经理曾发现，每周，啤酒和尿布的销量都会有一次同比攀升，一时却搞不清是什么原因。后来，沃尔玛运用商业智能（ Business Intelligence ，简称ＢＩ）技术发现，购买这两种产品的顾客几乎都是 25 岁到 35 岁、家中有婴儿的男性，每次购买的时间均在周末。沃尔玛在对相关数据分析后得知，这些人习惯晚上边看球赛、边喝啤酒，边照顾孩子，为了图省事而使用一次性的尿布。得到这个结果后，沃尔玛决定把这两种商品摆放在一起，结果，这两种商品的销量都有了显着增加。
数据库是数据仓库的基础。数据仓库实际上也是由数据库的很多表组成的。需要把存放大量操作性业务数据的数据库经过筛选、抽取、归纳、统计、转换到一个新的数据库中。然后再进行数据展现。老板关注的是数据展现的结果。

数据仓库 (DATA WAREHOUSE/DATA MART) 的另一重要概念是数据从不同的数据库 (DATABASES) 里调出经过 ETL 工具 ( 如 POWERCENTRE ， DECISIONSTREAM, SQL SERVER 2000 DTS, SQL SERVER 2005 SSIS) 过程进行清理，确证，整合并设计成多维 (dimensional framework) 。以保证数据的正确、准确、完整 , 这是非常重要的一点。
我们现在的项目稳定运行了 6 年多，一直自己开发，最近慢慢开始使用 datastage 。很多大型项目之所以用工具，是因为工具的本身的特点是开发快，效率相对还可以，让你更好地有精力用在业务、数据库的优化以及数据测试上，和数据质量本身并没有关系。
而数据质量关系最密切的还是从设计（架构、模型等）、业务关系的理解、项目管理（含和客户的交流，以及遵从开发流程和测试流程）等一系列项目工程的过程。这也是为什么很多项目使用了 ETL 工具，但是数据质量还是提高不大的主要原因。

数据仓库的作用重在数据的集中管理。集中管理的最终目的是为了分析，预测。
所谓的 ETL 。不过是数据仓库的构建的一个必须过程。数据的抽取转换与装载，都是为了集中管理所做的基础工作，这些数据与动作的描述，都会有有响应的元数据进行描述。
在数据仓库建模的过程，我们一般都是采用多维模型，如星形，雪花型等等，这样做最大的特点就是效率高，数据的冗余度低。所以，把 OLAP 与数据仓库混为一谈我认为是片面的解释。
我们也可以选择业务逻辑模型建立数据仓库，这是很早以前的做法了，特点就是效率不高，数据的冗余度高，但他能实现非常难以表达的业务逻辑设计。
基于数据仓库最重要的是分析与预测，我认为，历史现在将来是数据仓库的精华。。
基于数据仓库的 DM ， OLAP 都是为了分析与预测。为了让使用企业单位更好的把握现在，预测将来，因此他最实效的说法我认为是给决策者与管理者进行决策管理提供分析与预测的依据。

另外，数据仓库还会起到历史数据分类归档的目的（就像图书馆一样），届时可以通过检索条件方便的查询历史信息；而同类信息在 OLTP 中早已被更新了。
至于它的分析功能，就象气象考古研究工作，在不同深度的冰川中保存着当时的气象信息，否则拿什么预测气候变化趋势呢！
不过，要有相当的管理及技术储备以及管理层的强力支持才可以。先有需求，并具备了必要条件才可上马，否则您的数据仓库将不是超市而是个垃圾堆， “garbage in ， then garbage out” ！
所以，我认为是企业信息化建设及科学管理水平的提高催生了数据仓库的必然产生，不要赶时髦，炒概念，关键还是冷静分析自己企业的现实状况是否到了必须部署数据仓库的阶段了！
至于如何说服管理者，则需要您的努力了，不要站在您技术人员的立场阐述问题， CEO 对技术问题不感兴趣，站在他们的角度考虑问题，回答诸如 “ 我们投入如此大的资金、人力，同时面对升级系统的巨大风险，目的何在？ ” 记住， CEO 和 CFO （甚至包括 CIO ）是更希望用数字说话的，您分析一下公司的管理决策流程，就可以向他们提出很有价值的决策支持报表，而部门经理（或类似人员）每季度也不必头大的制作相关分析报表了，节省的精力可以做更多有价值的事情，这就是企业人力资源利用率的巨大提升，可以节省多少银子，恐怕 CEO 不会用你提示了吧！

㈧基于微信大数据的股票预测研究

基于微信大数据的股票预测研究
大数据是近些年来的热门话题，无论国际上还是国内，影响很大。经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展，进而影响人类的价值体系、知识体系和生活方式。而全球经济目前生成了史无前例的大量数据，如果把每天产生的大量数据比作神话时期的大洪水是完全正确的，这个数据洪流是我们前所未见的，他是全新的、强大的、当然，也是让人恐慌但又极端刺激的。
而我所分享的话题，正是在互联网环境下，如何利用大数据技术，进行股票预测的研究。–今天，我想分享我认为有意义的四点。
1.大数据下的商业预测
根据大数据，我们可以有效地进行故障、人流、流量、用电量、股票市场、疾病预防、交通、食物配送、产业供需等方面的预测。而本文我们所关心的内容是股票市场的预测。
大数据的核心是预测，预测依赖于对数据的分析。那么分析的方法是否是基于随机采样的结果而设计的，这样的分析方法是否会有误差？
从传统认识上，由于资源和科技的局限，如人和计算资源受限、从计算机处理能力来讲无法处理全部数据来获取人们所关注的结果。因此随机采样应运而生，通过所选取的个体来代表全体，如使用随机抽取的方式来使得推论结果更科学。但既然提到了大数据，它是资源发展到一定程度、以及技术发展到一定阶段产生的一个新的认识。如同电力的出现，使人类进入了一个快速发展阶段，大数据也一样，它的含义是全体样本，从整体样本来做推论。在本文大数据的含义是所有股票在整个社交网络上的流动信息，从数据源上讲，本文没有采用所有社交网络上的数据，只分析了微信这个最具代表性的社交媒体作为信息源。
互动数据能反映用户情绪，搜索数据能反映用户的关注点和意图，在股市预测时这两种数据哪种更具有参考价值？
我认为都有价值，互动数据反映了用户对某一特定股票的喜好和厌恶，可以简单描述为对该股票的操作是继续持有还是卖出；而搜索数据则代表用户在收集该股票信息的过程，它是关注度的概念，某只股票搜索度高则意味着消息的影响力大。互动代表着方向，搜索代表着振幅。
我们知道这两种数据得出的结论会有差异，您是如何平衡这两种数据反映的情况来进行预测的？
正如上一个问题里提到的，如果是股票推荐，买进卖出等原则问题，则应该考虑互动数据，但如果已经买到手了，搜索数据可以提供一个幅度的概念，类似债券评级A级、AA级、AAA级等，供投资者参考，因为不同投资者对风险的承受度是不同的。
将股票和市场的消息整理成140字的短消息发布，是否意味着主要发布渠道是微博？现在微信公众号很火，有没有考虑通过这个渠道也发布消息？
事实上，信息传播的方式很多，微信作为新媒体当然影响力不容小觑，但目前技术投入最小的还是邮件、短信等方式，未来会考虑使用公众号来推送股票和市场消息。
如果在未来通过微信公众号推送消息，那么推送的消息会不会作为数据来源被再次采集？这会有多大的影响？
会被采集，但互联网上的每日关于个股的信息数量会达到很大，该推送会增加推荐股票1点权重，每只股票的权重成百上千，因此影响极小。
数据来源是微信公众号，除了准确性的考虑之外，是否还考虑过这样收集数据会较少触犯个人隐私？
从法律角度来看，搜索微信或其他个人聊天记录，是侵犯个人隐私权的，因此如果腾讯开放了这样的接口，每个公民都可以对这样的行为进行投诉、抗议、甚至进行法律起诉直至其改正过错、赔偿损失的。
这样是否意味着即使存在违法的行为，其结果也是由腾讯来承担，而我们作为数据的使用方不需要承担任何法律责任？
在整个社会，我们作为系统技术提供方，应恪守大数据的伦理道德，遵守国家法律，如侵犯个人隐私，系统不会采集，谷歌有一句座右铭“谷歌不作恶”，本文提到的系统也一样。
2.基于大数据进行股票推荐实验
股票的及时度反应了微信文章所发布的时效性，及时度越高，数据价值就越大。
股票的热度反应了当前某只股票被关注的频度，关注频度越大，上涨的可能性越高。

数据的完整性：我们采用循环的方式对所有深沪两地发行约2236只股票（创业版除外）在微信搜索网站上的搜索结果进行保存。
数据的一致性：文件格式由负责保存数据文件的程序决定，单一的流程保障了文件的一致性。
数据的准确性：由于所分析的订阅号文章的是由微信公共平台的公众号所提供，在一定程度上杜绝了虚假消息对于预测系统的破坏。
数据的及时性：考虑到磁盘读写以及采集程序所处的网络带宽，以及搜索引擎对于采集程序的屏蔽，程序中采集两条信息之间间隔了5秒，因此理论上11180秒（3.1个小时）可收集完当日推荐所需要的数据。对于每个交易日，在9点-9点30分之间采集所有数据，需要7台以上的设备可达到最佳效果。本次试验受限于试验设备，在一台设备上，交易日每天早六时开始进行数据采集，也满足及时性要求。
数据分析：查看三个高优先级的股票，该股票当日的开盘价与收盘价，再与当日（2015-4-8）上证综指进行比较，可得在收益上该算法是优于上证综指为样本的整体股票的股价差收益的。
实验结论：按照上述方式，系统每天推荐出当日股票，在开盘时进行买进，在第二个交易日进行卖出。经过一个月21个交易日（2015-3-1至2015-3-31），系统的收益为20%/月。通过微信搜索公众号来预测市场走势和投资情绪呈现出正相关性，因此可以作为股票甄选的因子。
3.股票预测的大数据发展趋势
网络数据分成三种：
一是浏览数据，主要用于电商领域的消费者行为分析，浏览数据反映了用户每一步的访问脚步，进一步刻画出用户的访问路径，分析不同页面的跳转概率等。
二是搜索数据，主要指搜索引擎记录的关键词被搜索频次的时间序列数据，能反映数亿用户的兴趣、关注点、意图。
三是互动数据，主要是微博、微信、社交网站的数据，反映用户的倾向性和情绪因素。
2013年诺贝尔经济学奖得主罗伯特?席勒的观点被无数采访对象引述。席勒于上世纪80年代设计的投资模型至今仍被业内称道。在他的模型中，主要参考三个变量：投资项目计划的现金流、公司资本的估算成本、股票市场对投资的反应（市场情绪）。他认为，市场本身带有主观判断因素，投资者情绪会影响投资行为，而投资行为直接影响资产价格。
计算机通过分析新闻、研究报告、社交信息、搜索行为等，借助自然语言处理方法，提取有用的信息；而借助机器学习智能分析，过去量化投资只能覆盖几十个策略，大数据投资则可以覆盖成千上万个策略。
基于互联网搜索数据和社交行为的经济预测研究，已逐渐成为一个新的学术热点，并在经济、社会以及健康等领域的研究中取得了一定成果。在资本市场应用上，研究发现搜索数据可有效预测未来股市活跃度（以交易量指标衡量）及股价走势的变化。
对于搜索数据：互联网搜索行为与股票市场的关联机理。这个研究属于行为金融与互联网的交叉领域，其原理是：股票量价调整是投资者行为在股票市场上的反应；与此同时，投资者行为在互联网搜索市场也有相应地行为迹象，我们要做到是：找到互联网搜索市场中领先于股票交易的行为指标，综合众多投资者的先行搜索指标，对未来的股票交易做出预判。
如同天气预报那样，不断优化模型、灌入海量信息，然后给出结果。并且在处理的信息中，有80%是“非结构化”数据，例如政策文件、自然事件、地理环境、科技创新等，这类信息通常是电脑和模型难以消化的。采用了语义分析法，可以将互动数据里的金融对话量化为“-1（极度看空）”到“1（极度看多）”之间的投资建议，通过分析互动数据的数据文本，作为股市投资的信号。
4.正在发生的未来
大数据并不是一个充斥着算法和机器的冰冷世界，人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案，只是参考答案，帮助是暂时的，而更好的方法和答案还在不久的将来。
大数据在实用层面的影响很广泛，解决了大量的日常问题。大数据更是利害攸关的，它将重塑我们的生活、工作和思维方式。在某些方面，我们面临着一个僵局，比其他划时代创新引起的社会信息范围和规模急剧扩大所带来的影响更大。我们脚下的地面在移动。过去确定无疑的事情正在受到质疑。大数据需要人们重新讨论决策、命运和正义的性质。拥有知识曾意味着掌握过去，现在则意味着能够预测未来。
大数据并不是一个充斥着算法和机器的冰冷世界，其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的，因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。这提示我们应该乐于接受类似的不准确，因为不准确正是我们之所以为人的特征之一。就好像我们学习处理混乱数据一样，因为这些数据服务的是更加广大的目标。必将混乱构成了世界的本质，也构成了人脑的本职，而无论是世界的混乱还是人脑的混乱，学会接受和应用他们才能得益。
我相信，利用基础数据、搜索数据、互动数据再进行加权计算，可以对所有股票进行大数据遴选，从而给出投资建议。我认为，我们的肉身刚刚步入大数据时代，但我们的精神还滞留在小数据、采样思维之中，率先用理性击碎固有思维的人，也将率先获得大数据带来的益处。

㈨哪些商业应用在数据仓库中即使拥有过期的数据也依然有效

在大数据成为趋势，成为国家战略的今天，如何最大限度发挥大数据的价值成为人们思考的问题。无论是对于互联网企业、电信运营商还是数量众多的初创企业而言，大数据的变现显得尤为重要。谁最先一步找到密码，谁就能够抢占市场，赢得发展。在探索大数据商业模式的同时，大数据正加速在各行各业的应用，大数据不仅为人们的购物、出行、交友提供了帮助，甚至还在高考这样重要的事件中发挥作用。大数据产业具有无污染、生态友好、低投入高附加值特点，对于我国转变过去资源因素型经济增长方式、推进“互联网+”行动计划、实现国家制造业30年发展目标有战略意义。前几年，国内大数据产业讨论较多、落地较少，商业模式处于初探期，行业处于两种极端：一种是过热的浮躁带来了一定的泡沫和产业风险；一种是怀疑大数据只是炒作，依然坚持传统管理理念、经营模式。但是进入2015年之后，大数据产业告别了泡沫，进入更务实的发展阶段，从产业萌芽期进入了成长期。当前，如何将大数据变现成为业界探索的重要方向。B2B大数据交易所国内外均有企业在推动大数据交易。目前，我国正在探索“国家队”性质的B2B大数据交易所模式。2014年2月20日，国内首个面向数据交易的产业组织—中关村大数据交易产业联盟成立，同日，中关村数海大数据交易平台启动，定位大数据的交易服务平台。2015年4月15日，贵阳大数据交易所正式挂牌运营并完成首批大数据交易。贵阳大数据交易所完成的首批数据交易卖方为深圳市腾讯计算机系统有限公司、广东省数字广东研究院，买方为京东云平台、中金数据系统有限公司。2015年5月26日，在2015贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会上，贵阳大数据交易所推出《2015年中国大数据交易白皮书》和《贵阳大数据交易所702公约》，为大数据交易所的性质、目的、交易标的、信息隐私保护等指明了方向，奠定了大数据金矿变现的产业基础。咨询研究报告国内咨询报告的数据大多来源于国家统计局等各部委的统计数据，由专业的研究员对数据加以分析、挖掘，找出各行业的定量特点进而得出定性结论，常见于“市场调研分析及发展咨询报告”，如“2015～2020年中国通信设备行业市场调研分析及发展咨询报告”、“2015～2020年中国手机行业销售状况分析及发展策略”、“2015年光纤市场分析报告”等，这些咨询报告面向社会销售，其实就是O2O的大数据交易模式。各行各业的分析报告为行业内的大量企业提供了智力成果、企业运营和市场营销的数据参考，有利于市场优化供应链，避免产能过剩，维持市场稳定。这些都是以统计部门的结构化数据和非结构化数据为基础的专业研究，这就是传统的一对多的行业大数据商业模式。数据挖掘云计算软件云计算的出现为中小企业分析海量数据提供了廉价的解决方案，SaaS模式是云计算的最大魅力所在。云计算服务中SaaS软件可以提供数据挖掘、数据清洗的第三方软件和插件。业内曾有专家指出，大数据=海量数据+分析软件+挖掘过程，通过强大的各有千秋的分析软件来提供多样性的数据挖掘服务就是其盈利模式。国内已经有大数据公司开发了这些架构在云端的大数据分析软件：它集统计分析、数据挖掘和商务智能于一体，用户只需要将数据导入该平台，就可以利用该平台提供的丰富算法和模型，进行数据处理、基础统计、高级统计、数据挖掘、数据制图和结果输出等。数据由系统统一进行管理，能够区分私有和公有数据，可以保证私有数据只供持有者使用，同时支持多样数据源接入，适合分析各行各业的数据，易学好用、操作界面简易直观，普通用户稍做了解即可使用，同时也适合高端用户自己建模进行二次开发。大数据咨询分析服务机构及企业规模越大其拥有的数据量就越大，但是很少有企业像大型互联网公司那样有自己的大数据分析团队，因此必然存在一些专业型的大数据咨询公司，这些公司提供基于管理咨询的大数据建模、大数据分析、商业模式转型、市场营销策划等，有了大数据作为依据，咨询公司的结论和咨询成果更加有说服力，这也是传统咨询公司的转型方向。比如某国外大型IT研究与顾问咨询公司的副总裁在公开场合曾表示，大数据能使贵州农业节省60%的投入，同时增加80%的产出。该公司能做出这样的论断当然是基于其对贵州农业、天气、土壤等数据的日积月累以及其建模分析能力。政府决策咨询智库党的十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》明确提出，加强中国特色新型智库建设，建立健全决策咨询制度。这是中共中央文件首次提出“智库”概念。近几年，一批以建设现代化智库为导向、以服务国家发展战略为目标的智库迅速成立，中国智库数量从2008年的全球第12位跃居当前第2位。大数据是智库的核心，没有了数据，智库的预测和分析将为无源之水。在海量信息甚至泛滥的情况下，智库要提升梳理、整合信息的能力必然需要依靠大数据分析。研究认为，93%的行为是可以预测的，如果将事件数字化、公式化、模型化，其实多么复杂的事件都是有其可以预知的规律可循，事态的发展走向是极易被预测的。可见，大数据的应用将不断提高政府的决策效率和决策科学性。自有平台大数据分析随着大数据的价值被各行各业逐渐认可，拥有广大客户群的大中型企业也开始开发、建设自有平台来分析大数据，并嵌入到企业内部的ERP系统信息流，由数据来引导企业内部决策、运营、现金流管理、市场开拓等，起到了企业内部价值链增值的作用。在分析1.0时代，数据仓库被视作分析的基础。2.0时代，公司主要依靠Hadoop集群和NoSQL数据库。3.0时代的新型“敏捷”分析方法和机器学习技术正在以更快的速度来提供分析结果。的企业将在其战略部门设置首席分析官，组织跨部门、跨学科、知识结构丰富、营销经验丰富的人员进行各种类型数据的混合分析。大数据投资工具证券市场行为、各类指数与投资者的分析、判断以及情绪都有很大关系。2002年诺贝尔经济学奖授予了行为经济学家卡尼曼和实验经济学家史密斯，行为经济学开始被主流经济学所接受，行为金融理论将心理学尤其是行为科学理论融入金融中。现实生活中拥有大量用户数据的互联网公司将其论坛、博客、新闻报道、文章、网民用户情绪、投资行为与股票行情对接，研究的是互联网的行为数据，关注热点及市场情绪，动态调整投资组合，开发出大数据投资工具，比如大数据类基金等。这些投资工具直接将大数据转化为投资理财产品。定向采购线上交易平台数据分析结果很多时候是其他行业的业务基础，国内目前对实体经济的电子商务化已经做到了B2C、C2C、B2B等，甚至目前O2O也越来越流行，但是对于数据这种虚拟商品而言，目前还没有具体的线上交易平台。比如服装制造企业针对某个省份的市场，需要该市场客户的身高、体重的中位数和平均数数据，那么医院体检部门、专业体检机构就是这些数据的供给方。通过获取这些数据，服装企业将可以开展精细化生产，以更低的成本生产出贴合市场需求的服装。假想一下，如果有这样一个“大数据定向采购平台”，就像淘宝购物一样，可以发起买方需求，也可以推出卖方产品，通过这样的模式，外加第三方支付平台，“数据分析结论”这种商品就会悄然而生，这种商品不占用物流资源、不污染环境、快速响应，但是却有“供”和“需”双方巨大的市场。而且通过这种平台可以保障基础数据安全，大数据定向采购服务平台交易的不是底层的基础数据，而是通过清洗建模出来的数据结果。所有卖方、买方都要实名认证，建立诚信档案机制并与国家信用体系打通。非营利性数据征信评价机构在国家将公民信息保护纳入刑法范围之前，公民个人信息经常被明码标价公开出售,并且形成了一个“灰色产业”。为此，2009年2月28日通过的刑法修正案（七）中新增了出售、非法提供公民个人信息罪，非法获取公民个人信息罪。该法条中特指国家机关或者金融、电信、交通、教育、医疗等单位的工作人员，不得将公民个人信息出售或非法提供给他人。而公民的信息在各种考试中介机构、房产中介、钓鱼网站、网站论坛依然在出售，诈骗电话、骚扰电话、推销电话在增加运营商话务量的同时也在破坏整个社会的信用体系和公民的安全感。虽然数据交易之前是交易所规定的经过数据清洗的数据，但是交易所员工从本质上是无法监控全国海量的数据的。数据清洗只是对不符合格式要求的数据进行清洗，主要有不完整的数据、错误的数据、重复的数据三大类。因此，建立非营利性数据征信评价机构是非常有必要的，将数据征信纳入企业及个人征信系统，作为全国征信系统的一部分，避免黑市交易变成市场的正常行为。除了征信评价机构之外，未来国家公共安全部门也许会成立数据安全局，纳入网络警察范畴，重点打击将侵犯企业商业秘密、公民隐私的基础数据进行数据贩卖的行为。结语：大数据已经从论坛串场、浮躁的观点逐步走向国家治理体系建设、营销管理、生产管理、证券市场等方面，其商业模式也多种多样。市场经验表明，存在买卖就存在商品经济，具体哪种商业模式占主流将由市场决定。而最终的事实将证明，大数据交易商品经济必然成为“互联网+”的重要组成部分。

阅读全文

与基于数据仓库的股票交易数据分析与预测研究相关的资料

热点内容

60岁能开股票账户吗发布：2025-03-15 10:16:38 浏览：715

中国中冶股票今天发布：2025-03-15 10:11:39 浏览：429

看股票走势基本信息的app 发布：2025-03-15 10:10:50 浏览：629

万集科技股票历史交易数据发布：2025-03-15 09:45:35 浏览：332

科健股票为啥没退市发布：2025-03-15 09:39:59 浏览：190

百度泰豪科技股票发布：2025-03-15 09:27:42 浏览：6

st中昌股票目标价发布：2025-03-15 09:24:25 浏览：117

为什么我股票可取资金是0 发布：2025-03-15 09:18:33 浏览：308

中国奥园集团股票发布：2025-03-15 09:16:28 浏览：199

医疗器械公司股票排名发布：2025-03-15 09:09:20 浏览：532

一只股票多少手不会引起庄家发布：2025-03-15 08:49:07 浏览：675

账户卖了股票后钱少了很多发布：2025-03-15 08:48:21 浏览：910

股票业绩同向上升是什么意思发布：2025-03-15 08:46:52 浏览：615

一只股票被很多基金购买发布：2025-03-15 08:28:54 浏览：210

证券证户转移要把股票卖空吗发布：2025-03-15 08:18:31 浏览：550

股票最新和领先是什么意思发布：2025-03-15 08:18:31 浏览：746

财经股票app下载发布：2025-03-15 08:17:53 浏览：827

寿仙谷股票走势发布：2025-03-15 08:07:47 浏览：747

白云机场春运期间股票走势发布：2025-03-15 08:02:38 浏览：245

快退市的股票没人买怎么办发布：2025-03-15 07:43:56 浏览：904