① 基于微信大数据的股票预测研究
基于微信大数据的股票预测研究
大数据是近些年来的热门话题,无论国际上还是国内,影响很大。经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。而全球经济目前生成了史无前例的大量数据,如果把每天产生的大量数据比作神话时期的大洪水是完全正确的,这个数据洪流是我们前所未见的,他是全新的、强大的、当然,也是让人恐慌但又极端刺激的。
而我所分享的话题,正是在互联网环境下,如何利用大数据技术,进行股票预测的研究。–今天,我想分享我认为有意义的四点。
1.大数据下的商业预测
根据大数据,我们可以有效地进行故障、人流、流量、用电量、股票市场、疾病预防、交通、食物配送、产业供需等方面的预测。而本文我们所关心的内容是股票市场的预测。
大数据的核心是预测,预测依赖于对数据的分析。那么分析的方法是否是基于随机采样的结果而设计的,这样的分析方法是否会有误差?
从传统认识上,由于资源和科技的局限,如人和计算资源受限、从计算机处理能力来讲无法处理全部数据来获取人们所关注的结果。因此随机采样应运而生,通过所选取的个体来代表全体,如使用随机抽取的方式来使得推论结果更科学。但既然提到了大数据,它是资源发展到一定程度、以及技术发展到一定阶段产生的一个新的认识。如同电力的出现,使人类进入了一个快速发展阶段,大数据也一样,它的含义是全体样本,从整体样本来做推论。在本文大数据的含义是所有股票在整个社交网络上的流动信息,从数据源上讲,本文没有采用所有社交网络上的数据,只分析了微信这个最具代表性的社交媒体作为信息源。
互动数据能反映用户情绪,搜索数据能反映用户的关注点和意图,在股市预测时这两种数据哪种更具有参考价值?
我认为都有价值,互动数据反映了用户对某一特定股票的喜好和厌恶,可以简单描述为对该股票的操作是继续持有还是卖出;而搜索数据则代表用户在收集该股票信息的过程,它是关注度的概念,某只股票搜索度高则意味着消息的影响力大。互动代表着方向,搜索代表着振幅。
我们知道这两种数据得出的结论会有差异,您是如何平衡这两种数据反映的情况来进行预测的?
正如上一个问题里提到的,如果是股票推荐,买进卖出等原则问题,则应该考虑互动数据,但如果已经买到手了,搜索数据可以提供一个幅度的概念,类似债券评级A级、AA级、AAA级等,供投资者参考,因为不同投资者对风险的承受度是不同的。
将股票和市场的消息整理成140字的短消息发布,是否意味着主要发布渠道是微博?现在微信公众号很火,有没有考虑通过这个渠道也发布消息?
事实上,信息传播的方式很多,微信作为新媒体当然影响力不容小觑,但目前技术投入最小的还是邮件、短信等方式,未来会考虑使用公众号来推送股票和市场消息。
如果在未来通过微信公众号推送消息,那么推送的消息会不会作为数据来源被再次采集?这会有多大的影响?
会被采集,但互联网上的每日关于个股的信息数量会达到很大,该推送会增加推荐股票1点权重,每只股票的权重成百上千,因此影响极小。
数据来源是微信公众号,除了准确性的考虑之外,是否还考虑过这样收集数据会较少触犯个人隐私?
从法律角度来看,搜索微信或其他个人聊天记录,是侵犯个人隐私权的,因此如果腾讯开放了这样的接口,每个公民都可以对这样的行为进行投诉、抗议、甚至进行法律起诉直至其改正过错、赔偿损失的。
这样是否意味着即使存在违法的行为,其结果也是由腾讯来承担,而我们作为数据的使用方不需要承担任何法律责任?
在整个社会,我们作为系统技术提供方,应恪守大数据的伦理道德,遵守国家法律,如侵犯个人隐私,系统不会采集,谷歌有一句座右铭“谷歌不作恶”,本文提到的系统也一样。
2.基于大数据进行股票推荐实验
股票的及时度反应了微信文章所发布的时效性,及时度越高,数据价值就越大。
股票的热度反应了当前某只股票被关注的频度,关注频度越大,上涨的可能性越高。
数据的完整性:我们采用循环的方式对所有深沪两地发行约2236只股票(创业版除外)在微信搜索网站上的搜索结果进行保存。
数据的一致性:文件格式由负责保存数据文件的程序决定,单一的流程保障了文件的一致性。
数据的准确性:由于所分析的订阅号文章的是由微信公共平台的公众号所提供,在一定程度上杜绝了虚假消息对于预测系统的破坏。
数据的及时性:考虑到磁盘读写以及采集程序所处的网络带宽,以及搜索引擎对于采集程序的屏蔽,程序中采集两条信息之间间隔了5秒,因此理论上11180秒(3.1个小时)可收集完当日推荐所需要的数据。对于每个交易日,在9点-9点30分之间采集所有数据,需要7台以上的设备可达到最佳效果。本次试验受限于试验设备,在一台设备上,交易日每天早六时开始进行数据采集,也满足及时性要求。
数据分析:查看三个高优先级的股票,该股票当日的开盘价与收盘价,再与当日(2015-4-8)上证综指进行比较,可得在收益上该算法是优于上证综指为样本的整体股票的股价差收益的。
实验结论:按照上述方式,系统每天推荐出当日股票,在开盘时进行买进,在第二个交易日进行卖出。经过一个月21个交易日(2015-3-1至2015-3-31),系统的收益为20%/月。通过微信搜索公众号来预测市场走势和投资情绪呈现出正相关性,因此可以作为股票甄选的因子。
3.股票预测的大数据发展趋势
网络数据分成三种:
一是浏览数据,主要用于电商领域的消费者行为分析,浏览数据反映了用户每一步的访问脚步,进一步刻画出用户的访问路径,分析不同页面的跳转概率等。
二是搜索数据,主要指搜索引擎记录的关键词被搜索频次的时间序列数据,能反映数亿用户的兴趣、关注点、意图。
三是互动数据,主要是微博、微信、社交网站的数据,反映用户的倾向性和情绪因素。
2013年诺贝尔经济学奖得主罗伯特?席勒的观点被无数采访对象引述。席勒于上世纪80年代设计的投资模型至今仍被业内称道。在他的模型中,主要参考三个变量:投资项目计划的现金流、公司资本的估算成本、股票市场对投资的反应(市场情绪)。他认为,市场本身带有主观判断因素,投资者情绪会影响投资行为,而投资行为直接影响资产价格。
计算机通过分析新闻、研究报告、社交信息、搜索行为等,借助自然语言处理方法,提取有用的信息;而借助机器学习智能分析,过去量化投资只能覆盖几十个策略,大数据投资则可以覆盖成千上万个策略。
基于互联网搜索数据和社交行为的经济预测研究,已逐渐成为一个新的学术热点,并在经济、社会以及健康等领域的研究中取得了一定成果。在资本市场应用上,研究发现搜索数据可有效预测未来股市活跃度(以交易量指标衡量)及股价走势的变化。
对于搜索数据:互联网搜索行为与股票市场的关联机理。这个研究属于行为金融与互联网的交叉领域,其原理是:股票量价调整是投资者行为在股票市场上的反应;与此同时,投资者行为在互联网搜索市场也有相应地行为迹象,我们要做到是:找到互联网搜索市场中领先于股票交易的行为指标,综合众多投资者的先行搜索指标,对未来的股票交易做出预判。
如同天气预报那样,不断优化模型、灌入海量信息,然后给出结果。并且在处理的信息中,有80%是“非结构化”数据,例如政策文件、自然事件、地理环境、科技创新等,这类信息通常是电脑和模型难以消化的。采用了语义分析法,可以将互动数据里的金融对话量化为“-1(极度看空)”到“1(极度看多)”之间的投资建议,通过分析互动数据的数据文本,作为股市投资的信号。
4.正在发生的未来
大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的将来。
大数据在实用层面的影响很广泛,解决了大量的日常问题。大数据更是利害攸关的,它将重塑我们的生活、工作和思维方式。在某些方面,我们面临着一个僵局,比其他划时代创新引起的社会信息范围和规模急剧扩大所带来的影响更大。我们脚下的地面在移动。过去确定无疑的事情正在受到质疑。大数据需要人们重新讨论决策、命运和正义的性质。拥有知识曾意味着掌握过去,现在则意味着能够预测未来。
大数据并不是一个充斥着算法和机器的冰冷世界,其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。这提示我们应该乐于接受类似的不准确,因为不准确正是我们之所以为人的特征之一。就好像我们学习处理混乱数据一样,因为这些数据服务的是更加广大的目标。必将混乱构成了世界的本质,也构成了人脑的本职,而无论是世界的混乱还是人脑的混乱,学会接受和应用他们才能得益。
我相信,利用基础数据、搜索数据、互动数据再进行加权计算,可以对所有股票进行大数据遴选,从而给出投资建议。我认为,我们的肉身刚刚步入大数据时代,但我们的精神还滞留在小数据、采样思维之中,率先用理性击碎固有思维的人,也将率先获得大数据带来的益处。
② 怎样自动导出通达信股票数据
方法:打开一个股票的K线图,34,【数据导出】,【高级导出】,【添加股票】,把沪A、深A的股票全部选上,选择好路径,选择【开始导出】即可。
股票是股份公司发行的所有权凭证,是股份公司为筹集资金而发行给各个股东作为持股凭证并借以取得股息和红利的一种有价证券。每股股票都代表股东对企业拥有一个基本单位的所有权。每支股票背后都有一家上市公司。同时,每家上市公司都会发行股票的。
同一类别的每一份股票所代表的公司所有权是相等的。每个股东所拥有的公司所有权份额的大小,取决于其持有的股票数量占公司总股本的比重。
股票是股份公司资本的构成部分,可以转让、买卖,是资本市场的主要长期信用工具,但不能要求公司返还其出资。
③ 我想用c#写一些股票方面的小程序,请问有没有数据接口
您好,我们知道不管是不是要做股票模拟交易,还是股票自动化交易,都是需要股票数据的,这样我就必须找到股票数据接口。
经常有在sina看股票的就可以知道sina的股票数据也是即时的,所以我们也可以通过sina来实现股票数据接口。
可以在这边下载新浪股票数据接口。新浪股票数据接口,是免费的股票数据接口 但是新浪股票数据接口有一个缺陷,就是它不好提供全市场的数据,如果我们想要得到全市场的数据,而加大对新浪的需求的话 可能会导致新浪把我们的IP给封了,这样就悲剧啦。
所以我们需要找到的是股票商业数据接口, 现在有有一些商业公司在提供,比如银江股票接口,数畅股票接口,网际风股票接口, 这些数据的接口大部分在100-200每年,用起来的话还算是比较稳定的,但是他们提供的是传统的C++接口,然后做为我们新生代的程序员 看C++就有点累了。然后我们这边就提供了写好的C#股票数据接口,你可以方便把它做成C#行情写库软件,也可以把它做成C#的webservice股票接口。 我们股票行情写库对股票数据接口里面的大部分数据进行了优化,支持股票实时数据,股票分时数据,股票日线数据,股票日k线数据补全,除权数据。 未来还将支持财务数据。 我们自己的股票模拟交易也是用它的。
到现在已经稳定运行超过了1年了。 免费下载 C#行情写库软件 。 源代码的价格是800元。 行情写库软件的价格是400元。
④ 股票怎么添加自选
1、添加自选股的方法:例如用联想V14,十代酷睿笔记本电脑的WINDOWS 10系统,下载股票交易软件APP,打开股票交易软件,输入要添加的个股代码或简称,打开个股K线后,点击右键,选择“添加股票至自选”,就可以将股票加进系统预置或自己分类的自选里。
2、自选股,顾名思义,是把自己看好的股票加入到自己选定的自选股股行中,用时可以看多个股票,比较方便,单击鼠标右键即可回到界面,可察看股票走势。自己选择的股票库。在每个交易软件里都有“自选股”项目,将你选择的股票代码输入后,该股票的各种数据由软件自动生成。
(4)自动生成未来股票数据扩展阅读:
选股法则
确切地说,应该是30%,40%,50%,60%选股法则。
选股法则30%
是指机构持有该股流通股总和不低于现有流通股数量的30%。在股市里,想做好中长线,最重要是调研上市公司,但这对中小散户来讲,是一件可望而不可及的事,因此,一只有多家机构大笔买入的股票,就相当于这些机构免费为我们提供了买入这家上市公司的可行性报告。如果我们发现机构中不乏金牌基金的身影,无疑又增加了这份报告的可靠性。
选股法则40%
是指该上市公司最近3年的平均毛利率不低于40%。毛利率连年居高不下,说明该公司在整个行业中具有明显的竞争优势,该公司很可能拥有核心技术,拥有牢固的品牌地位,有很强的产品定价权,处于市场垄断地位,且较高的毛利率更有利于公司利润持续增长。这里需要一提的是,商业类上市公司因其业务的特殊性,不适合40%毛利率这一标准。
选股法则50%
是指最近3年该公司年平均复合增长率不低于50%。微软股价曾经创下了上涨十几万倍的纪录,索尼股价也曾创下了上涨3万倍的神话,戴尔的股价曾在10年间上涨近9000倍。这些国际级的超级大牛股的背后有一个共性,就是高企的年均复合增长率。而我们在沪深股市中能找的楷模当属苏宁电器,其凭借3年来每年接近90%的复合增长率,股价在3年多的时间上涨40多倍。这里还需说明一点,我们要尽可能选年增长率波动幅度较小的上市公司,假如一家公司最近3年时间有2年的增长率为零,有一年增长率超过500%,尽管年均复合增长率超过140%,但该公司并不是理想的选择。
选股法则60%
是指该公司当前股价不高于机构平均成本的60%。以上选股标准中的二、三两项我们很容易查找并计算出,而标准一则需要等到上市公司年度或季度报表公布后才能查到,这就决定我们很难和机构同步建仓。多数时候我们买入的价格要比机构建仓成本高出很多。因此把上限设在60%,这样才能减少股票市值在未来一段时如果以半年时间段来筛选,虽然符合上述四项选股标准的公司少得可怜,但总还能找到几只,其中广电运通和石基信息算是较为典型的了。比如从去年三季度报表来看,广电运通机构持有筹码占流通股35%,石基信息机构持有筹码占流通股32%;广电运通的最近3年平均毛利率为51%,石基信息最近3年平均毛利率是54.6%;广电运通最近3年的年均复合增长率为90%,石基信息最近3年的年均复合增长率为65%;广电运通的机构平均成本在每股75元左右,春节前收盘价高于机构平均成本30%左右,石基信息的机构平均成本在95元左右,春节前收盘价高于机构平均成本50%。
⑤ 如何用爬虫抓取股市数据并生成分析报表
1. 关于数据采集
股票数据是一种标准化的结构数据,是可以通过API接口访问的(不过一般要通过渠道,开放的API有一定的局限性)。也可以通过爬虫软件进行采集,但是爬虫软件采集数据不能保证实时性,根据数据量和采集周期,可能要延迟几十秒到几分钟不等。我们总结了一套专业的爬虫技术解决方案(Ruby + Sidekiq)。能够很快实现这个采集,也可以后台可视化调度任务。
2. 关于展现
网络股票数据的展现,网页端直接通过HTML5技术就已经足够,如果对界面要求高一点,可以采用集成前端框架,如Bootstrap;如果针对移动端开发, 可以使用Ionic框架。
3. 关于触发事件
如果是采用Ruby on Rails的开发框架的话,倒是很方便了,有如sidekiq, whenever这样子的Gem直接实现任务管理和事件触发。
⑥ 如何自选股票行情数据导入
以下操作环境均为windows10系统。
打开Wind后,点击”股票“”自选股监控“,然后会打开”我的自选股“窗口,此时点击右上角”设置自选“,在打开的”板块管理“窗口中,继续点击右上角”新建“”新建板块“即可创建你的自选股板块,并为你的自选股板块命名。命名完成之后,在上方工具栏中选择导入自选股的方式,有如下几种:”手工选择“,”粘贴导入“,”文件导入“。当要导入很多个股票时,”手工选择“过于麻烦,建议选择”文件导入“,将保存在txt文件中的股票代码导入即可。
自选股就是自己选择的股票,在使用炒股软件时也可以将自选股意为把自己选择好的股票添加到自己选定的自选股股行中。自选股股行可以很方便的同时看多个股票,想要看这些股票的走势时可以单击鼠标右键回到软件页面即可。每个股票交易软件中都有“自选股”这个选项,只要输入你所选择的股票的代码,相应股票的各种数据就会被软件自动生成。归入自选股之后就不用在分散寻找这支股票的不同信息。
一,选股法则之30%
这里的30%指的是投资机构持有该支流通股的总和不能低于股票市场现有流通股数量的30%。在股票市场中,想要做好中长线的投资,最重要的先决条件是对上市企业进行调研,但这种调研对于散户来说是很难。所以当有一支股票被很多家机构购买时,就相当于这些机构为我们免费提供了买这家公司股票的可行性报告。
二,选股法则之40%
这里的40%指的是该上市企业最近3年的平均毛利率不能低于40%。如果该企业每年的毛利率都很高,就说明该企业在整个行业里都有具备很明显的竞争优势。这家企业可能拥有牢靠的品牌地位,核心科技以及强大的产品定价权,也可能是出于市场垄断地位。比较高的毛利率有利于推动企业利益的持续增长。此外需要注意商业类上市公司的业务具有特殊性,所以并不适合这条法则。
摘要
打开Wind后,点击”股票“”自选股监控“,然后会打开”我的自选股“窗口,此时点击右上角”设置自选“,在打开的”板块管理“窗口中,继续点击右上角”新建“”新建板块“即可创建你的自选股板块,并为你的自选股板块命名。
⑦ 怎样把一个股市软件的自选股转到另一个股票软件
投资者首先用需要导出的自选股软件把自选股导出到指定位置,然后登录新的证券软件,在工具栏找到自选股点击导入自选股,然后找到导出的自选股文件之后进行导入,确认无误后即可完成自选股从旧的软件导入目标软件。
不同软件可能有所不同,不过都是大同小异的。比如在通达信,首先点开“工具”——“用户板块设置”选中自选股一项,再按“导出”,选择一个导出的地址后,进入另一个股票软件,按同样步骤,进入“用户板块设置”,新建一个板块或选中自选股后,按“导入”,找到你刚才“导出”的地址导入即可!
自选股就是自己挑选的股票的股票库。自选股一般是在每股股交易软件的自选股项目中,你选择的股票代码输入后,该股票的各种数据由软件自动生成。自选股是把自己看好的股票加入到自己选定的自选股股行中,用时可以看多个股票,比较方便,单击鼠标右键即可回到界面,可察看股票走势。自己选择的股票库。在每个交易软件里都有“自选股”项目,将你选择的股票代码输入后,该股票的各种数据由软件自动生成。这样就不用再在其它地方分散找,调阅起来很方便。导出自选股首先需要登录到炒股软件,找到软件的设置按钮,点击设置按钮,并在弹出的下拉菜单中找到"自定义板块设置",点击并打开,然后在自定义板块设置界面,找到自选股文件项,然后选中它后点击右下角的"导出板块"按钮,最后到弹出的窗口中,配置导出文件存放的位置以及文件名称,然后点击"保存"按钮就可以啦。
拓展资料:
怎么添加和删除自选股
添加自选股首先是打开股票交易软件—点击“股票”—下方“加入自选”即可,删除自选股的流程一般是打开股票交易软件—点击“行情”—点击“自选股”—长按股票—删除即可,股票加入自选股后,异常交易、涨跌幅达到一定的幅度系统会提示投资者,股票加入自选股主要是方便投资者操作。
(通达信的版本为5.30)
⑧ 急急高手请进!大智慧下载的股票数据在那里
你看看(c:program file)\dzh\export\里面有没有你想要的xls文件?
还有一个办法,你在dzh文件夹中,点操作系统的菜单栏"搜索",
然后选所有文件或文件夹,
然后输入*.xls回车,看看有没有?
如果没有,只能证明你没有保存成功.一般来讲,只要保存了,在软件文件夹中都会有记载的.
⑨ 股票交易系统专利的分类和作用
一直以来,参与交易的人都想要找到一种“圣杯”,希望每天只要打开系统,就可以财源滚滚。
当然,机构乃至个人都有自己的交易系统,原理都差不多,都是仓位控制、止损、止盈以及买卖标准。
这些都是高度机密,外人自然不能窥伺。
还有一种就是专门的公司开发的系统,卖给有需要的人,花钱就可以看到。
以前曾经为了开发系统,特意想去看看关于股票的专利有什么,不查不知道,一查还真有趣,关于股票的专利还很多。
说明一下,股票专利号开头是G06.
关于股票的专利可以分为硬件系统,比如显示屏,储存器,带有交易界面的手机等等,
我们关注的主要是软件系统。
1.整体交易系统:
就是包括股票、期货、期权等品种,系统包括客户系统、风控系统、交易系统等等。
还有舆情分析、财务分析等等。
2.选股系统:
比如给股票打分的系统,就是在实时获取股票数据之后,然后根据技术面和基本面数据进行打分,从而对股票进行量化,确定股票的分值。
还有直接选股的系统,根据限定的条件自动生成股票池,然后加以选择。
3.预测系统:
主要是股票趋势和价格的预测系统,根据历史价格进行聚类分析和数据训练,然后构建相关的模型,进行预测相关股票的价格。
开发交易系统的原则
其实,交易系统远没有这么神秘,原理都一样,只要规则经得起验证就可以。
但是,问题就卡在这里,过去使用的规则未必适用。
所以开发的交易系统进行数据回溯或者验证的时候,我个人认为这一步没有任何意义,因为数据回溯等于用已知去验证已知,而未来是随机的,无法预测的。
所以,对个人来说,如果想要根据过去判断未来或者想要找到圣杯,把交易系统的重心应该放置资产配置、仓位控制和风险管理这三个方面。
越简单越好!
⑩ 股票软件的公式、指标的未来函数是什么意思
未来函数指的是,如果在指标公式的源码,使用了未来函数,那么可能信号会漂移,比如今天开盘是涨的,显示涨的信号,结果第二天发现上一天跌了,就变成跌的信号了,信号就会一直调整,让人觉得这个指标百分比准确。
但是不是说有未来函数的指标一无是处,用好了也是一个利器。
如果你不知道你的指标是不是包含未来函数可以去检测一下:
在这里给您提供一下未来函数的列表:
ZIG - 之字转向
PEAK - 前M个ZIG转向波峰值
PEAKBARS - 前M个ZIG转向波峰到当前距离
TROUGH - 前M个ZIG转向波谷值
TROUGHBARS - 前M个ZIG转向波谷到当前距离
FLATZIG - 归一化之字转向
FLATZIGA - 归一化之字转向
PEAKA - 前M个ZIG转向波峰值
PEAKBARSA - 前M个ZIG转向波峰到当前距离
TROUGHA - 前M个ZIG转向波谷值
ZIGA - 之字转向
FFT - 傅立叶变换函数
BACKSET - 将当前位置到若干周期前的数据设为1
WINNER - 获利盘比例
LWINNER - 近期获利盘比例
PWINNER - 远期获利盘比例
COST - 成本分布情况
CAPITAL - 当前流通股本
DYNAINFO - 即时行情数据
FINANCE - 财务函数
XMA - 返回偏移移动平均
#MONTH - 跨周期引用
#WEEK - 跨周期引用
#YEAR - 跨周期引用
DHIGH - 返回该不定周期最高价
DOPEN - 返回该不定周期开盘价
DLOW - 返回该不定周期最低价
DCLOSE - 返回该不定周期收盘价
DVOL - 返回该不定周期成交量价
BARSNEXT - 下一次条件成立到当前的周期数
REFX - 引用若干周期后的数据(平滑处理)
REFXV - 引用若干周期后的数据(未作平滑处理)
PEAK - 前M个ZIG转向波峰值
PEAKBARS - 前M个ZIG转向波峰到当前距离
DRAWLINE - 绘制直线段用到日后数据