㈠ 离群点检测前先做数据标准化和不做数据标准化是否有区别,那种更合理
有区别,做数据标准化可以有效减少异常值(outlier)的影响,但是不能解决"dominant feature"的问题(也就是说,异常检测或者其他机器学习算法的最终结果主要由少数的几个domninant feature控制,有点垄断那种意思。)
㈡ 怎么分析股票数据
所需步骤:
1. 了解该公司。多花时间,弄清楚这间公司的经营状况。以下是一些获得资料的途径:
* 公司网站
* 财经网站和股票经纪提供的公司年度报告
* 图书馆
* 新闻报道——有关技术革新和其它方面的发展情况
2. 美好的前景。你是否认同这家公司日后会有上佳的表现?
3. 发展潜力、无形资产、实物资产和生产能力。这时,你必须象一个老板一样看待这些问题。该公司在这些方面表现如何?
* 发展潜力——新的产品、拓展计划、利润增长点?
* 无形资产——知识版权、专利、知名品牌?
* 实物资产——有价值的房地产、存货和设备?
* 生产能力——能否应用先进技术提高生产效率?
4. 比较。与竞争对手相比,该公司的经营策略、市场份额如何?
5. 财务状况。在报纸的金融版或者财经网站可以找到有关的信息。比较该公司和竞争对手的财务比率:
* 资产的账面价值
* 市盈率
* 净资产收益率
* 销售增长率
6. 观察股价走势图。公司的股价起伏不定还是稳步上扬?这是判断短线风险的工具。
7. 专业的分析。F10为个股资料,里面的业内点评清楚地评价了公司的行业地位及发展前景,可以作为参考,还有淘股吧论坛,里面不乏有高人分析个股的技术面与题材面。
技巧提示:
1、 潜在的行业龙头,要重点关注。比如中国南车,刚上市就跌到了3元,作为动车组的龙头股,肯定是低估了,中线持有必赚;
2、 低价是永恒的题材。这里所说的低价,是绝对低价,历史上从来没有大幅炒作过的品种,一旦有热门的题材引发主升,往往成为黑马。
注意事项:
每个投资者都经历过股票套牢的滋味。这时应该保持冷静,分析公司的基本面,确定该股票是否还值得长期持有。
㈢ 离群点数据是真实数据吗
离群点数据是真实数据。离群点指的是不属于某个总体的数据点,它是一种与其他值相差甚远的异常观察,是一种与其他结构良好的数据不同的观察值。离群点的检测是数据挖掘的核心问题之一。
㈣ 怎么做实时的股票数据库
如果主站提供有相关的接口的话,可以调主站的接口.如果主站不提供相关接口.那就不不断抓取.获取最新的信息了.
㈤ 股票实时盯盘需要观察哪些数据,怎么看
看成交明细内的成交笔数,但庄家也会作假,建议还是分析一整天的成交量来分析比较好,我看盘只看成交量,成交量哪怕他左手倒右手那也是真金白银,其他指标都是马后炮。
㈥ 离群值检测与处理属于调查数据的统计预处理吗
您好,我来回答一下这个问题。
离群值检测与处理属于调查数据的统计预处理!
知识延伸:
离群值处理
因为过大或过小的数据可能会影响到分析结果,尤其是在做回归的时候,我们需要对那些离群值进行处理。实际上离群值和极值是有区别的,因为极值不代表异常,但实际处理中这两个所用方法差不多,所以这里也不强行区分了。
处理方法是调整因子值中的离群值至上下限(Winsorzation处理),其中上下限由离群值判断的标准给出,从而减小离群值的影响力。
㈦ 数据挖掘之离群点检测的方法
离群点检测是数据挖掘中重要的一部分,它的任务是发现与大部分其他对象显着不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能蕴含着更大的研究价值。
离群点的检测已经被广泛应用于电信和信用卡的诈骗检测、贷款审批、电子商务、网络入侵和天气预报等领域。
离群点的主要成因有:数据来源于不同的类、自然变异、数据测量和手机误差。
从数据范围来看,分为全局离群点和局部离群点,整体来看,某些对象没有离群特征,但是从局部来看,却显示了一定的离群性。
从数据类型来看,分为数值型离群点和分类型离群点,这是以数据集的属性类型进行划分的。
从属性的个数来看,分为一维离群点和多维离群点,一个对象可能有一个或多个属性。
大部分的基于统计的离群点检测方法是构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为离群点。基于统计模型的离群点检测方法的前提是必须知道数据集服从什么分布;对于高维数据,检验效果可能很差。
通常可以在数据对象之间定义邻近性度量,把原理大部分点的对象视为离群点。二位或三维的数据可以做散点图观察;大数据集不适用;对参数选择敏感;具有全局阈值,不能处理具有不同密度区域的数据集
考虑数据集可能存在不同密度区域这一事实,从基于密度的观点分析,离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。给出了对象是离群点的定量度量,并且即使数据具有不同的区域也能够很好的处理;大数据集不适用;参数选择是困难的。
一种利用聚类检测离群点的方法是丢弃远离其他簇的小簇;另一种更系统的方法,首先聚类所有帝乡,然后评估对象属于簇的程度。基于聚类技术来发现离群点可能是高度有效的;聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。
基于统计模型的离群点检测方法需要满足统计学原理,如果分布一直,则检验可能非常有效。基于邻近度的离群点检测方法比统计学方法更一般、更容易使用,因为确定数据集有意义的邻近度量比确定他的统计分布更容易。基于密度的离群点检测与基于邻近度的离群点检测密切相关,因为密度常用邻近度定义:一种是定义密度为到K个最邻近的平均距离的倒数,如果该距离小,则密度高;另一种是使用DBSCAN聚类算法,一个对象周围的密度等于该对象指定距离d内对象的个数。