A. 我用spss clementine中的 Apriori做数据挖掘,怎么得到的支持度和置信度值不对呢
spss clementine
的定义有问题,他的支持度其实是前向的出现概率
和统计定义不同,你选择条件支持度
统计研究生专业数据分析
B. 数据挖掘工程师一般都做什么
数据挖掘,从字面上理解,就是在数据中找到有用的东西,哪些东西有用就要看具体的业务目标了。最简单的就是统计应用了,比如电商数据,如淘宝统计过哪个省购买泳衣最多、哪个省的女生胸罩最大等,进一步,可以基于用户的浏览、点击、收藏、购买等行为推断用户的年龄、性别、购买能力、爱好等能表示一个人的画像,就相当于用这些挖掘出来的属性来刻画一个人,这些还是最简单的东西,更深层次的比如预测(股票预测),但是比较难。
数据挖掘往往与机器学习离不开。比如分类、聚类、关联规则挖掘、个性化推荐、预测、神经网络、深度学习等。
数据挖掘 = 业务知识 + 自然语言处理技术( NLP ) + 计算机视觉技术( CV ) + 机器学习 / 深度学习( ML/DL )
( 1 )其中业务知识具体指的是个性化推荐,计算广告,搜索,互联网金融等; NLP , CV 分别是处理文本,图像视频数据的领域技术,可以理解为是将非结构化数据提取转换成结构化数据;最后的ml/dl 技术则是属于模型学习理论;
( 2 )在选择岗位时,各个公司都没有一套标准的称呼,但是所做的事情无非 2 个大方向,一种是主要钻研某个领域的技术,比如自然语言处理工程师,计算机视觉工程师,机器学习工程师等;一种是将各种领域技术应用到业务场景中去解决业务需求,比如数据挖掘工程师,推荐系统工程师等;具体的称呼不重要,重要的是平时的工作内容;
PS :在互联网行业,数据挖掘相关技术应用比较成功的主要是推荐以及计算广告领域,而其中涉及到的数据主要也是文本,所以 NLP 技术相对来讲比较重要,至于 CV 技术主要还是在人工智能领域(无人车,人脸识别等)应用较多,本人了解有限,相关的描述会较少;
数据挖掘岗位需要具备的3 种基本能力
1. 工程能力
( 1 )编程基础:需要掌握一大一小两门语言,大的指 C++ 或者 Java ,小的指 Python 或者 shell 脚本;需要掌握基本的数据库语言;
建议: MySQL + python + C++ ;语言只是一种工具,看看语法就好;
推荐书籍:《 C++ primer plus 》
( 2 )开发平台: Linux ;
建议:掌握常见的命令,掌握 Linux 下的源码编译原理;
推荐书籍:《 Linux 私房菜》
( 3 )数据结构与算法分析基础:掌握常见的数据结构以及操作(线性表,队,列,字符串,树,图等),掌握常见的计算机算法(排序算法,查找算法,动态规划,递归等);
建议:多敲代码,多上 OJ 平台刷题;
推荐书籍:《大话数据结构》《剑指 offer 》
( 4 )海量数据处理平台: Hadoop ( mr 计算模型, java 开发)或者 Spark ( rdd 计算模型, scala开发),重点推荐后者;
建议:主要是会使用,有精力的话可以看看源码了解集群调度机制之类的;
推荐书籍:《大数据 spark 企业级实战》
2. 算法能力
( 1 )数学基础:概率论,数理统计,线性代数,随机过程,最优化理论
建议:这些是必须要了解的,即使没法做到基础扎实,起码也要掌握每门学科的理论体系,涉及到相应知识点时通过查阅资料可以做到无障碍理解;
( 2 )机器学习 / 深度学习:掌握 常见的机器学习模型(线性回归,逻辑回归, SVM ,感知机;决策树,随机森林, GBDT , XGBoost ;贝叶斯, KNN , K-means , EM 等);掌握常见的机器学习理论(过拟合问题,交叉验证问题,模型选择问题,模型融合问题等);掌握常见的深度学习模型( CNN ,RNN 等);
建议:这里的掌握指的是能够熟悉推导公式并能知道模型的适用场景;
推荐书籍:《统计学习方法》《机器学习》《机器学习实战》《 UFLDL 》
( 3 )自然语言处理:掌握常见的方法( tf-idf , word2vec , LDA );
3. 业务经验
( 1 )了解推荐以及计算广告相关知识;
推荐书籍:《推荐系统实践》《计算广告》
( 2 )通过参加数据挖掘竞赛熟悉相关业务场景,常见的比赛有 Kaggle ,阿里天池, datacastle 等。
想要学习数据挖掘的话可以看一下这篇文章《AI时代就业指南:数据挖掘入门与求职》
C. 如何用SPSS和Clementine处理缺失值,离群值,极值
对于数据中出现的缺失值、离群值和极值,提供以下方法:
1、这些异常值可以全部删除,只留下完整、正常的数据;
2、对于缺失值,可以使用已有数据的平均值代替,或者用NULL等符号表示
3、对于离群值,要看分析内容。如果分析目的是监测异常为主,则重点考虑此类离群值,可能存在漏税、黑客攻击、赖账等问题。如果分析群体共性问题,则可以删除;
4、对于极值,可要考虑其范围;因为极值可能是准确的点,也有可能是异常点;
D. clementine时间序列怎么分析
5.2 基本描述分析
基本描述分析是数据分析的基础,通常对数值型变量进行描述分析,涉及数据的集中趋势和离散程度。描述集中趋势的描述性统计量一般有均值、中位数和众数;描述离散程度的描述性统计量一般有方差、标准差和极差。
5.2.1 计算基本描述统计量
在流中添加“Statistics”节点,打开设置面板。在“检查”中用户可以选择要进行统计的变量如下;然后在“统计量”中可以选择可统计的描述性统计量有哪些;在“相关”中可以设置与哪些变量进行简单相关分析(即求得Pearson简单相关系数)。
Clementine数据基本分析(一)
在“相关设置”中可以设置相关分析的一些参数如下。
Clementine数据基本分析(一)
下图为得到的相关分析及其它描述性统计分析的结果:
Clementine数据基本分析(一)
还可以生成符合要求的Filter。在Generate工具中,可以根据需要设置一定的相关性条件,然后生成Filter,这个功能很重要。
5.2.2 绘制散点图
除了进行描述性统计分析外,还可以生成散点图查看数据间的要关性,添加节点“Plot”并打开设置面板。“X字段”中选择X轴变量;“Y字段”中选择Y轴变量。Overlay为交叠字段,你可以在Color、Size或Shape中选择Overlay字段即流失字段,从而在散点图中实现相应效果。
“面板”表示可以绘制多个不同散点图反映Overlay变量;“动画”表示以动画方式显示多张散点图。
交叠字段类型选项:
无:表示不拟合回归直线;
平滑器(Smoother):表示采用LOESS(Locally weighted iterative robust least squares regression)方法,拟合样本数据的回归线并显示;
函数(Function):表示自德输入一个回归议程,回归线也显示。
Clementine数据基本分析(一)
结果如下:
Clementine数据基本分析(一)
5.4 两分类变量相关性的研究
两分类变量的相关性研究在实践中有广泛应用。做DataMining,对数据的类型应该极为敏感,几乎任何的统计分析或者数据挖掘,都要涉及这样一个问题:是分类型变量还是数值型变量。同理,前面我们使用相关和回归两个思维来对数值型变量的相关性进行了探讨,其中涉及到许多描述性统计量,既有描述数据集中趋势的,也有描述数据离散程度的。也涉及到散点图等图形。下面,我们将涉足分类变量。分类变量中最有名的分析,莫过于列联分析,但我们一开始并不介绍它。
一般分析分为图形分析和数值分析,不止于两分类变量
5.4.1两分类变量相关性的图形分析
一、条形图
将“Distribution”节点添加到流上。Distribution提供了两种输入字段的途径。“选定字段”选中,我们可以自定义哪些分类型字段可以进入;“所有标志”选中,则前面“Type”节点中的所有分类型字段都会进入分析。这里我们自定义“套餐类型”为我们的描述字段,然后在交叠字段中设置为“流失”。一般情况下,目标变量恒为交叠字段。”按“比例尺”表示将把频数最多的取值对应的条设置为最长,然后其它的条都会按比例设置,这样能更加清晰地看到不同取值的频数的差异;“按颜色标准化”,选中表示所有的条形都会被设置为相同长度,然后不同颜色比例表示目标变量取值不同时的情况,但“按颜色标准化”后,我们就不能比较不同取值下频数的差异了。
Clementine数据基本分析(一)
Clementine数据基本分析(一)
二、Web图
Web图的力量在沈浩老师挖挖双色球案例中得到充分的体现。Web图为我们提供了两种分类比较模型,一是计算两两分类变量间的相关性,一是计算多个分类变量对一个分类变量的相关性。将“Web”节点添加到流上,打开设置面板。
网络:选中表示系统将计算两两分类变量间的相关性,在下面会让用户自定义进行两两分析的字段;
导向网络:选中表示系统将计算多个分类变量对一个分类变量的相关性,选中后会让用户自定义分析变量和目标变量;
仅显示真值标志:选中表示仅显示“流失”取值为“Yes”的网络,我们往往不进行这样的选择;
得到如下的结果图。在结果图中,系统在标尺上有默认的两个边界,如图中为44和250,则表示Web图中最细线表示有频数44个,最粗线表示含频数250个。得到的Web图取值呈上下结构,其中下面的“Yes”和“No”是流失的两个取值,而上面的四个点是套餐类型的四个取值。其中,线条粗细程度代表着相关性程度。
Clementine数据基本分析(一)
Clementine数据基本分析(一)
5.4.2
两分类变量相关性的数值分析
一、计算两分类变量的列联表
以上我们通过两种图——Web图和条形图——对两分类变量的相关性进行了图形分析,除此之外,我们还可以对其进行数值分析。数值分析指的就是列联分析及相应的卡方分析。这里,我们使用的两分类变量仍然来自于电信客户数据的两个字段:套餐类型与客户是否流失。
将Output卡中的“Matrix”节点添加到流中,打开设置面板。Matrix为我们提供了几种选择字段的方式。
Slected:选中表示自定义列联表的行变量和列变量。我们在Rows中选择“套餐类型”,在Columns中选择“流失”。
All Flags:选中表示将对所有Flag型变量进行列联表分析,生成多个列联表。
Include Missing Values:选中表示即使取值为缺失值,也被列入相关的频数内。列联表分析的是多个分类变量间的相关性,统计的就自然是频数了。如果想把含缺失值的样本剔除出去,也可以通过Data Audit节点进行相关操作。
Cell Contents:Table-tabulations表示列联表各单元格(Cell)中统计的是样本的频数,一般的列联表都是进行频数统计;Function表示列联表各单元格为指定变量的分类描述统计量,应该地Field中指定相关变量,描述统计量也可以自定义选择。
打开Appearance面板,我们简要介绍一下其中的功能设置。
Highlight top:表示频数最高的若干项数据以红字显示,具体的数额可以在后面设置;
Highlight bottom:表示频数最低的若干项数据以显示,具体的数额可以在后面设置;
Cross-tabulation cell contents:
Counts:表示显示观测频数;Excepted Values:表示显示期望频数;Resials:表示显示残差;Percentage Of row:表示计算行百分比;Percentage of column:表示计算列百分比;Percentage Of Total:表示计算总百分比。注意这三个百分比的不同表示及不同意义。
Clementine数据基本分析(一)
Clementine数据基本分析(一)
二、行列变量的相关性分析
通过对以上数据的分析,我们知道套餐类型与客户流失具有关联性,那么,这种关联性是此数据的偶然结果呢,还是总体即有这种关联性呢?从统计学上讲,这种分类变量间的关联性,是由于样本抽取过程中的随机误差导致的呢,还是系统本身固有的属性呢?
为此,我们需要对此关联性做检验,这就涉及到我们要提到的卡方检验。卡方检验是统计学中经典假设检验的组成部分,由统计学之父卡尔·皮尔逊发明,被称为20世纪最有革命性的十大发明之一。
卡方检验分四步:
1、提出零假设:这里的零假设是行变量与列变量独立。
2、选择和计算检验统计量,即Pearson卡方统计量,其数学公式这里不再提起。有关卡方检验的问题,我们会在后面的统计部分详细展开,我们在这里需要提一下,卡方公式中涉及到列联表的行数和列数,频数的观测值和期望值。
那么,什么是期望频数(Expected Count)呢?期望频数指的是行列变量互相不相关的情况下的频数的均匀分布。求期望频数的方法非常简单,我们也将在后面有关统计学的部分中详细提到,此处略去不计。
卡方统计量的大小与两个因素有关。一题名联表的单元格子数;二是观测频数与期望频数间的总差值。当列联表确定的时候,列联表的格子数亦确定,此时卡方统计量只与预测频数与期望频数间的总差值有关。当预测频数与期望频数总差值越大时,卡方统计量越大,表明行列变量的相关性越强;当预测频数与期望频数总差值越小时,卡方统计量越小,表明行列变量的相关性越弱。
那么,如果进一步描述此卡方统计量的意义呢?卡方统计量近似服从卡方分布,故我们决定用一定的自由度和一定的显着性水平来框定卡方统计量的阈值。
第三步,确定显着性水平和临界值
显着性水平一般取0.05或0.01;卡方统计量服从(行数-1)*(列数-1)个自由度的卡方分布。因此,在行列数目和显着性水平确定的情况下,卡方临界值是可唯一确定的。
第四步,结论和决策
这一部分理解起来有些艰难,但对统计学的学生来说相当简单,即可以计算出相应卡方统计量的概率,如果小于显着性水平则拒绝原假设;反之,则不能拒绝原假设。这是非常常用的一种方法,即通过概率的方法。当然你也可以通过临界值的方法来做,即由行列数和显着性水平确定唯一的临界值,然后由软件计算出卡方统计量,比较二者。如果卡方统计量大于临界值,则行列变量有相关性;否则没有相关性。
E. 比较好的数据分析软件有哪些
数据分析软件有很多。只要是满足自己需求的都是最好的。大数据分析工具在数据收集、数据管理上也要有一些要求。F. 如何用 SPSS Clementine 12.0 进行关联规则分析 求演示!在线等!急!
这个方法不是一言两语能说清楚,首先要懂方法学原理,还要知道clementine的基本知识和结构图
G. spss clementine中聚类分析之后怎么输出某一类的数据
你的意思是删选出聚类4的?把其他1,2,3,5的过滤掉?