㈠ 多元统计分析在处理数据什么方面有用
多元统计分析是针对复杂多变量 构建多元模型的,其中包括很多多元统计模型,比如多元回归、因子分析、logistic回归、对应分析等很多多元分析方法,以用来解决在实际当中的可能存在的不同的数据模型
㈡ 统计学专业的研究概况
20世纪的最后五年,人类富有创造性的勤奋努力,使信息技术、生命科学等领域的研究取得了重大突破,在科学技术史册中谱写了光辉的篇章。统计学学科伴随着科学技术的发展在理论研究和实际应用中也取得了可喜的进展。本报告分别从国外、国内研究概况及中国高校统计学科的研究发展情况给予扼要总结和回顾。 随着科学技术的飞速发展,统计方法与技术的应用越来越重要。19世纪统计技术为基因学说奠定了理论基础,在即将跨入21世纪的今天,科学技术对统计方法的依赖愈来愈强。世界上许多国家尤其是发达国家都非常重视统计学理论的研究和发展。根据国际统计学会(ISI)近几年的会刊及统计学方面的着名杂志,可将近几年国际统计界研究的主要问题概括如下:
1.统计学基本理论研究有:概率极限理论及其在统计中应用、树形概率、Banach空间概率、随机PDE’S、泊松逼近、随机网络、马尔科夫过程及场论、马尔科夫收敛率、布朗运动与偏微分方程、空间分支总体的极限、大的偏差与随机中数、序贯分析和时序分析中的交叉界限问题、马尔科夫过程与狄利克雷表的一一对应关系、函数估计中的中心极限定理、极限定理的稳定性问题、因果关系与统计推断、预测推断、网络推断、似然、M——估计量与最大似然估计、参数模型中的精确逼近、非参数估计中的自适应方法、多元分析中的新内容、时间序列理论与应用、非线性时间序列、时间序列中确定模型与随机模型比较、极值统计、贝叶斯计算、变点分析、对随机PDE’S的估计、测度值的处理、函数数据统计分析等。
2.统计学主要应用领域有:社会发展与评价、持续发展与环境保护、资源保护与利用、电子商务、保险精算、金融业数据库建设与风险管理、宏观经济监测与预测、政府统计数据收集与质量保证等、分子生物学中的统计方法、高科技农业研究中的统计方法、生物制药技术中的统计方法、流行病规律研究与探索的统计方法、人类染色体工程研究中的统计方法、质量与可靠性工程等。 “九五”期间中国统计界出现了社会经济统计学与数理统计学相互学习、共同提高、共创未来的新局面。1996年10月,中国统计学会、中国概率统计学会、中国现场统计学会联合举办了全国统计科学讨论会,这是“九五”期间中国统计学术界一次盛会,它标志着中国社会经济统计学与数理统计学的合作已进入实质性阶段。统计界在数理统计与社会经济统计学的结合方面、风险管理与保险精算方面、空间统计学及其应用方面、政府统计数据质量研究与评价方面、信息技术、网络技术在统计学的应用方面、金融及证券理论研究方面、国民经济核算理论与应用方面、综合国力研究方面等取得了可喜的成就。“九五”期间国内统计界主要有影响的研究可概括如下:
1.理学类统计学一级学科地位的确立
“九五”期间中国统计界关于建立和完善统计学学科体系的研究与争论异常激烈。统计界对“大统计”的认识通过大量探索已逐步趋向统一。所谓“大统计”是针对中国过去数理统计、社会经济统计、生物医学统计等各学科领域的应用统计各自为政相对面窄而言。1998年9月国家教育部颁布的《普通高等学校本科专业目录和专业介绍》将统计学列为理学类一级学科,这是中国统计界“九五”期间的重大成就。教育部这项专业调整是为了适应市场经济与国际接轨的要求,在“宽口径,厚基础”的指导思想下,将原来的504个专业调整到249个专业,50%以上专业被砍掉,然而统计学不仅保留,而且列入理学类一级学科,这是中国统计界广大理论工作者辛勤努力的重要成就,是中国统计界值得庆幸的大事,它的颁布对中国统计的未来具有重大意义和深远影响。这一专业目录的确定为中国统计界长期的争论进一步指明了发展方向。这个方向就是——适应市场经济与国际接轨的统计学就是理学类统计学。统计学一级学科的地位表明统计学既不是经济学的一个子学科,也不是数学的一个子学科,统计学就是统计学。尽管统计学被教育部专业目录确定为理学类一级学科,但统计界,尤其是中国高等统计教育界经济类统计学者反对者甚多。有的学者认为理学类统计学就是数学,只有经济学其中的统计学才是统计学。赞成者认为统计学就是统计学,理学类统计学与数学有着质的区别,经济学类的统计学已被中国实践证明是前苏联的文科式统计学,根本不能代表作为方法论的整个统计学科。这一争论还将继续一段时间。
2.统计学基本理论与方法问题研究
“九五”期间中国统计界围绕与国际统计学接轨做了大量研究工作,系统地介绍了国外统计学研究的一些新进展。这方面最为突出的是国家统计局统计教育中心和中国统计出版社组织国内一流统计专家翻译出版了15本现代外国统计学优秀着作。这些着作令中国统计界不少学者大开眼界,从中汲取丰富的统计理论和方法,已在中国统计界产生了积极影响,为理学类统计学科的建立与发展奠定了基础。为适用新专业目录的需要,国内高校的统计教师们编写了一批统计方法和应用的新教材。中国统计界在抽样方法、时间序列分析、多元统计分析、非参数统计、回归分析、指数理论、宏观经济建模等理论与应用研究方面作了大量工作。
3. 政府统计数据质量的研究
随着中国社会主义市场经济的深入发展,政府统计数据无论是在国家制定发展战略和社会、经济发展的宏观调控中,还是企业制定营销策略以及社会、经济、环境等科学研究领域都起着不可或缺的重要作用,用户对政府统计数据的内在质量以及数据的产生、提供过程的可靠性的企盼也越来越高。关于中国政府统计数据的质量关注和研究的学者很多,发表的论文或报告已有近百篇之多。几乎每个省都设立了统计数据质量研究的课题,全国哲学社会科学基金还设立了“关于评估、改进和保证中国政府统计数据质量问题的研究”的重点项目。该项目从定性与定量的有机结合上开展对政府统计数据的评价与研究,主要从技术与方法上对中国政府统计数据的质量作出客观评价,对改进、提高、控制、监测中国政府统计数据的质量从理论与实践的结合上做了一些研究和探索。但总体来看,现有的大多数研究基本停留在定性的评说上,提批评的多,提实质性建议的少;指责体制的多,研究评价、改进、识别的理论与方法的少,大多数文献把统计数据的质量问题归结为中国的政治、经济体制问题。事实上,纵观北美、欧盟等许多国家的政府统计数据,无一例外地也存在数据质量问题,政府统计数据的质量是各国普遍存在和广泛关注的热点问题。
4. 风险管理和保险精算的研究
“九五”期间关于风险管理和保险精算的研究得到较快发展,主要表现在不少发达国家风险管理和保险精算名着的翻译出版,中国统计方面杂志以及几次全国概率统计学术会议这方面论文的显着增加。风险管理与保险精算的研究不仅满足中国社会主义市场经济的需要,也更大地扩展了统计学方法的应用。这方面的研究从引进国外理论已向中国的具体应用健康发展,保险精算的研究已由寿险领域向非寿险领域扩展,尤其是开始结合中国实际向社会保障领域有效延伸。
5. 统计学在金融、证券领域的应用研究
1997年开始的亚洲金融风暴,给亚洲乃至世界经济的健康发展带来危机,中国经济的发展也受到亚洲金融风暴的影响。国家的经济安全、金融安全被国家领导核心重视,为统计技术与方法的应用提供了新的机遇,在全国应运而生建立了金融数学与金融工程管理中心、证券期货模拟实验室、金融数学系等。全国有不少统计学者成为研究金融、证券、投资的主力。从发表的论文来看统计方法研究金融、证券问题主要有:(1)有效投资组合研究。最为典型的是VaR技术的运用和具有异方差的时间序列模型技术的应用。(2)结构分析研究。运用多元统计方法分析股票的投资结构、探讨股票涨跌规律、寻求证券市场发展与影响因素的关系。(3)金融安全概率的研究。有学者运用东南亚等国和中国的金融数据资料,结合金融安全给出预警概率,为国家宏观经济调控和金融风险防范提供了有力的决策依据。
6. 统计综合评价理论与应用的研究
国际竞争力的研究是颇受世界各国关注的重要研究。中国学者在“九五”期间开始开展这一领域的研究、并且通过刻苦努力紧跟这一领域的世界水平,在这方面中国学者所用的统计方法与世界水平相当,结合中国国情国力取得了重要成果。这方面有国民经济核算进一步发展的国际竞争力统计研究,知识经济时代中国科技创新的国际竞争力研究,中国金融、保险等领域的国际竞争力研究还有统计方法在社会经济发展水平的综合评价中的应用,顾客满意度量测与评价的研究等。
7. 国民经济核算理论与应用研究
“九五”期间,中国的国民经济核算体系研究进一步完善。在内容上,以增加值和GDP为核心,已经能比较全面地反映中国国民经济生产全过程、收入与分配、消费、储蓄、实物投资、金融投资、国际收支、资本和财富存量的变化等。为国家制定经济政策和宏观调控发挥着积极作用。可喜的是已有一些学者在国家的可持续发展、环境与核算技术相结合方面取得了重要研究成果。
8.质量体系认证应用研究
“九五”期间,一股“ISO9000”认证热席卷全球,质量体系认证日益成为国际贸易中所要求的供方质量保证能力和水平的标志。ISO9000族标准中有许多要素涉及到统计技术与方法的应用,中国已有近2万家大中型企业通过了认证。这方面的认证,对统计方法的应用提供了新的机会,中国不少统计学者找到了统计应用的现场,为国有企业员工培训、提高素质、扭亏增盈,国家经济形势好转发挥了统计工作者的积极作用。特别是试验设计、ISO14000和6质量标准技术的推广对改进企业管理水平,提高产品质量,提升企业国际竞争力发挥了重要作用。
9.抽样调查方法的研究与应用
“九五”期间关于抽样调查方法的研究与应用在中国开展的如火如荼。例如,交通部还建立了统计抽样调查系统。交通运输的大量统计数据已基本由抽样调查方法获得。全国许多行业对本部门关心的问题进行抽样调查,不少部门就公众关注的热点问题开展公众调查,有的报刊还定期刊登公众调查的调查报告。中国90年代初成立了不少市场调查公司,经过几年的大浪淘沙,全国生存下来的公司经营状况不错。网上调查、电话调查在中国也健康发展。有关抽样调查的理论,如非抽样误差控制的研究也得到统计界的广泛重视。
10.空间统计与地理信息系统的应用研究
空间统计学是近几年统计学发展的一个新领域,其主要的应用包括遥感,国土资源估计,农业和林业,海洋学、生态学和环境观测。在遥感技术的应用中,得到的统计数据通常以网络的形式出现,而且这些数据受到大气效应、观测位置以及测量工具的影响产生误差,空间统计学的应用在于,针对这种特殊的数据,研究如何控制误差、如何建立模型、如何处理资料信息。在资源的估测中,空间统计学的应用在于,如何利用空间统计数据,估计资源的总储量、资源的地区分布、资源的开发等。在环境监测等领域也作了积极的探索。
㈢ 2 应用多元统计分析主要包括哪些分析方法
控制图,用来对过程状态进行监控,并可度量、诊断和改进过程状态。
直方图,是以一组无间隔的直条图表现频数分布特征的统计图,能够直观地显示出数据的分布情况。
排列图,又叫帕累托图,它是将各个项目产生的影响从最主要到最次要的顺序进行排列的一种工具。可用其区分影响产品质量的主要、次要、一般问题,找出影响产品质量的主要因素,识别进行质量改进的机会。
散布图,以点的分布反映变量之间相关情况,是用来发现和显示两组数据之间相关关系的类型和程度,或确认其预期关系的一种示图工具。
过程能力指数(Cpk),分析工序能力满足质量标准、工艺规范的程度。
频数分析,形成观测量中变量不同水平的分布情况表。
描述统计量分析,如平均值、最大值、最小值、范围、方差等,了解过程的一些总体特征。
相关分析,研究变量之间关系的密切程度,并且假设变量都是随机变动的,不分主次,处于同等地位。
回归分析,分析变量之间的相互关系。
当然,在质量管理中,还有很多常用的统计分析方法,在此不一一列举。
(盈飞无限)
㈣ 如何利用多元统计模型来优化股票型投资基金的业绩
这个问题有点复杂,多元统计模型太简单了,市场行情在变化,回测的数据结果也未必适应未来行情
㈤ IPO定价的因素分析
我们将承销商在IPO定价程序中可能考虑的各种因素分为两类,即外部因素和公司内部因素。它们的组合及其影响直接导致了IPO价格的确定。
所谓外部因素是指与企业正常经营状态相对独立的、不直接反映其内生持续盈利能力 但却影响承销商IPO定价判断的各种情况,它们包括国民经济运行状况、市场利率水平、突发性事件、行业宏观政策导向、产品市场预期、同业竞争情况、市场波动情况、股票发行规模以及承销商自身实力等等。这些因素可能会以不确定的、非线性的方式对承销商的定价过程发生作用,而且在特定的定价行为中,上述信息对IPO价格的最终形成主要起着经验性的非量化影响;公司内部因素是指反映在IPO价格中的直接体现公司素质和增长前景的各种要素的总和,包括承销商对其经营效率、获利能力、管理状况、资本结构等各种内部情况的评估结论。与外部因素不同之处在于,这些内部因素对于IPO定价主要可能起着较为确定的、线性的量化影响。
在模拟外部因素时,我们考虑到一些外部影响的量化难度而进行了相应的简化或剔除。最终,我们假设承销商的IPO定价程序主要受到以下四方面因素的直接影响:(1)市场波动情况;(2)股票发行数量;(3)行业特性;(4)承销商等级指数。
对因素(1),我们使用了上证指数的相对波动率指标来模拟整个市场的中短期波动情况。考虑到在实际发行程序中,IPO定价的最终确定时间一般是在正式发行日的两周之前,因此我们采用发行前两周的市场波动率组合S1来模拟市场气氛的研判环境。其计算公式为:
F/An=Ft/Fn(n=3,5,7,9,11,13,15)
其中,F/An代表相对于上证指数第n周移动平均收盘点位的市场波动率;
Ft为特定股票发行日两周前的上证指数收盘点位;
Fn为特定股票发行日两周前的上证指数n周移动平均收盘点位.
对于因素(3),我们使用了最新颁布的上市公司行业分类指引。由于两个交易所公布的上市公司行业分类结果详细程度不同,因此我们以深交所较为概括的分类标准来对样本公司所属的行业进行判别。
在因素(4)即承销商自身实力方面,我们考虑到美国的IPO市场中等级较高的投资银行所承销的IPO股票定价倾向于高出平均水平(Michelle Lowry&G. William Schwert,2001),因此,国内承销商的实力差别可能也会对其作出的IPO定价决策有所影响。在考虑多重指标之后,我们大致把1997-2000年样本期间内的主承销商进行了等级排名,共分为1、2、3、4个档次。其中,档次越靠前的承销商实力也越强。
在公司内部因素方面,我们考虑到市盈率指标所反映的公司基本面情况较为有限,而要试图对公司的内在价值运用现金流量贴现方法作出判断又会令主观因素的干扰加大。因此,为了全面反映特定公司的基本面素质,我们运用了71个财务指标来模拟公司的偿债能力、赢利能力、资产周转能力、管理效率等各个方面的情况。这些财务指标的原始数据均来自于样本公司招股说明书及上市公告书中上一个会计年度的资产负债表和收益表。尽管现金流量信息非常重要,但在权责发生制的框架下,资产负债表和收益表仍然可以完整地代表特定企业的财务状况和经营成果。鉴于报表编制基础的冲突,我们在选取财务数据时没有纳入现金流量信息。
另外,我国证券市场的政策环境变化较大,经验数据表明:市场的IPO定价从趋势上看,有突然间受到某种冲击而整体增加的迹象,而不是逐渐的增加;而从实际的市场情况来看,定价增加可能是因为受到一级市场市场化的政策的影响,从而表现出的不理性行为导致。基于上述两个原因,我们没有在后续的分析过程中引入时间变量。 (1)数据性质的检验
我们试图从81个变量中寻找到对新股价格有效的解释变量。如果这些变量高度相关,必然会导致回归方程中自变量相互削弱各自对y的边际影响,而出现回归方程整体显着,但各个变量都不显着的现象,也就是多重共线性的现象。另外,在众多的数据中如果存在奇异值,将严重地歪曲变量与自变量之间的关系,使回归方程不能很好地描述一般情况下变量与自变量之间的关系。因此,在发现奇异值时,应将其删除以使回归方程得到较好的效果。
我们通过标准化误差和标准化预测值的散点图检验数据是否存在奇异值的一般规则是:如果存在数据点明显超出 标准化误差值区间,则可以认为该数据是奇异值。根据结果看,几乎所有的值都在 标准化误差值区间内,有两个点远离该区间,显见这两个值是奇异值,将严重影响到回归方程的质量,应该剔除。这两个点对应的个体是新力药业(0153)和平高电气(600312)。
(2)多重共线性的检验
我们通过相关系数矩阵观察各指标之间的相关程度,从而判断各指标间是否存在高度的相关性。从相关系数矩阵可以看到,在拟选用的指标中,变量之间普遍存在着高度相关的现象,比如F/A7与F/A9之间的相关系数为0.977794、主营收入/有形资产与总资产周转率之间的相关系数高达 0.998043等等。所以,这些变量不能同时进入回归方程,在进行回归之前必须对数据进行处理以消除多重共线性的影响。
(3)数据处理
从上述数据性质的检验中,我们发现数据存在奇异值、存在多重共线性的现象。对于奇异值我们将其从数据中剔除,而对于多重共线性的问题我们采用主成分分析法进行处理。
拟选用的指标可以分为两类,即外部指标(行业类别、市场波动指数、承销商等级、发行量系数)和反映公司内部因素的财务指标类聚,并分别对这两类指标进行主成分分析。
(4)用多元统计分析中的主成分分析法进行数据简化
由于存在多重共线性的现象,也就是说各变量之间相互关联,所反映的信息很大程度上也是重复的,所以我们完全可以用少数一些变量来反映大部分的信息。主成分分析作为多元统计分析技术的一个分支,其主要目的就是浓缩数据,就是研究如何以最少的信息丢失把众多的观测变量浓缩为少数几个因子。这几个因子不仅保留了原始指标中的主要信息,而且彼此之间不相关,很好地避免了出现多重共线性的问题。
(5)从财务指标中提取公因子。
第一步,提取公因子,并进行因子旋转。
这一处理的结果发现:特征值(Total项)大于1的因子共13个,这13个因子的累计解释方差占到总方差的91.33864%,也即这13 个因子代表了原来所有71财务指标所表达的信息量的91%左右,代表了绝大多数的信息。而变量数由71个减少到13个,以最小的信息丢失量,极大地简化了数据。在之后的回归分析中,我们将用这13个共因子替代原来的71个财务指标进行回归。通过主成分法得到的公因子是完全不相关的,即相关系数为0,用它们进行回归分析就不会出现多重共线性问题。
另外,因子旋转后并没有改变这13个因子的累计解释方差占到总方差的比例,旋转前后该比例均为91.33864%,只是在各个因子之间的分配比例有所变化。
第二步,计算因子得分。
实际上因子得分是通过原始变量的线性组合得到,原始变量前的系数就是因子载荷矩阵中的因子载荷。
(6)从市场指数波动指标中提取公因子
利用上表中的因子载荷矩阵计算因子得分S1
S1=0.823232×(F/A3)+A+0.895644×(F/A15)
(7)用虚拟变量处理行业数据
对于样本所含的94只新股,共涉及19个不同行业,我们引入虚拟变量进行处理。我们用18个虚拟变量di(i=1,2A 18 )来反映行业分布对新股定价的影响。
(8)回归分析
在剔除奇异值、运用主成分分析法浓缩数据并同时处理了多重共线性的问题之后,我们即可进行最后的回归分析。下面是我们通过采用主成分法得到的财务指标的公因子、市场指标的公因子及发行量系数、行业类别的虚拟变量、券商等级等因素对被解释变量(即IPO价格)进行逐步回归所选出的最优回归方程。
Price=14.27727-1.71038×发行量系数-0.41778×S1+6.70326×d11+3.861002×d15-3.06603×d17+1.132558×F1+0.579465×F3+0.863128×F4+0.67048×F6+0.422713×F8- 0.6338×F12
其中R2=0.68
(9)最终结果分析:
在财务指标的公因子中,对新股价格有显着影响只有F1、F3、F4、F6、F8、F12、这六个因子,其余因子对新股价格影响甚小,不予考虑。除此之外,市场波动指标的公因子S1对新股价格的影响也是显着的,S1也进入了回归方程。发行量对新股价格的影响同样不能忽视。在反映行业分布的18 个虚拟变量中d11、d15和d17进入了方程,它们所对应行业为行业C99(其他制造业),行业G(信息技术业)和行业K(社会服务业),这说明在 2000年以来,属于这三个行业的上市公司在进行新股定价时,行业分布对其股票定价有显着影响。其中,行业C99和行业G对新股定价是正向的影响,而行业 K对新股定价的影响则是反向的。
上述的Tolerance和VIF两个指标为多重共线性的检查指标。可以看到,所有变量的Tolerance均大于0.1,VIF均小于10,因此不存在多重共线性的问题。
另外,检验数据表明,在5%的显着性水平下,各系数的t值与方程的F值全部通过检验,新股定价模型拟合效果非常好。
作为对比,我们对1997年至2001年初的328只IPO股票数据进行了类似分析,检验结果与上述结论较为相近(检验通过变量完全一致),但回归方程中的自变量系数有一些差别,而样本的拟合度也较差一些,这表明较长期间的IPO定价因素影响可能会随着结构性的市场变动而发生变化。另外,从行业分布角度看,在这一期间对股票定价有显着影响的行业也变成行业C99,行业F(交通运输、仓储业)和行业L(传播与文化产业)。其中,行业C99和行业 L对新股定价是正向的影响,而行业F对新股定价的影响则是反向的。这说明市场热点会随着一些环境因素的变化而转移。
㈥ 初一数学问题
1. 统计学的三个基本发展趋势及其启示
朱永平 文献来自: 中国统计 2001年 第08期 CAJ下载 PDF下载
与统计学中的判别分析也存在一些可相互借鉴的方面。特别是关于质度函数与可拓变换理论,都有可能应用于统计指标的计算,目前也有文献在这方面取得了一定的成绩。神经网络方法被广泛应用于统计预测与多指标统计综合评价。此外,管 ...
被引用次数: 6 文献引用-相似文献-同类文献
2. 评价判别模型诊断效果的ROC分析
李康,林一帆 文献来自: 中国卫生统计 1996年 第03期 CAJ下载 PDF下载
判别模型,累积比数模型ROC分析已成为评价诊断试验的一种重要方法。本文介绍了ROC分析的基本思想,提出用ROC分析评价判别模型的优劣,给出了ROC曲线回归估计的方法,并且导出了估计ROC曲线下面积A及标准误SE ...
被引用次数: 13 文献引用-相似文献-同类文献
3. 基于Fisher准则的判别分析
陈峰,祝绍琪 文献来自: 中国卫生统计 1994年 第03期 CAJ下载 PDF下载
基于Fisher准则的判别分析@陈峰@祝绍琪$南通医学院医学统计学教研室$华西医科大学卫生统计学教研室Fisher准则,多类判别本文较全面地阐述了Fisher准则下的多类判别,及其与Bayes判别、回归分析之关系。由于Fisher判 ...
被引用次数: 4 文献引用-相似文献-同类文献
4. 基于PCA与LDA的说话人识别研究
章万锋 文献来自: 浙江大学 2004年 硕士论文 CAJ下载 在线阅读 分章下载 分页下载
判别分析方法有多种,包括距离判别、Bayes判别以及线性判别。其中 线性判别分析(LDA),又称费歇判别分析、基于类的K一L变换,由Fisher第一次提出,可以表 示不同的特征变量,在多元统计分析中 ...
被引用次数: 1 文献引用-相似文献-同类文献
5. 综合评价的多元统计分析方法
祁洪全 文献来自: 湖南大学 2001年 硕士论文 CAJ下载 在线阅读 分章下载 分页下载
本文针对主成分分析、因子分析两种紧密相关的多元统计分析方法, 从理论和实践两方面作了一定的研究;除了分析和改进两种多元分析方法 之外,还建立了应用它们进行综合评价的数学模型,并且应用这些模型对 实际问题进行了综合评价 ...
被引用次数: 3 文献引用-相似文献-同类文献
6. 分析化学计量学
吴海龙,梁逸曾,俞汝勤 文献来自: 分析试验室 1999年 第06期 CAJ下载 PDF下载
罗宏杰编着成《中国古陶瓷与多元统计分析》一书[B4],从多元统计的数学方法入手,侧重于对应分析、聚类分析以及判别分析等数学方法在中国古陶瓷研究中的应用。3 试验设计与优化正交试验设计和单纯形优化法目前仍然是试验设计和优化的主要方法。其目 ...
被引用次数: 12 文献引用-相似文献-同类文献
7. 综合评价的多元统计分析方法
祁洪全 文献来自: 湖南大学 2001年 硕士论文 CAJ下载 在线阅读 分章下载 分页下载
本文针对主成分分析、因子分析两种紧密相关的多元统计分析方法, 从理论和实践两方面作了一定的研究;除了分析和改进两种多元分析方法 之外,还建立了应用它们进行综合评价的数学模型,并且应用这些模型对 实际问题进行了综合评价 ...
被引用次数: 3 文献引用-相似文献-同类文献
8. 逐步判别分析法的计算机实现
常进荣,任翔,赵磊峰 文献来自: 云南农业大学学报 1995年 第03期 CAJ下载 PDF下载
摘要用汉字Foxbase开发一个操作界面好、通用性强的逐步判别分析计算程序.关键词逐步判别分析,算法,程序本国分类号TP311.52逐步判别分析法是多元统计学中的一类重要方法。它在生物学、农学、医学等领域中有着广泛的应用,以前的多元统计分析计算程序大多是在pc-150 ...
被引用次数: 2 文献引用-相似文献-同类文献
9. 小样本数据信用风险评估研究
王春峰,李汶华 文献来自: 管理科学学报 2001年 第01期 CAJ下载 PDF下载
普通的判别分析方法可能导致较大的判别误差 ,因此采用本文提出的CV方法来构建判别分析模型 ,试图提高判别精度 ...
被引用次数: 29 文献引用-相似文献-同类文献
10. 研发项目中止决策分析与判别
侯强 文献来自: 辽宁工程技术大学 2003年 硕士论文 CAJ下载 在线阅读 分章下载 分页下载
从项目中止决策内涵入手,结合国内外研究现状,以直观经 济分析和投资可靠性分析为切入点,分析了项目中止决策的必要 性,从价值评估理论角度分析了项目中止决策的价值基础,从自 主开发和委托代理角度分析了项目中止决策的运行机制。 依据研究与开发项目的...
被引用次数: 2 文献引用-相似文献-同类文献
查判别分析 的定义
查统计学 的定义
搜多元统计 的学术趋势
搜思想 的学术趋势
搜索相关数字
股票交易统计上市股票数目
股票交易统计上市公司数目
股票交易统计股票流通市值
㈦ 多元统计分析的简介
multivariate statistical analysis
研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律性。它的重要基础之一是多元正态分析。又称多元分析 。 如果每个个体有多个观测数据,或者从数学上说, 如果个体的观测数据能表为 P维欧几里得空间的点,那么这样的数据叫做多元数据,而分析多元数据的统计方法就叫做多元统计分析 。 它是数理统计学中的一个重要的分支学科。20世纪30年代,R.A.费希尔,H.霍特林,许宝碌以及S.N.罗伊等人作出了一系列奠基性的工作,使多元统计分析在理论上得到迅速发展。50年代中期,随着电子计算机的发展和普及 ,多元统计分析在地质 、气象、生物、医学、图像处理、经济分析等许多领域得到了广泛的应用 ,同时也促进了理论的发展。各种统计软件包如SAS,SPSS等,使实际工作者利用多元统计分析方法解决实际问题更简单方便。重要的多元统计分析方法有:多重回归分析(简称回归分析)、判别分析、聚类分析、主成分分析、对应分析、因子分析、典型相关分析、多元方差分析等。
早在19世纪就出现了处理二维正态总体(见正态分布)的一些方法,但系统地处理多维概率分布总体的统计分析问题,则开始于20世纪。人们常把1928年维夏特分布的导出作为多元分析成为一个独立学科的标志。20世纪30年代,R.A.费希尔、H.霍特林、许宝禄以及S.N.罗伊等人作出了一系列奠基性的工作,使多元统计分析在理论上得到了迅速的进展。40年代,多元分析在心理、教育、生物等方面获得了一些应用。由于应用时常需要大量的计算,加上第二次世界大战的影响,使其发展停滞了相当长的时间。50年代中期,随着电子计算机的发展和普及,它在地质、气象、标准化、生物、图像处理、经济分析等许多领域得到了广泛的应用,也促进了理论的发展。
多元分析发展的初期,主要讨论如何把一元正态总体的统计理论和方法推广到多元正态总体。多元正态总体的分布由两组参数,即均值向量μ(见数学期望)和协方差矩阵(简称协差阵)∑ (见矩)所决定,记为Np(μ,∑)(p为分布的维数,故又称p维正态分布或p 维正态总体)。设X1,X2,…,Xn为来自正态总体Np(μ,∑)的样本,则μ和∑的无偏估计(见点估计)分别是
和
分别称之为样本均值向量和样本协差阵,它们是在各种多元分析问题中常用的统计量。样本相关阵R 也是一个重要的统计量,它的元素为
其中υij为样本协差阵S的元素。S的分布是维夏特分布,它是一元统计中的Ⅹ2分布的推广。
另一典型问题是:假定两个多维正态分布协差阵相同,检验其均值向量是否相同。设样本X1,X2,…,Xn抽自正态总体Np(μ1,∑),而Y1,Y2,…,Ym抽自Np(μ2,∑),要检验假设H 0:μ1=μ2(见假设检验)。在一元统计中使用t统计量(见统计量)作检验;在多元分析中则用T2统计量,
,其中,
,
·
,T2的分布称为T2分布。这是H.霍特林在1936年提出来的。
在上述问题中的多元与一元相应的统计量是类似的,但并非都是如此。例如,要检验k个正态总体的均值是否相等,在一元统计中是导致F统计量,但在多元分析中可导出许多统计量,最着名的有威尔克斯Λ统计量和最大相对特征根统计量。研究这些统计量的精确分布和优良性是近几十年来多元统计分析的重要理论课题。
多元统计分析有狭义与广义之分,当假定总体分布是多元正态分布时,称为狭义的,否则称为广义的。近年来,狭义多元分析的许多内容已被推广到更广的分布之中,特别是推广到一种称为椭球等高分布族之中。
按多元分析所处理的实际问题的性质分类,重要的有如下几种。 简称回归分析。其特点是同时处理多个因变量。回归系数和常数的计算公式与通常的情况相仿,只是由于因变量不止一个,原来的每个回归系数在此都成为一个向量。因此,关于回归系数的检验要用T2统计量;对回归方程的显着性检验要用Λ统计量。
回归分析在地质勘探的应用中发展了一种特殊的形式,称为趋势面分析,它以各种元素的含量作为因变量,把它们对地理坐标进行回归(选用一次、二次或高次的多项式),回归方程称为趋势面,反映了含量的趋势。残差分析是趋势面分析的重点,找出正的残差异常大的点,在这些点附近,元素的含量特别高,这就有可能形成可采的矿位。这一方法在其他领域也有应用。 由 k个不同总体的样本来构造判别函数,利用它来决定新的未知类别的样品属于哪一类,这是判别分析所处理的问题。它在医疗诊断、天气预报、图像识别等方面有广泛的应用。例如,为了判断某人是否有心脏病,从健康的人和有心脏病的人这两个总体中分别抽取样本,对每人各测两个指标X1和X2,点绘如图 。可用直线A将平面分成g1和g2两部分,落在g1的绝大部分为健康者,落在g2的绝大部分为心脏病人,利用A的垂线方向l=(l1,l2)来建立判别函数
y=l1X1+l2X2,可以求得一常数с,使 y<с 等价于(X1,X2)落在g1,y>с等价于(X1,X2)落在g2。由此得判别规则:若,l1X1+l2X2<c
判,即此人为健康者;若,l1X1+l2X2>C
判,
即此人为心脏病人;若,l1X1+l2X2=c则为待判。此例的判别函数是线性函数,它简单方便,在实际问题中经常使用。但有时也用非线性判别函数,特别是二次判别函数。建立判别函数和判别规则有不少准则和方法,常用的有贝叶斯准则、费希尔准则、距离判别、回归方法和非参数方法等。
无论用哪一种准则或方法所建立的判别函数和判别规则,都可能产生错判,错判所占的比率用错判概率来度量。当总体间区别明显时,错判概率较小;否则错判概率较大。判别函数的选择直接影响到错判概率,故错判概率可用来比较不同方法的优劣。
变量(如上例中的X1和X2)选择的好坏是使用判别分析的最重要的问题,常用逐步判别的方法来筛选出一些确有判别作用的变量。利用序贯分析的思想又产生了序贯判别分析。例如医生在诊断时,先确定是否有病,然后确定是哪个系统有病,再确定是什么性质的病等等。 又称数值分类。聚类分析和判别分析的区别在于,判别分析是已知有多少类和样本来自哪一类,需要判别新抽取的样本是来自哪一类;而聚类分析则既不知有几类,也不知样本中每一个来自哪一类。例如,为了制定服装标准,对 N个成年人,测量每人的身高(x1)、胸围(x2)、肩宽(x3)、上体长(x4)、手臂长(x5)、前胸(x6)、后背(x7)、腰围(x8)、臀围(x9)、下体长(x10)等部位,要将这N个人进行分类,每一类代表一个号型;为了使用和裁剪的方便,还要对这些变量(x1,x2,…,x10)进行分类。聚类分析就是解决上述两种分类问题。
设已知N个观测值X1,X2,…,Xn,每个观测值是一个p维向量(如上例中人的身高、胸围等)。聚类分析的思想是将每个观测值Xi看成p维空间的一个点,在p维空间中引入“距离”的概念,则可按各点间距离的远近将各点(观测值)归类。若要对 p个变量(即指标)进行分类,常定义一种“相似系数”来衡量变量之间的亲密程度,按各变量之间相似系数的大小可将变量进行分类。根据实际问题的需要和变量的类型,对距离和相似系数有不同的定义方法。
按距离或相似系数分类,有下列方法。①凝聚法:它是先将每个观察值{Xi}看成一类,逐步归并,直至全部观测值并成一类为止,然后将上述并类过程画成一聚类图(或称谱系图),利用这个图可方便地得到分类。②分解法:它是先将全部观测值看成一类,然后逐步将它们分解为2类、3类、…、N类,它是凝聚法的逆过程。③动态聚类法:它是将观测值先粗糙地分类,然后按适当的目标函数和规定的程序逐步调整,直至不能再调为止。
若观察值X1,X2,…,Xn之间的次序在分类时不允许打乱,则称为有序分类。例如在地质学中将地层进行分类,只能将互相邻接的地层分成一类,不能打乱上下的次序。用于这一类问题中的重要方法是费希尔于1958年提出的最优分割法。
聚类分析也能用于预报洪水、暴雨、地震等灾害性问题,其效果比其他统计方法好。但它在理论上还很薄弱,因为它不象其他方法那样有确切的数学模型。 又称主分量分析,是将多个变量通过线性变换以选出较少个数重要变量的一种方法。设原来有p个变量x1,x2,…,xp,为了简化问题,选一个新变量z,
,
要求z尽可能多地反映p个变量的信息,以此来选择l1,l2,…,lp,当l1,l2,…,lp选定后,称z为x1,x2,…,xp的主成分(或主分量)。有时仅一个主成分不足以代表原来的p个变量,可用q(<p)个互不相关的呈上述形式的主成分来尽可能多地反映原p个变量的信息。用来决定诸系数的原则是,在
的约束下,选择l1,l2,…,lp使z的方差达到最大。
在根据样本进行主成分分析时又可分为R型分析与Q型分析。前者是用样本协差阵(或相关阵)的特征向量作为线性函数的系数来求主成分;后者是由样品之间的内积组成的内积阵来进行类似的处理,其目的是寻找出有代表性的“典型”样品,这种方法在地质结构的分析中常使用。 它是由样本的资料将一组变量
y2,……yp)
分解为一些公共因子f与特殊因子s的线性组合,即有常数矩阵A使у=Af+s。公共因子f 的客观内容有时是明确的,如在心理研究中,根据学生的测验成绩(指标)来分析他的反应快慢、理解深浅(公共因子);有时则是不明确的。为了寻求易于解释的公共因子,往往对因子轴进行旋转,旋转的方法有正交旋转,斜旋转,极大变差旋转等。
从样本协差阵或相关阵求公共因子的方法有广义最小二乘法、最大似然法与不加权的最小二乘法等。通常在应用中,最方便的是直接利用主成分分析所得的头几个主成分,它们往往是对各个指标影响都比较大的公共因子。 它是寻求两组变量各自的线性函数中相关系数达到最大值的一对,这称为第一对典型变量,还可以求第二对,第三对,等等,这些成对的变量,彼此是不相关的。各对的相关系数称为典型相关系数。通过这些典型变量所代表的实际含意,可以找到这两组变量间的一些内在联系。典型相关分析虽然30年代已经出现,但至今未能广泛应用。
上述的各种方法可以看成广义多元分析的内容,在有些方法中,如加上正态性的假定,就可以讨论一些更深入的问题,例如线性模型中有关线性假设检验的问题,在正态的假定下,就有比较系统的结果。 多元分析也可按指标是离散的还是连续的来区分,离散值的多元分析实质上与列联表分析有很大部分是类似的,甚至是一样的。
非数量指标数量化的理论和方法也是广义多元分析的一个重要的研究课题。
㈧ 多元统计分析方法的作用是什么
多元统计分析方法的作用使实际工作者利用多元统计分析方法解决实际问题更简单方便。
如果每个个体有多个观测数据,或者从数学上说,如果个体的观测数据能表为P维欧几里得空间的点,那么这样的数据叫做多元数据,而分析多元数据的统计方法就叫做多元统计分析,它是数理统计学中的一个重要的分支学科。
典型相关分析
它是寻求两组变量各自的线性函数中相关系数达到最大值的一对,这称为第一对典型变量,还可以求第二对,第三对,等等,这些成对的变量,彼此是不相关的。各对的相关系数称为典型相关系数。通过这些典型变量所代表的实际含意,可以找到这两组变量间的一些内在联系。典型相关分析虽然30年代已经出现,但至今未能广泛应用。
㈨ 实用多元统计分析的内容简介
多元统计分析是统计学中内容十分丰富、应用范围极为广泛的一个分支。在自然科学和社会科学的许多学科中,研究者都有可能需要分析处理有多个变量的数据的问题。能否从表面上看起来杂乱无章的数据中发现和提炼出规律性的结论,不仅需要对所研究的专业领域有很好的训练,而且要掌握必要的统计分析工具。
对研究者来说,本书是学习掌握多元统计分析的各种模型和方法的一本有价值的参考书:首先,它做到了“浅入深出”,既可供初学者入门,又能使有较深基础的人受益;其次,它既侧重于应用,又兼顾必要的推理论证,使学习者既能学到“如何”做,又能在一定程度上了解“为什么” 这样做;最后,它内涵丰富、全面,不仅基本包括各种在实际中常用的多元统计分析方法,而且对现代统计学的最新思想和进展有所介绍。值得一提的是,本书中有大量来自实际问题的数据实例,通过对这些实例的分析,读者可以学到如何将一个实际问题转化为恰当的统计问题,进而选择恰当的方法来进行分析。
㈩ 多元统计分析法主要包括
多元统计分析方法主要包括线性回归分析方法、判别分析方法、聚类分析方法、主成份分析方法、因子分析方法、对应分析方法、典型相关分析方法以及片最小二乘回归分析方法等。
《多元统计分析方法》是2009年上海格致出版社出版的图书,作者是(德)巴克豪斯。本书主要讲解了多元统计分析中最常见的九种方法。
简介
多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律,很适合农业科学研究的特点。主要内容包括多元正态分布及其抽样分布、多元正态总体的均值向量和协方差阵的假设检验。
多元方差分析、直线回归与相关、多元线性回归与相关(Ⅰ)和(Ⅱ)、主成分分析与因子分析、判别分析与聚类分析、Shannon信息量及其应用。简称多元分析。当总体的分布是多维(多元)概率分布时,处理该总体的数理统计理论和方法。数理统计学中的一个重要的分支学科。