㈠ 多元統計分析在處理數據什麼方面有用
多元統計分析是針對復雜多變數 構建多元模型的,其中包括很多多元統計模型,比如多元回歸、因子分析、logistic回歸、對應分析等很多多元分析方法,以用來解決在實際當中的可能存在的不同的數據模型
㈡ 統計學專業的研究概況
20世紀的最後五年,人類富有創造性的勤奮努力,使信息技術、生命科學等領域的研究取得了重大突破,在科學技術史冊中譜寫了光輝的篇章。統計學學科伴隨著科學技術的發展在理論研究和實際應用中也取得了可喜的進展。本報告分別從國外、國內研究概況及中國高校統計學科的研究發展情況給予扼要總結和回顧。 隨著科學技術的飛速發展,統計方法與技術的應用越來越重要。19世紀統計技術為基因學說奠定了理論基礎,在即將跨入21世紀的今天,科學技術對統計方法的依賴愈來愈強。世界上許多國家尤其是發達國家都非常重視統計學理論的研究和發展。根據國際統計學會(ISI)近幾年的會刊及統計學方面的著名雜志,可將近幾年國際統計界研究的主要問題概括如下:
1.統計學基本理論研究有:概率極限理論及其在統計中應用、樹形概率、Banach空間概率、隨機PDE』S、泊松逼近、隨機網路、馬爾科夫過程及場論、馬爾科夫收斂率、布朗運動與偏微分方程、空間分支總體的極限、大的偏差與隨機中數、序貫分析和時序分析中的交叉界限問題、馬爾科夫過程與狄利克雷表的一一對應關系、函數估計中的中心極限定理、極限定理的穩定性問題、因果關系與統計推斷、預測推斷、網路推斷、似然、M——估計量與最大似然估計、參數模型中的精確逼近、非參數估計中的自適應方法、多元分析中的新內容、時間序列理論與應用、非線性時間序列、時間序列中確定模型與隨機模型比較、極值統計、貝葉斯計算、變點分析、對隨機PDE』S的估計、測度值的處理、函數數據統計分析等。
2.統計學主要應用領域有:社會發展與評價、持續發展與環境保護、資源保護與利用、電子商務、保險精算、金融業資料庫建設與風險管理、宏觀經濟監測與預測、政府統計數據收集與質量保證等、分子生物學中的統計方法、高科技農業研究中的統計方法、生物制葯技術中的統計方法、流行病規律研究與探索的統計方法、人類染色體工程研究中的統計方法、質量與可靠性工程等。 「九五」期間中國統計界出現了社會經濟統計學與數理統計學相互學習、共同提高、共創未來的新局面。1996年10月,中國統計學會、中國概率統計學會、中國現場統計學會聯合舉辦了全國統計科學討論會,這是「九五」期間中國統計學術界一次盛會,它標志著中國社會經濟統計學與數理統計學的合作已進入實質性階段。統計界在數理統計與社會經濟統計學的結合方面、風險管理與保險精算方面、空間統計學及其應用方面、政府統計數據質量研究與評價方面、信息技術、網路技術在統計學的應用方面、金融及證券理論研究方面、國民經濟核算理論與應用方面、綜合國力研究方面等取得了可喜的成就。「九五」期間國內統計界主要有影響的研究可概括如下:
1.理學類統計學一級學科地位的確立
「九五」期間中國統計界關於建立和完善統計學學科體系的研究與爭論異常激烈。統計界對「大統計」的認識通過大量探索已逐步趨向統一。所謂「大統計」是針對中國過去數理統計、社會經濟統計、生物醫學統計等各學科領域的應用統計各自為政相對面窄而言。1998年9月國家教育部頒布的《普通高等學校本科專業目錄和專業介紹》將統計學列為理學類一級學科,這是中國統計界「九五」期間的重大成就。教育部這項專業調整是為了適應市場經濟與國際接軌的要求,在「寬口徑,厚基礎」的指導思想下,將原來的504個專業調整到249個專業,50%以上專業被砍掉,然而統計學不僅保留,而且列入理學類一級學科,這是中國統計界廣大理論工作者辛勤努力的重要成就,是中國統計界值得慶幸的大事,它的頒布對中國統計的未來具有重大意義和深遠影響。這一專業目錄的確定為中國統計界長期的爭論進一步指明了發展方向。這個方向就是——適應市場經濟與國際接軌的統計學就是理學類統計學。統計學一級學科的地位表明統計學既不是經濟學的一個子學科,也不是數學的一個子學科,統計學就是統計學。盡管統計學被教育部專業目錄確定為理學類一級學科,但統計界,尤其是中國高等統計教育界經濟類統計學者反對者甚多。有的學者認為理學類統計學就是數學,只有經濟學其中的統計學才是統計學。贊成者認為統計學就是統計學,理學類統計學與數學有著質的區別,經濟學類的統計學已被中國實踐證明是前蘇聯的文科式統計學,根本不能代表作為方法論的整個統計學科。這一爭論還將繼續一段時間。
2.統計學基本理論與方法問題研究
「九五」期間中國統計界圍繞與國際統計學接軌做了大量研究工作,系統地介紹了國外統計學研究的一些新進展。這方面最為突出的是國家統計局統計教育中心和中國統計出版社組織國內一流統計專家翻譯出版了15本現代外國統計學優秀著作。這些著作令中國統計界不少學者大開眼界,從中汲取豐富的統計理論和方法,已在中國統計界產生了積極影響,為理學類統計學科的建立與發展奠定了基礎。為適用新專業目錄的需要,國內高校的統計教師們編寫了一批統計方法和應用的新教材。中國統計界在抽樣方法、時間序列分析、多元統計分析、非參數統計、回歸分析、指數理論、宏觀經濟建模等理論與應用研究方面作了大量工作。
3. 政府統計數據質量的研究
隨著中國社會主義市場經濟的深入發展,政府統計數據無論是在國家制定發展戰略和社會、經濟發展的宏觀調控中,還是企業制定營銷策略以及社會、經濟、環境等科學研究領域都起著不可或缺的重要作用,用戶對政府統計數據的內在質量以及數據的產生、提供過程的可靠性的企盼也越來越高。關於中國政府統計數據的質量關注和研究的學者很多,發表的論文或報告已有近百篇之多。幾乎每個省都設立了統計數據質量研究的課題,全國哲學社會科學基金還設立了「關於評估、改進和保證中國政府統計數據質量問題的研究」的重點項目。該項目從定性與定量的有機結合上開展對政府統計數據的評價與研究,主要從技術與方法上對中國政府統計數據的質量作出客觀評價,對改進、提高、控制、監測中國政府統計數據的質量從理論與實踐的結合上做了一些研究和探索。但總體來看,現有的大多數研究基本停留在定性的評說上,提批評的多,提實質性建議的少;指責體制的多,研究評價、改進、識別的理論與方法的少,大多數文獻把統計數據的質量問題歸結為中國的政治、經濟體制問題。事實上,縱觀北美、歐盟等許多國家的政府統計數據,無一例外地也存在數據質量問題,政府統計數據的質量是各國普遍存在和廣泛關注的熱點問題。
4. 風險管理和保險精算的研究
「九五」期間關於風險管理和保險精算的研究得到較快發展,主要表現在不少發達國家風險管理和保險精算名著的翻譯出版,中國統計方面雜志以及幾次全國概率統計學術會議這方面論文的顯著增加。風險管理與保險精算的研究不僅滿足中國社會主義市場經濟的需要,也更大地擴展了統計學方法的應用。這方面的研究從引進國外理論已向中國的具體應用健康發展,保險精算的研究已由壽險領域向非壽險領域擴展,尤其是開始結合中國實際向社會保障領域有效延伸。
5. 統計學在金融、證券領域的應用研究
1997年開始的亞洲金融風暴,給亞洲乃至世界經濟的健康發展帶來危機,中國經濟的發展也受到亞洲金融風暴的影響。國家的經濟安全、金融安全被國家領導核心重視,為統計技術與方法的應用提供了新的機遇,在全國應運而生建立了金融數學與金融工程管理中心、證券期貨模擬實驗室、金融數學系等。全國有不少統計學者成為研究金融、證券、投資的主力。從發表的論文來看統計方法研究金融、證券問題主要有:(1)有效投資組合研究。最為典型的是VaR技術的運用和具有異方差的時間序列模型技術的應用。(2)結構分析研究。運用多元統計方法分析股票的投資結構、探討股票漲跌規律、尋求證券市場發展與影響因素的關系。(3)金融安全概率的研究。有學者運用東南亞等國和中國的金融數據資料,結合金融安全給出預警概率,為國家宏觀經濟調控和金融風險防範提供了有力的決策依據。
6. 統計綜合評價理論與應用的研究
國際競爭力的研究是頗受世界各國關注的重要研究。中國學者在「九五」期間開始開展這一領域的研究、並且通過刻苦努力緊跟這一領域的世界水平,在這方面中國學者所用的統計方法與世界水平相當,結合中國國情國力取得了重要成果。這方面有國民經濟核算進一步發展的國際競爭力統計研究,知識經濟時代中國科技創新的國際競爭力研究,中國金融、保險等領域的國際競爭力研究還有統計方法在社會經濟發展水平的綜合評價中的應用,顧客滿意度量測與評價的研究等。
7. 國民經濟核算理論與應用研究
「九五」期間,中國的國民經濟核算體系研究進一步完善。在內容上,以增加值和GDP為核心,已經能比較全面地反映中國國民經濟生產全過程、收入與分配、消費、儲蓄、實物投資、金融投資、國際收支、資本和財富存量的變化等。為國家制定經濟政策和宏觀調控發揮著積極作用。可喜的是已有一些學者在國家的可持續發展、環境與核算技術相結合方面取得了重要研究成果。
8.質量體系認證應用研究
「九五」期間,一股「ISO9000」認證熱席捲全球,質量體系認證日益成為國際貿易中所要求的供方質量保證能力和水平的標志。ISO9000族標准中有許多要素涉及到統計技術與方法的應用,中國已有近2萬家大中型企業通過了認證。這方面的認證,對統計方法的應用提供了新的機會,中國不少統計學者找到了統計應用的現場,為國有企業員工培訓、提高素質、扭虧增盈,國家經濟形勢好轉發揮了統計工作者的積極作用。特別是試驗設計、ISO14000和6質量標准技術的推廣對改進企業管理水平,提高產品質量,提升企業國際競爭力發揮了重要作用。
9.抽樣調查方法的研究與應用
「九五」期間關於抽樣調查方法的研究與應用在中國開展的如火如荼。例如,交通部還建立了統計抽樣調查系統。交通運輸的大量統計數據已基本由抽樣調查方法獲得。全國許多行業對本部門關心的問題進行抽樣調查,不少部門就公眾關注的熱點問題開展公眾調查,有的報刊還定期刊登公眾調查的調查報告。中國90年代初成立了不少市場調查公司,經過幾年的大浪淘沙,全國生存下來的公司經營狀況不錯。網上調查、電話調查在中國也健康發展。有關抽樣調查的理論,如非抽樣誤差控制的研究也得到統計界的廣泛重視。
10.空間統計與地理信息系統的應用研究
空間統計學是近幾年統計學發展的一個新領域,其主要的應用包括遙感,國土資源估計,農業和林業,海洋學、生態學和環境觀測。在遙感技術的應用中,得到的統計數據通常以網路的形式出現,而且這些數據受到大氣效應、觀測位置以及測量工具的影響產生誤差,空間統計學的應用在於,針對這種特殊的數據,研究如何控制誤差、如何建立模型、如何處理資料信息。在資源的估測中,空間統計學的應用在於,如何利用空間統計數據,估計資源的總儲量、資源的地區分布、資源的開發等。在環境監測等領域也作了積極的探索。
㈢ 2 應用多元統計分析主要包括哪些分析方法
控制圖,用來對過程狀態進行監控,並可度量、診斷和改進過程狀態。
直方圖,是以一組無間隔的直條圖表現頻數分布特徵的統計圖,能夠直觀地顯示出數據的分布情況。
排列圖,又叫帕累托圖,它是將各個項目產生的影響從最主要到最次要的順序進行排列的一種工具。可用其區分影響產品質量的主要、次要、一般問題,找出影響產品質量的主要因素,識別進行質量改進的機會。
散布圖,以點的分布反映變數之間相關情況,是用來發現和顯示兩組數據之間相關關系的類型和程度,或確認其預期關系的一種示圖工具。
過程能力指數(Cpk),分析工序能力滿足質量標准、工藝規范的程度。
頻數分析,形成觀測量中變數不同水平的分布情況表。
描述統計量分析,如平均值、最大值、最小值、范圍、方差等,了解過程的一些總體特徵。
相關分析,研究變數之間關系的密切程度,並且假設變數都是隨機變動的,不分主次,處於同等地位。
回歸分析,分析變數之間的相互關系。
當然,在質量管理中,還有很多常用的統計分析方法,在此不一一列舉。
(盈飛無限)
㈣ 如何利用多元統計模型來優化股票型投資基金的業績
這個問題有點復雜,多元統計模型太簡單了,市場行情在變化,回測的數據結果也未必適應未來行情
㈤ IPO定價的因素分析
我們將承銷商在IPO定價程序中可能考慮的各種因素分為兩類,即外部因素和公司內部因素。它們的組合及其影響直接導致了IPO價格的確定。
所謂外部因素是指與企業正常經營狀態相對獨立的、不直接反映其內生持續盈利能力 但卻影響承銷商IPO定價判斷的各種情況,它們包括國民經濟運行狀況、市場利率水平、突發性事件、行業宏觀政策導向、產品市場預期、同業競爭情況、市場波動情況、股票發行規模以及承銷商自身實力等等。這些因素可能會以不確定的、非線性的方式對承銷商的定價過程發生作用,而且在特定的定價行為中,上述信息對IPO價格的最終形成主要起著經驗性的非量化影響;公司內部因素是指反映在IPO價格中的直接體現公司素質和增長前景的各種要素的總和,包括承銷商對其經營效率、獲利能力、管理狀況、資本結構等各種內部情況的評估結論。與外部因素不同之處在於,這些內部因素對於IPO定價主要可能起著較為確定的、線性的量化影響。
在模擬外部因素時,我們考慮到一些外部影響的量化難度而進行了相應的簡化或剔除。最終,我們假設承銷商的IPO定價程序主要受到以下四方面因素的直接影響:(1)市場波動情況;(2)股票發行數量;(3)行業特性;(4)承銷商等級指數。
對因素(1),我們使用了上證指數的相對波動率指標來模擬整個市場的中短期波動情況。考慮到在實際發行程序中,IPO定價的最終確定時間一般是在正式發行日的兩周之前,因此我們採用發行前兩周的市場波動率組合S1來模擬市場氣氛的研判環境。其計算公式為:
F/An=Ft/Fn(n=3,5,7,9,11,13,15)
其中,F/An代表相對於上證指數第n周移動平均收盤點位的市場波動率;
Ft為特定股票發行日兩周前的上證指數收盤點位;
Fn為特定股票發行日兩周前的上證指數n周移動平均收盤點位.
對於因素(3),我們使用了最新頒布的上市公司行業分類指引。由於兩個交易所公布的上市公司行業分類結果詳細程度不同,因此我們以深交所較為概括的分類標准來對樣本公司所屬的行業進行判別。
在因素(4)即承銷商自身實力方面,我們考慮到美國的IPO市場中等級較高的投資銀行所承銷的IPO股票定價傾向於高出平均水平(Michelle Lowry&G. William Schwert,2001),因此,國內承銷商的實力差別可能也會對其作出的IPO定價決策有所影響。在考慮多重指標之後,我們大致把1997-2000年樣本期間內的主承銷商進行了等級排名,共分為1、2、3、4個檔次。其中,檔次越靠前的承銷商實力也越強。
在公司內部因素方面,我們考慮到市盈率指標所反映的公司基本面情況較為有限,而要試圖對公司的內在價值運用現金流量貼現方法作出判斷又會令主觀因素的干擾加大。因此,為了全面反映特定公司的基本面素質,我們運用了71個財務指標來模擬公司的償債能力、贏利能力、資產周轉能力、管理效率等各個方面的情況。這些財務指標的原始數據均來自於樣本公司招股說明書及上市公告書中上一個會計年度的資產負債表和收益表。盡管現金流量信息非常重要,但在權責發生制的框架下,資產負債表和收益表仍然可以完整地代表特定企業的財務狀況和經營成果。鑒於報表編制基礎的沖突,我們在選取財務數據時沒有納入現金流量信息。
另外,我國證券市場的政策環境變化較大,經驗數據表明:市場的IPO定價從趨勢上看,有突然間受到某種沖擊而整體增加的跡象,而不是逐漸的增加;而從實際的市場情況來看,定價增加可能是因為受到一級市場市場化的政策的影響,從而表現出的不理性行為導致。基於上述兩個原因,我們沒有在後續的分析過程中引入時間變數。 (1)數據性質的檢驗
我們試圖從81個變數中尋找到對新股價格有效的解釋變數。如果這些變數高度相關,必然會導致回歸方程中自變數相互削弱各自對y的邊際影響,而出現回歸方程整體顯著,但各個變數都不顯著的現象,也就是多重共線性的現象。另外,在眾多的數據中如果存在奇異值,將嚴重地歪曲變數與自變數之間的關系,使回歸方程不能很好地描述一般情況下變數與自變數之間的關系。因此,在發現奇異值時,應將其刪除以使回歸方程得到較好的效果。
我們通過標准化誤差和標准化預測值的散點圖檢驗數據是否存在奇異值的一般規則是:如果存在數據點明顯超出 標准化誤差值區間,則可以認為該數據是奇異值。根據結果看,幾乎所有的值都在 標准化誤差值區間內,有兩個點遠離該區間,顯見這兩個值是奇異值,將嚴重影響到回歸方程的質量,應該剔除。這兩個點對應的個體是新力葯業(0153)和平高電氣(600312)。
(2)多重共線性的檢驗
我們通過相關系數矩陣觀察各指標之間的相關程度,從而判斷各指標間是否存在高度的相關性。從相關系數矩陣可以看到,在擬選用的指標中,變數之間普遍存在著高度相關的現象,比如F/A7與F/A9之間的相關系數為0.977794、主營收入/有形資產與總資產周轉率之間的相關系數高達 0.998043等等。所以,這些變數不能同時進入回歸方程,在進行回歸之前必須對數據進行處理以消除多重共線性的影響。
(3)數據處理
從上述數據性質的檢驗中,我們發現數據存在奇異值、存在多重共線性的現象。對於奇異值我們將其從數據中剔除,而對於多重共線性的問題我們採用主成分分析法進行處理。
擬選用的指標可以分為兩類,即外部指標(行業類別、市場波動指數、承銷商等級、發行量系數)和反映公司內部因素的財務指標類聚,並分別對這兩類指標進行主成分分析。
(4)用多元統計分析中的主成分分析法進行數據簡化
由於存在多重共線性的現象,也就是說各變數之間相互關聯,所反映的信息很大程度上也是重復的,所以我們完全可以用少數一些變數來反映大部分的信息。主成分分析作為多元統計分析技術的一個分支,其主要目的就是濃縮數據,就是研究如何以最少的信息丟失把眾多的觀測變數濃縮為少數幾個因子。這幾個因子不僅保留了原始指標中的主要信息,而且彼此之間不相關,很好地避免了出現多重共線性的問題。
(5)從財務指標中提取公因子。
第一步,提取公因子,並進行因子旋轉。
這一處理的結果發現:特徵值(Total項)大於1的因子共13個,這13個因子的累計解釋方差佔到總方差的91.33864%,也即這13 個因子代表了原來所有71財務指標所表達的信息量的91%左右,代表了絕大多數的信息。而變數數由71個減少到13個,以最小的信息丟失量,極大地簡化了數據。在之後的回歸分析中,我們將用這13個共因子替代原來的71個財務指標進行回歸。通過主成分法得到的公因子是完全不相關的,即相關系數為0,用它們進行回歸分析就不會出現多重共線性問題。
另外,因子旋轉後並沒有改變這13個因子的累計解釋方差佔到總方差的比例,旋轉前後該比例均為91.33864%,只是在各個因子之間的分配比例有所變化。
第二步,計算因子得分。
實際上因子得分是通過原始變數的線性組合得到,原始變數前的系數就是因子載荷矩陣中的因子載荷。
(6)從市場指數波動指標中提取公因子
利用上表中的因子載荷矩陣計算因子得分S1
S1=0.823232×(F/A3)+A+0.895644×(F/A15)
(7)用虛擬變數處理行業數據
對於樣本所含的94隻新股,共涉及19個不同行業,我們引入虛擬變數進行處理。我們用18個虛擬變數di(i=1,2A 18 )來反映行業分布對新股定價的影響。
(8)回歸分析
在剔除奇異值、運用主成分分析法濃縮數據並同時處理了多重共線性的問題之後,我們即可進行最後的回歸分析。下面是我們通過採用主成分法得到的財務指標的公因子、市場指標的公因子及發行量系數、行業類別的虛擬變數、券商等級等因素對被解釋變數(即IPO價格)進行逐步回歸所選出的最優回歸方程。
Price=14.27727-1.71038×發行量系數-0.41778×S1+6.70326×d11+3.861002×d15-3.06603×d17+1.132558×F1+0.579465×F3+0.863128×F4+0.67048×F6+0.422713×F8- 0.6338×F12
其中R2=0.68
(9)最終結果分析:
在財務指標的公因子中,對新股價格有顯著影響只有F1、F3、F4、F6、F8、F12、這六個因子,其餘因子對新股價格影響甚小,不予考慮。除此之外,市場波動指標的公因子S1對新股價格的影響也是顯著的,S1也進入了回歸方程。發行量對新股價格的影響同樣不能忽視。在反映行業分布的18 個虛擬變數中d11、d15和d17進入了方程,它們所對應行業為行業C99(其他製造業),行業G(信息技術業)和行業K(社會服務業),這說明在 2000年以來,屬於這三個行業的上市公司在進行新股定價時,行業分布對其股票定價有顯著影響。其中,行業C99和行業G對新股定價是正向的影響,而行業 K對新股定價的影響則是反向的。
上述的Tolerance和VIF兩個指標為多重共線性的檢查指標。可以看到,所有變數的Tolerance均大於0.1,VIF均小於10,因此不存在多重共線性的問題。
另外,檢驗數據表明,在5%的顯著性水平下,各系數的t值與方程的F值全部通過檢驗,新股定價模型擬合效果非常好。
作為對比,我們對1997年至2001年初的328隻IPO股票數據進行了類似分析,檢驗結果與上述結論較為相近(檢驗通過變數完全一致),但回歸方程中的自變數系數有一些差別,而樣本的擬合度也較差一些,這表明較長期間的IPO定價因素影響可能會隨著結構性的市場變動而發生變化。另外,從行業分布角度看,在這一期間對股票定價有顯著影響的行業也變成行業C99,行業F(交通運輸、倉儲業)和行業L(傳播與文化產業)。其中,行業C99和行業 L對新股定價是正向的影響,而行業F對新股定價的影響則是反向的。這說明市場熱點會隨著一些環境因素的變化而轉移。
㈥ 初一數學問題
1. 統計學的三個基本發展趨勢及其啟示
朱永平 文獻來自: 中國統計 2001年 第08期 CAJ下載 PDF下載
與統計學中的判別分析也存在一些可相互借鑒的方面。特別是關於質度函數與可拓變換理論,都有可能應用於統計指標的計算,目前也有文獻在這方面取得了一定的成績。神經網路方法被廣泛應用於統計預測與多指標統計綜合評價。此外,管 ...
被引用次數: 6 文獻引用-相似文獻-同類文獻
2. 評價判別模型診斷效果的ROC分析
李康,林一帆 文獻來自: 中國衛生統計 1996年 第03期 CAJ下載 PDF下載
判別模型,累積比數模型ROC分析已成為評價診斷試驗的一種重要方法。本文介紹了ROC分析的基本思想,提出用ROC分析評價判別模型的優劣,給出了ROC曲線回歸估計的方法,並且導出了估計ROC曲線下面積A及標准誤SE ...
被引用次數: 13 文獻引用-相似文獻-同類文獻
3. 基於Fisher准則的判別分析
陳峰,祝紹琪 文獻來自: 中國衛生統計 1994年 第03期 CAJ下載 PDF下載
基於Fisher准則的判別分析@陳峰@祝紹琪$南通醫學院醫學統計學教研室$華西醫科大學衛生統計學教研室Fisher准則,多類判別本文較全面地闡述了Fisher准則下的多類判別,及其與Bayes判別、回歸分析之關系。由於Fisher判 ...
被引用次數: 4 文獻引用-相似文獻-同類文獻
4. 基於PCA與LDA的說話人識別研究
章萬鋒 文獻來自: 浙江大學 2004年 碩士論文 CAJ下載 在線閱讀 分章下載 分頁下載
判別分析方法有多種,包括距離判別、Bayes判別以及線性判別。其中 線性判別分析(LDA),又稱費歇判別分析、基於類的K一L變換,由Fisher第一次提出,可以表 示不同的特徵變數,在多元統計分析中 ...
被引用次數: 1 文獻引用-相似文獻-同類文獻
5. 綜合評價的多元統計分析方法
祁洪全 文獻來自: 湖南大學 2001年 碩士論文 CAJ下載 在線閱讀 分章下載 分頁下載
本文針對主成分分析、因子分析兩種緊密相關的多元統計分析方法, 從理論和實踐兩方面作了一定的研究;除了分析和改進兩種多元分析方法 之外,還建立了應用它們進行綜合評價的數學模型,並且應用這些模型對 實際問題進行了綜合評價 ...
被引用次數: 3 文獻引用-相似文獻-同類文獻
6. 分析化學計量學
吳海龍,梁逸曾,俞汝勤 文獻來自: 分析試驗室 1999年 第06期 CAJ下載 PDF下載
羅宏傑編著成《中國古陶瓷與多元統計分析》一書[B4],從多元統計的數學方法入手,側重於對應分析、聚類分析以及判別分析等數學方法在中國古陶瓷研究中的應用。3 試驗設計與優化正交試驗設計和單純形優化法目前仍然是試驗設計和優化的主要方法。其目 ...
被引用次數: 12 文獻引用-相似文獻-同類文獻
7. 綜合評價的多元統計分析方法
祁洪全 文獻來自: 湖南大學 2001年 碩士論文 CAJ下載 在線閱讀 分章下載 分頁下載
本文針對主成分分析、因子分析兩種緊密相關的多元統計分析方法, 從理論和實踐兩方面作了一定的研究;除了分析和改進兩種多元分析方法 之外,還建立了應用它們進行綜合評價的數學模型,並且應用這些模型對 實際問題進行了綜合評價 ...
被引用次數: 3 文獻引用-相似文獻-同類文獻
8. 逐步判別分析法的計算機實現
常進榮,任翔,趙磊峰 文獻來自: 雲南農業大學學報 1995年 第03期 CAJ下載 PDF下載
摘要用漢字Foxbase開發一個操作界面好、通用性強的逐步判別分析計算程序.關鍵詞逐步判別分析,演算法,程序本國分類號TP311.52逐步判別分析法是多元統計學中的一類重要方法。它在生物學、農學、醫學等領域中有著廣泛的應用,以前的多元統計分析計算程序大多是在pc-150 ...
被引用次數: 2 文獻引用-相似文獻-同類文獻
9. 小樣本數據信用風險評估研究
王春峰,李汶華 文獻來自: 管理科學學報 2001年 第01期 CAJ下載 PDF下載
普通的判別分析方法可能導致較大的判別誤差 ,因此採用本文提出的CV方法來構建判別分析模型 ,試圖提高判別精度 ...
被引用次數: 29 文獻引用-相似文獻-同類文獻
10. 研發項目中止決策分析與判別
侯強 文獻來自: 遼寧工程技術大學 2003年 碩士論文 CAJ下載 在線閱讀 分章下載 分頁下載
從項目中止決策內涵入手,結合國內外研究現狀,以直觀經 濟分析和投資可靠性分析為切入點,分析了項目中止決策的必要 性,從價值評估理論角度分析了項目中止決策的價值基礎,從自 主開發和委託代理角度分析了項目中止決策的運行機制。 依據研究與開發項目的...
被引用次數: 2 文獻引用-相似文獻-同類文獻
查判別分析 的定義
查統計學 的定義
搜多元統計 的學術趨勢
搜思想 的學術趨勢
搜索相關數字
股票交易統計上市股票數目
股票交易統計上市公司數目
股票交易統計股票流通市值
㈦ 多元統計分析的簡介
multivariate statistical analysis
研究客觀事物中多個變數(或多個因素)之間相互依賴的統計規律性。它的重要基礎之一是多元正態分析。又稱多元分析 。 如果每個個體有多個觀測數據,或者從數學上說, 如果個體的觀測數據能表為 P維歐幾里得空間的點,那麼這樣的數據叫做多元數據,而分析多元數據的統計方法就叫做多元統計分析 。 它是數理統計學中的一個重要的分支學科。20世紀30年代,R.A.費希爾,H.霍特林,許寶碌以及S.N.羅伊等人作出了一系列奠基性的工作,使多元統計分析在理論上得到迅速發展。50年代中期,隨著電子計算機的發展和普及 ,多元統計分析在地質 、氣象、生物、醫學、圖像處理、經濟分析等許多領域得到了廣泛的應用 ,同時也促進了理論的發展。各種統計軟體包如SAS,SPSS等,使實際工作者利用多元統計分析方法解決實際問題更簡單方便。重要的多元統計分析方法有:多重回歸分析(簡稱回歸分析)、判別分析、聚類分析、主成分分析、對應分析、因子分析、典型相關分析、多元方差分析等。
早在19世紀就出現了處理二維正態總體(見正態分布)的一些方法,但系統地處理多維概率分布總體的統計分析問題,則開始於20世紀。人們常把1928年維夏特分布的導出作為多元分析成為一個獨立學科的標志。20世紀30年代,R.A.費希爾、H.霍特林、許寶祿以及S.N.羅伊等人作出了一系列奠基性的工作,使多元統計分析在理論上得到了迅速的進展。40年代,多元分析在心理、教育、生物等方面獲得了一些應用。由於應用時常需要大量的計算,加上第二次世界大戰的影響,使其發展停滯了相當長的時間。50年代中期,隨著電子計算機的發展和普及,它在地質、氣象、標准化、生物、圖像處理、經濟分析等許多領域得到了廣泛的應用,也促進了理論的發展。
多元分析發展的初期,主要討論如何把一元正態總體的統計理論和方法推廣到多元正態總體。多元正態總體的分布由兩組參數,即均值向量μ(見數學期望)和協方差矩陣(簡稱協差陣)∑ (見矩)所決定,記為Np(μ,∑)(p為分布的維數,故又稱p維正態分布或p 維正態總體)。設X1,X2,…,Xn為來自正態總體Np(μ,∑)的樣本,則μ和∑的無偏估計(見點估計)分別是
和
分別稱之為樣本均值向量和樣本協差陣,它們是在各種多元分析問題中常用的統計量。樣本相關陣R 也是一個重要的統計量,它的元素為
其中υij為樣本協差陣S的元素。S的分布是維夏特分布,它是一元統計中的Ⅹ2分布的推廣。
另一典型問題是:假定兩個多維正態分布協差陣相同,檢驗其均值向量是否相同。設樣本X1,X2,…,Xn抽自正態總體Np(μ1,∑),而Y1,Y2,…,Ym抽自Np(μ2,∑),要檢驗假設H 0:μ1=μ2(見假設檢驗)。在一元統計中使用t統計量(見統計量)作檢驗;在多元分析中則用T2統計量,
,其中,
,
·
,T2的分布稱為T2分布。這是H.霍特林在1936年提出來的。
在上述問題中的多元與一元相應的統計量是類似的,但並非都是如此。例如,要檢驗k個正態總體的均值是否相等,在一元統計中是導致F統計量,但在多元分析中可導出許多統計量,最著名的有威爾克斯Λ統計量和最大相對特徵根統計量。研究這些統計量的精確分布和優良性是近幾十年來多元統計分析的重要理論課題。
多元統計分析有狹義與廣義之分,當假定總體分布是多元正態分布時,稱為狹義的,否則稱為廣義的。近年來,狹義多元分析的許多內容已被推廣到更廣的分布之中,特別是推廣到一種稱為橢球等高分布族之中。
按多元分析所處理的實際問題的性質分類,重要的有如下幾種。 簡稱回歸分析。其特點是同時處理多個因變數。回歸系數和常數的計算公式與通常的情況相仿,只是由於因變數不止一個,原來的每個回歸系數在此都成為一個向量。因此,關於回歸系數的檢驗要用T2統計量;對回歸方程的顯著性檢驗要用Λ統計量。
回歸分析在地質勘探的應用中發展了一種特殊的形式,稱為趨勢面分析,它以各種元素的含量作為因變數,把它們對地理坐標進行回歸(選用一次、二次或高次的多項式),回歸方程稱為趨勢面,反映了含量的趨勢。殘差分析是趨勢面分析的重點,找出正的殘差異常大的點,在這些點附近,元素的含量特別高,這就有可能形成可採的礦位。這一方法在其他領域也有應用。 由 k個不同總體的樣本來構造判別函數,利用它來決定新的未知類別的樣品屬於哪一類,這是判別分析所處理的問題。它在醫療診斷、天氣預報、圖像識別等方面有廣泛的應用。例如,為了判斷某人是否有心臟病,從健康的人和有心臟病的人這兩個總體中分別抽取樣本,對每人各測兩個指標X1和X2,點繪如圖 。可用直線A將平面分成g1和g2兩部分,落在g1的絕大部分為健康者,落在g2的絕大部分為心臟病人,利用A的垂線方向l=(l1,l2)來建立判別函數
y=l1X1+l2X2,可以求得一常數с,使 y<с 等價於(X1,X2)落在g1,y>с等價於(X1,X2)落在g2。由此得判別規則:若,l1X1+l2X2<c
判,即此人為健康者;若,l1X1+l2X2>C
判,
即此人為心臟病人;若,l1X1+l2X2=c則為待判。此例的判別函數是線性函數,它簡單方便,在實際問題中經常使用。但有時也用非線性判別函數,特別是二次判別函數。建立判別函數和判別規則有不少准則和方法,常用的有貝葉斯准則、費希爾准則、距離判別、回歸方法和非參數方法等。
無論用哪一種准則或方法所建立的判別函數和判別規則,都可能產生錯判,錯判所佔的比率用錯判概率來度量。當總體間區別明顯時,錯判概率較小;否則錯判概率較大。判別函數的選擇直接影響到錯判概率,故錯判概率可用來比較不同方法的優劣。
變數(如上例中的X1和X2)選擇的好壞是使用判別分析的最重要的問題,常用逐步判別的方法來篩選出一些確有判別作用的變數。利用序貫分析的思想又產生了序貫判別分析。例如醫生在診斷時,先確定是否有病,然後確定是哪個系統有病,再確定是什麼性質的病等等。 又稱數值分類。聚類分析和判別分析的區別在於,判別分析是已知有多少類和樣本來自哪一類,需要判別新抽取的樣本是來自哪一類;而聚類分析則既不知有幾類,也不知樣本中每一個來自哪一類。例如,為了制定服裝標准,對 N個成年人,測量每人的身高(x1)、胸圍(x2)、肩寬(x3)、上體長(x4)、手臂長(x5)、前胸(x6)、後背(x7)、腰圍(x8)、臀圍(x9)、下體長(x10)等部位,要將這N個人進行分類,每一類代表一個號型;為了使用和裁剪的方便,還要對這些變數(x1,x2,…,x10)進行分類。聚類分析就是解決上述兩種分類問題。
設已知N個觀測值X1,X2,…,Xn,每個觀測值是一個p維向量(如上例中人的身高、胸圍等)。聚類分析的思想是將每個觀測值Xi看成p維空間的一個點,在p維空間中引入「距離」的概念,則可按各點間距離的遠近將各點(觀測值)歸類。若要對 p個變數(即指標)進行分類,常定義一種「相似系數」來衡量變數之間的親密程度,按各變數之間相似系數的大小可將變數進行分類。根據實際問題的需要和變數的類型,對距離和相似系數有不同的定義方法。
按距離或相似系數分類,有下列方法。①凝聚法:它是先將每個觀察值{Xi}看成一類,逐步歸並,直至全部觀測值並成一類為止,然後將上述並類過程畫成一聚類圖(或稱譜系圖),利用這個圖可方便地得到分類。②分解法:它是先將全部觀測值看成一類,然後逐步將它們分解為2類、3類、…、N類,它是凝聚法的逆過程。③動態聚類法:它是將觀測值先粗糙地分類,然後按適當的目標函數和規定的程序逐步調整,直至不能再調為止。
若觀察值X1,X2,…,Xn之間的次序在分類時不允許打亂,則稱為有序分類。例如在地質學中將地層進行分類,只能將互相鄰接的地層分成一類,不能打亂上下的次序。用於這一類問題中的重要方法是費希爾於1958年提出的最優分割法。
聚類分析也能用於預報洪水、暴雨、地震等災害性問題,其效果比其他統計方法好。但它在理論上還很薄弱,因為它不象其他方法那樣有確切的數學模型。 又稱主分量分析,是將多個變數通過線性變換以選出較少個數重要變數的一種方法。設原來有p個變數x1,x2,…,xp,為了簡化問題,選一個新變數z,
,
要求z盡可能多地反映p個變數的信息,以此來選擇l1,l2,…,lp,當l1,l2,…,lp選定後,稱z為x1,x2,…,xp的主成分(或主分量)。有時僅一個主成分不足以代表原來的p個變數,可用q(<p)個互不相關的呈上述形式的主成分來盡可能多地反映原p個變數的信息。用來決定諸系數的原則是,在
的約束下,選擇l1,l2,…,lp使z的方差達到最大。
在根據樣本進行主成分分析時又可分為R型分析與Q型分析。前者是用樣本協差陣(或相關陣)的特徵向量作為線性函數的系數來求主成分;後者是由樣品之間的內積組成的內積陣來進行類似的處理,其目的是尋找出有代表性的「典型」樣品,這種方法在地質結構的分析中常使用。 它是由樣本的資料將一組變數
y2,……yp)
分解為一些公共因子f與特殊因子s的線性組合,即有常數矩陣A使у=Af+s。公共因子f 的客觀內容有時是明確的,如在心理研究中,根據學生的測驗成績(指標)來分析他的反應快慢、理解深淺(公共因子);有時則是不明確的。為了尋求易於解釋的公共因子,往往對因子軸進行旋轉,旋轉的方法有正交旋轉,斜旋轉,極大變差旋轉等。
從樣本協差陣或相關陣求公共因子的方法有廣義最小二乘法、最大似然法與不加權的最小二乘法等。通常在應用中,最方便的是直接利用主成分分析所得的頭幾個主成分,它們往往是對各個指標影響都比較大的公共因子。 它是尋求兩組變數各自的線性函數中相關系數達到最大值的一對,這稱為第一對典型變數,還可以求第二對,第三對,等等,這些成對的變數,彼此是不相關的。各對的相關系數稱為典型相關系數。通過這些典型變數所代表的實際含意,可以找到這兩組變數間的一些內在聯系。典型相關分析雖然30年代已經出現,但至今未能廣泛應用。
上述的各種方法可以看成廣義多元分析的內容,在有些方法中,如加上正態性的假定,就可以討論一些更深入的問題,例如線性模型中有關線性假設檢驗的問題,在正態的假定下,就有比較系統的結果。 多元分析也可按指標是離散的還是連續的來區分,離散值的多元分析實質上與列聯表分析有很大部分是類似的,甚至是一樣的。
非數量指標數量化的理論和方法也是廣義多元分析的一個重要的研究課題。
㈧ 多元統計分析方法的作用是什麼
多元統計分析方法的作用使實際工作者利用多元統計分析方法解決實際問題更簡單方便。
如果每個個體有多個觀測數據,或者從數學上說,如果個體的觀測數據能表為P維歐幾里得空間的點,那麼這樣的數據叫做多元數據,而分析多元數據的統計方法就叫做多元統計分析,它是數理統計學中的一個重要的分支學科。
典型相關分析
它是尋求兩組變數各自的線性函數中相關系數達到最大值的一對,這稱為第一對典型變數,還可以求第二對,第三對,等等,這些成對的變數,彼此是不相關的。各對的相關系數稱為典型相關系數。通過這些典型變數所代表的實際含意,可以找到這兩組變數間的一些內在聯系。典型相關分析雖然30年代已經出現,但至今未能廣泛應用。
㈨ 實用多元統計分析的內容簡介
多元統計分析是統計學中內容十分豐富、應用范圍極為廣泛的一個分支。在自然科學和社會科學的許多學科中,研究者都有可能需要分析處理有多個變數的數據的問題。能否從表面上看起來雜亂無章的數據中發現和提煉出規律性的結論,不僅需要對所研究的專業領域有很好的訓練,而且要掌握必要的統計分析工具。
對研究者來說,本書是學習掌握多元統計分析的各種模型和方法的一本有價值的參考書:首先,它做到了「淺入深出」,既可供初學者入門,又能使有較深基礎的人受益;其次,它既側重於應用,又兼顧必要的推理論證,使學習者既能學到「如何」做,又能在一定程度上了解「為什麼」 這樣做;最後,它內涵豐富、全面,不僅基本包括各種在實際中常用的多元統計分析方法,而且對現代統計學的最新思想和進展有所介紹。值得一提的是,本書中有大量來自實際問題的數據實例,通過對這些實例的分析,讀者可以學到如何將一個實際問題轉化為恰當的統計問題,進而選擇恰當的方法來進行分析。
㈩ 多元統計分析法主要包括
多元統計分析方法主要包括線性回歸分析方法、判別分析方法、聚類分析方法、主成份分析方法、因子分析方法、對應分析方法、典型相關分析方法以及片最小二乘回歸分析方法等。
《多元統計分析方法》是2009年上海格致出版社出版的圖書,作者是(德)巴克豪斯。本書主要講解了多元統計分析中最常見的九種方法。
簡介
多元統計分析是從經典統計學中發展起來的一個分支,是一種綜合分析方法,它能夠在多個對象和多個指標互相關聯的情況下分析它們的統計規律,很適合農業科學研究的特點。主要內容包括多元正態分布及其抽樣分布、多元正態總體的均值向量和協方差陣的假設檢驗。
多元方差分析、直線回歸與相關、多元線性回歸與相關(Ⅰ)和(Ⅱ)、主成分分析與因子分析、判別分析與聚類分析、Shannon信息量及其應用。簡稱多元分析。當總體的分布是多維(多元)概率分布時,處理該總體的數理統計理論和方法。數理統計學中的一個重要的分支學科。