❶ 關於聚類分析
1。聚類分析的特點
聚類分析(cluster analysis)是根據事物本身的特性研究個體的一種方法,目的在於將相似的事物歸類。它的原則是同一類中的個體有較大的相似性,不同類的個體差異性很大。這種方法有三個特徵:適用於沒有先驗知識的分類。如果沒有這些事先的經驗或一些國際、國內、行業標准,分類便會顯得隨意和主觀。這時只要設定比較完善的分類變數,就可以通過聚類分析法得到較為科學合理的類別;可以處理多個變數決定的分類。例如,要根據消費者購買量的大小進行分類比較容易,但如果在進行數據挖掘時,要求根據消費者的購買量、家庭收入、家庭支出、年齡等多個指標進行分類通常比較復雜,而聚類分析法可以解決這類問題;聚類分析法是一種探索性分析方法,能夠分析事物的內在特點和規律,並根據相似性原則對事物進行分組,是數據挖掘中常用的一種技術。
這種較成熟的統計學方法如果在市場分析中得到恰當的應用,必將改善市場營銷的效果,為企業決策提供有益的參考。其應用的步驟為:將市場分析中的問題轉化為聚類分析可以解決的問題,利用相關軟體(如SPSS、SAS等)求得結果,由專家解讀結果,並轉換為實際操作措施,從而提高企業利潤,降低企業成本。
2.應用范圍
聚類分析在客戶細分中的應用
消費同一種類的商品或服務時,不同的客戶有不同的消費特點,通過研究這些特點,企業可以制定出不同的營銷組合,從而獲取最大的消費者剩餘,這就是客戶細分的主要目的。常用的客戶分類方法主要有三類:經驗描述法,由決策者根據經驗對客戶進行類別劃分;傳統統計法,根據客戶屬性特徵的簡單統計來劃分客戶類別;非傳統統計方法,即基於人工智慧技術的非數值方法。聚類分析法兼有後兩類方法的特點,能夠有效完成客戶細分的過程。
例如,客戶的購買動機一般由需要、認知、學習等內因和文化、社會、家庭、小群體、參考群體等外因共同決定。要按購買動機的不同來劃分客戶時,可以把前述因素作為分析變數,並將所有目標客戶每一個分析變數的指標值量化出來,再運用聚類分析法進行分類。在指標值量化時如果遇到一些定性的指標值,可以用一些定性數據定量化的方法加以轉化,如模糊評價法等。除此之外,可以將客戶滿意度水平和重復購買機會大小作為屬性進行分類;還可以在區分客戶之間差異性的問題上納入一套新的分類法,將客戶的差異性變數劃分為五類:產品利益、客戶之間的相互作用力、選擇障礙、議價能力和收益率,依據這些分析變數聚類得到的歸類,可以為企業制定營銷決策提供有益參考。
以上分析的共同點在於都是依據多個變數進行分類,這正好符合聚類分析法解決問題的特點;不同點在於從不同的角度尋求分析變數,為某一方面的決策提供參考,這正是聚類分析法在客戶細分問題中運用范圍廣的體現。
聚類分析在實驗市場選擇中的應用
實驗調查法是市場調查中一種有效的一手資料收集方法,主要用於市場銷售實驗,即所謂的市場測試。通過小規模的實驗性改變,以觀察客戶對產品或服務的反應,從而分析該改變是否值得在大范圍內推廣。
實驗調查法最常用的領域有:市場飽和度測試。市場飽和度反映市場的潛在購買力,是市場營銷戰略和策略決策的重要參考指標。企業通常通過將消費者購買產品或服務的各種決定因素(如價格等)降到最低限度的方法來測試市場飽和度。或者在出現滯銷時,企業投放類似的新產品或服務到特定的市場,以測試市場是否真正達到飽和,是否具有潛在的購買力。前述兩種措施由於利益和風險的原因,不可能在企業覆蓋的所有市場中實施,只能選擇合適的實驗市場和對照市場加以測試,得到近似的市場飽和度;產品的價格實驗。這種實驗往往將新定價的產品投放市場,對顧客的態度和反應進行測試,了解顧客對這種價格的是否接受或接受程度;新產品上市實驗。波士頓矩陣研究的企業產品生命周期圖表明,企業為了生存和發展往往要不斷開發新產品,並使之向明星產品和金牛產品順利過渡。然而新產品投放市場後的失敗率卻很高,大致為66%到90%。因而為了降低新產品的失敗率,在產品大規模上市前,運用實驗調查法對新產品的各方面(外觀設計、性能、廣告和推廣營銷組合等)進行實驗是非常有必要的。
在實驗調查方法中,最常用的是前後單組對比實驗、對照組對比實驗和前後對照組對比實驗。這些方法要求科學的選擇實驗和非實驗單位,即隨機選擇出的實驗單位和非實驗單位之間必須具備一定的可比性,兩類單位的主客觀條件應基本相同。
通過聚類分析,可將待選的實驗市場(商場、居民區、城市等)分成同質的幾類小組,在同一組內選擇實驗單位和非實驗單位,這樣便保證了這兩個單位之間具有了一定的可比性。聚類時,商店的規模、類型、設備狀況、所處的地段、管理水平等就是聚類的分析變數。 轉
❷ 聚類的研究情況
傳統的聚類已經比較成功的解決了低維數據的聚類問題。但是由於實際應用中數據的復雜性,在處理許多問題時,現有的演算法經常失效,特別是對於高維數據和大型數據的情況。因為傳統聚類方法在高維數據集中進行聚類時,主要遇到兩個問題。①高維數據集中存在大量無關的屬性使得在所有維中存在簇的可能性幾乎為零;②高維空間中數據較低維空間中數據分布要稀疏,其中數據間距離幾乎相等是普遍現象,而傳統聚類方法是基於距離進行聚類的,因此在高維空間中無法基於距離來構建簇。
高維聚類分析已成為聚類分析的一個重要研究方向。同時高維數據聚類也是聚類技術的難點。隨著技術的進步使得數據收集變得越來越容易,導致資料庫規模越來越大、復雜性越來越高,如各種類型的貿易交易數據、Web 文檔、基因表達數據等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。但是,受「維度效應」的影響,許多在低維數據空間表現良好的聚類方法運用在高維空間上往往無法獲得好的聚類效果。高維數據聚類分析是聚類分析中一個非常活躍的領域,同時它也是一個具有挑戰性的工作。高維數據聚類分析在市場分析、信息安全、金融、娛樂、反恐等方面都有很廣泛的應用。
❸ 什麼是聚類分析
類通過把目標數據放入少數相對同源的組或「類」(cluster)里。分析表達數據,(1)通過一系列的檢測將待測的一組基因的變異標准化,然後成對比較線性協方差。(2)通過把用最緊密關聯的譜來放基因進行樣本聚類,例如用簡單的層級聚類(hierarchical clustering)方法。這種聚類亦可擴展到每個實驗樣本,利用一組基因總的線性相關進行聚類。(3)多維等級分析(multidimensional scaling analysis,MDS)是一種在二維Euclidean 「距離」中顯示實驗樣本相關的大約程度。(4)K-means方法聚類,通過重復再分配類成員來使「類」內分散度最小化的方法。
聚類方法有兩個顯著的局限:首先,要聚類結果要明確就需分離度很好(well-separated)的數據。幾乎所有現存的演算法都是從互相區別的不重疊的類數據中產生同樣的聚類。但是,如果類是擴散且互相滲透,那麼每種演算法的的結果將有點不同。結果,每種演算法界定的邊界不清,每種聚類演算法得到各自的最適結果,每個數據部分將產生單一的信息。為解釋因不同演算法使同樣數據產生不同結果,必須注意判斷不同的方式。對遺傳學家來說,正確解釋來自任一演算法的聚類內容的實際結果是困難的(特別是邊界)。最終,將需要經驗可信度通過序列比較來指導聚類解釋。
第二個局限由線性相關產生。上述的所有聚類方法分析的僅是簡單的一對一的關系。因為只是成對的線性比較,大大減少發現表達類型關系的計算量,但忽視了生物系統多因素和非線性的特點。
從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。
從機器學習的角度講,簇相當於隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習演算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。
從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。就數據挖掘功能而言,聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特徵,集中對特定的聚簇集合作進一步地分析。
聚類分析還可以作為其他數據挖掘任務(如分類、關聯規則)的預處理步驟。
數據挖掘領域主要研究面向大型資料庫、數據倉庫的高效實用的聚類分析演算法。
聚類分析是數據挖掘中的一個很活躍的研究領域,並提出了許多聚類演算法。
這些演算法可以被分為劃分方法、層次方法、基於密度方法、基於網格方法和
基於模型方法。
1 劃分方法(PAM:PArtitioning method) 首先創建k個劃分,k為要創建的劃分個數;然後利用一個循環
定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括:
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM
2 層次方法(hierarchical method) 創建一個層次以分解給定的數據集。該方法可以分為自上
而下(分解)和自下而上(合並)兩種操作方式。為彌補分解與合並的不足,層次合
並經常要與其它聚類方法相結合,如循環定位。典型的這類方法包括:
第一個是;BIRCH(Balanced Iterative Recing and Clustering using Hierarchies) 方法,它首先利用樹的結構對對象集進行劃分;然後再利
用其它聚類方法對這些聚類進行優化。
第二個是CURE(Clustering Using REprisentatives) 方法,它利用固定數目代表對象來表示相應聚類;然後對各聚類按照指定
量(向聚類中心)進行收縮。
第三個是ROCK方法,它利用聚類間的連接進行聚類合並。
最後一個CHEMALOEN,它則是在層次聚類時構造動態模型。
3 基於密度方法,根據密度完成對象的聚類。它根據對象周圍的密度(如
DBSCAN)不斷增長聚類。典型的基於密度方法包括:
DBSCAN(Densit-based Spatial Clustering of Application with Noise):該演算法通過不斷生長足夠高密
度區域來進行聚類;它能從含有雜訊的空間資料庫中發現任意形狀的聚類。此方法將一個聚類定義
為一組「密度連接」的點集。
OPTICS(Ordering Points To Identify the Clustering Structure):並不明確產生一
個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序。。
4 基於網格方法,首先將對象空間劃分為有限個單元以構成網格結構;然後利
用網格結構完成聚類。
STING(STatistical INformation Grid) 就是一個利用網格單元保存的統計信息進行基
於網格聚類的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基於網格與基於密度相結合的方
法。
5 基於模型方法,它假設每個聚類的模型並發現適合相應模型的數據。典型的
基於模型方法包括:
統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是采
用符號量(屬性-值)對來加以描述的。採用分類樹的形式來創建
一個層次聚類。
CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚
類。它為每個結點中的每個屬性保存相應的連續正態分布(均值與方差);並利
用一個改進的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值)
和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。
因此它們都不適合對大資料庫進行聚類處理.
❹ 基於聚類分析的廣西區域經濟發展狀況研究的論文
基於聚類分析的廣西區域經濟發展狀況研究的論文
【摘要】:本文以廣西壯族自治區14個地級市作為研究對象,從地區生產總值、社會消費品零售總額、全社會固定資產投資、公共財政預算收支總額等方面,選取11個具體指標,運用聚類分析方法分析並評價各地級市經濟發展狀況。研究結果顯示,廣西14個地級市可劃分為四類經濟區域,不同城市之間的經濟發展水平存在較大差異。在此基礎上,從加強各地級市之間的經濟合作、積極推動開放型經濟發展、強化科技創新以推動產業結構優化升級等方面提出具體建議,為促進廣西區域經濟的全面發展提供參考。
【關鍵詞】:聚類分析;廣西;經濟發展;政策建議
一、引言
近年來,隨著中國—東盟自由貿易區的建成,中國與東盟各國貿易投資增長,經濟融合加深,經貿往來愈加頻繁。廣西作為中國—東盟自由貿易區的門戶省份,加之「一帶一路」戰略的提出與實施,良好的區位優勢和資源環境承載能力,無疑將會為推動廣西區域經濟的騰飛提供持續的動力和良好的機遇,發展前景十分廣闊。但由於歷史的原因,加上人口、社會和基礎設施等因素的影響,廣西的經濟發展水平和人均地區生產總值在內陸31個省、市、自治區中仍處於中下水平,與上述提到擁有的區位優勢、經濟優勢是極不相稱的。廣西下轄的14個地級市經濟發展程度和產業結構也存在一定的差異。一直以來,區域經濟發展問題都是區域經濟學、經濟地理學等學科關注和研究的對象,區域經濟發展中出現差距,是各國經濟發展中存在的普遍現象[1]。如何就廣西下轄的14個地級市進行經濟發展程度的分析和分類,對於正確認識廣西各地級市經濟發展所處的發展階段,制定正確的宏觀政策,以促進各地區的良好協調發展具有重要的理論和現實意義。
二、研究區域概況
廣西壯族自治區,簡稱「桂」,首府南寧,位於中國華南地區西部,與廣東、湖南等省份接壤,南瀕北部灣,面向東南亞,是中國唯一一個沿海自治區,自然條件優越,資源豐富,尤以海洋資源和礦產資源為甚。截至2015年12月,全區轄14個地級市,縣級行政區111個,行政區劃面積23.67萬平方公里。2015年全區總人口為5518萬人,地區生產總值16803.12億元,佔全國的2.5%。人均地區生產總值為39150元。但由於歷史的原因,加上人口、社會和基礎設施等因素的影響,廣西的經濟發展水平,無論是地區生產總值還是三大產業結構完善程度等方面,在內陸31個省市中均處於中下水平。區內下轄的14個地級市,經濟發展水平和產業結構各異,部分地級市經濟發展程度相對滯後。近年來,隨著中國—東盟自由貿易區的建成和「一帶一路」戰略的實施,廣西吸引著國內外大量的資本和人力湧入,顯現出廣闊的發展前景。
三、聚類分析方法研究設計
(一)指標選擇及數據來源
區域經濟發展狀況的研究,依靠單一的指標,是無法對其進行綜合、全面的評價與分析的。因此,在對廣西區域經濟發展水平分析評價的過程中,需要藉助多個評價指標,構建合理完善的評價指標體系。本著建立評價指標體系要遵循科學性、系統性、全面性、獨立性、可操作性等原則,本文在參考以往文獻資料的基礎上,根據廣西各地級市經濟發展狀況、人口條件、社會資源等方面的實際情況選取了11個具體指標,分別是:行政區劃土地面積(平方公里)、地區生產總值(億元)、人均地區生產總值(元)、戶籍年末總人口(萬人)、固定資產投資(億元,不含農戶)、公共財政預算收入(億元)、公共財政預算支出(億元)、農民居民人均純收入(元)、城鎮居民人均可支配收入(元)、社會消費品零售總額(億元)、進出口總額(人民幣,萬元)。為方便後續各指標數據的處理,分別以X1、X2、X3、X4、X5、X6、X7、X8、X9、X10和X11指代。各指標詳細數據均來自《廣西統計年鑒2016》和《2015年廣西壯族自治區國民經濟與社會發展統計公報》。
(二)數據處理
本文利用SPSS19.0對反映廣西14個地級市經濟發展狀況的指標進行聚類分析。由上述內容可知,研究所選取的11個指標由於它們原始數據量剛的不同,為防止指標取值的分散程度較大,需對各指標的取值做標准化處理。
各指標數據經過標准化處理後,X2(地區生產總值)與X5(固定資產投資)、X6(公共財政預算收入)、X10(社會消費品零售總額)的相關系數都大於0.9,故而這四個指標不必均作為聚類變數,選擇其中一個即可,本文選擇X2(地區生產總值)。接著,運用不同的聚類方法進行聚類分析。
(三)結果分析
本文利用SPSS19.0對廣西14個地級市經濟發展狀況進行聚類分析,在對選定的11個聚類變數的數據經過標准化處理後,依據結果聚類個數的不同,而相繼運用系統聚類和K—均值聚類法進行聚類分析,並得出結果。參考以往文獻資料對廣西14個地級市經濟發展狀況的分類,以及廣西各地區實際的經濟、社會和人口狀況,本文認為對廣西14個地級市經濟發展水平的分類,聚類個數分為四類比較適宜。對於廣西14個地級市經濟發展水平的分類應為:南寧、北海、欽州為第一類;柳州、桂林、梧州、貴港、玉林、百色、賀州、河池、來賓為第二類;防城港為第三類;崇左為第四類。
由聚類分析結果可知,南寧、北海、欽州為第一類,這三個地級市經濟相對發達。南寧是廣西的首府,全區的政治、經濟、文化、金融和信息中心,經濟發展程度高,產業結構相對完整,良好的區位優勢、眾多的政策支持以及堅實的經濟發展基礎,使得南寧在多方面的發展都領跑於廣西區的其他地級市。北海是全國14個沿海開放城市之一,處於泛北灣經濟合作區域結合部的中心位置,便捷、高效的交通設施,眾多經濟圈的發展福利,以及豐富的海洋資源、繁榮的旅遊業,都推動著北海經濟社會的快速發展。欽州,南海之濱,北部灣經濟區南的中心位置,是大西南最便捷的出海通道,依託於得天獨厚的港口優勢,大力發展進出口貿易。
柳州、桂林、梧州、貴港、玉林、百色、賀州、河池、來賓為第二類,這9個地級市經濟發展水平較高,三大產業結構相對完善,各自依託於自身的經濟發展優勢,經濟發展增速較快。
防城港和崇左分別是第三和第四類。防城港是中國的深水良港,是中國25個沿海主要港口之一,對外貿易額較高,在中國—東盟自由貿易區、泛北部灣區域合作中具有特殊重要的戰略地位。崇左位於廣西西南部,地理位置相對較差,工業基礎薄弱,交通設施落後,雖然資源豐富,但限於人力資源的短板,是廣西經濟發展較為落後的地級市。
四、結論及政策建議
本文利用SPSS19.0對廣西14個地級市經濟發展狀況進行聚類分析,將廣西14個地級市經濟發展水平分為四類,分別是南寧、北海、欽州為第一類;柳州、桂林、梧州、貴港、玉林、百色、賀州、河池、來賓為第二類;防城港為第三類;崇左為第四類。從聚類分析的結果來看,就如何促進廣西區域經濟的快速、協調發展,可從以下幾個方面著手:
(一)加強各地級市之間的經濟合作,增強較發達地區的經濟輻射力度
廣西各地區經濟發展水平差異顯著,各自依託的經濟發展要素也不盡相同,例如人力資本、環境資源、基礎設施完善程度和地理位置等就相差較大。因此,各地區根據自身的條件優勢,因地制宜地制定經濟發展策略,就顯得尤為重要。因地制宜地制定經濟發展策略的同時,加強各地級市之間的經濟合作,實現資源、信息的共享互通,人力、資金的自由流通,各自取長補短,將為促進各地區的快速、協調發展發揮重要作用。以南寧、桂林和柳州為主的老牌較發達地區,擁有較發達的工業基礎、第三產業和相對完善的基礎設施,在立足自身優勢發展,加強與各地級市之間的經濟合作中,要發揮好領頭羊的作用,率先做出垂範,積極探索出可供借鑒的合作模式,增強對周邊地級市的經濟輻射力度,以少帶多,以強扶弱,真正促進廣西經濟發展邁上新台階。
(二)依託良好的區位優勢和疊加的'政策優勢,積極推動開放型經濟發展
隨著經濟全球化和區域經濟一體化的發展,我國經濟和世界經濟發展的融合在不斷加深,積極推動外向型經濟的發展,成為了我國及各地區經濟轉型升級的關鍵所在。2015年3月,國家發改委、外交部和商務部聯合發布了《推動共建絲綢之路經濟帶和21世紀海上絲綢之路的願景與行動》,廣西藉助於自身的區位優勢,被納入國家「一帶一路」建設規劃,發展開放型經濟面臨著重大的歷史機遇。廣西的外向型經濟近些年來雖有發展,但整體情況仍不容樂觀,相對薄弱的經濟基礎制約著開放型經濟的發展後勁以及支撐開放型經濟發展的高級要素也存在不足[2]。藉助於「一帶一路」戰略實施的機遇和疊加密集的國家開發政策,依託沿海、沿江、沿邊的區位優勢,借鑒東部沿海典型的開放型經濟發展模式,例如上海模式和東莞模式,積極推動廣西的外向型經濟發展,才能快速、協調地完成廣西經濟的轉型升級。
(三)強化科技創新,加速推動產業結構優化升級
科技創新與產業結構優化升級是長期的協調關系,依託於科技創新能有效推動產業結構優化升級。一般來說,產業結構指的是一二三產業所佔的比重,產業結構優化升級有兩個含義:一個是產業結構合理化,另一個是產業結構高級化,如果第三產業所佔的比重越大,那麼可以說它的高級化程度越大[3]。未來一段時間,可以從以下幾個方面強化科技創新,加速廣西產業結構的轉型升級:一是加強科技創新方面的改革,建立完善的科技管理協調機制和信息公開機制,優化科技資源配置機制,以統籌科技創新全方位管理;二是加大對科技創新的財政支持,保證各項用於科技創新的資金行使到位;三是優化科技創新體系,不僅要保證建立完善的科技創新管理機制,更要全面擴大科技創新的主體,落實科技創新成果的投入使用。
(四)完善各地區的基礎設施建設,大力發展地區特色經濟
廣西各地區經濟發展水平差異顯著,相對發達的地區,例如南寧、柳州和桂林等,除主城經濟區外,基礎設施建設仍不盡完善。河池、百色、崇左等市地處偏遠地區,交通不便,基礎設施建設更是落後。良好的交通條件、便利的通訊設施、覆蓋全面的水利、電力設施等是居民和企業的共同物質基礎,更是物質生產和勞動力再生產的重要條件。因此,各地區應把完善基礎設施建設放在重要位置,適當擴大社會固定資產投資總量,積極利用本地區豐富的人文資源,打好「僑牌」,讓更多擁有廣西籍的海外華人華僑參與到廣西的經濟建設之中,盡快完善基礎設施建設,為經濟的快速發展提供良好的基礎。同時,各地區應找准自身的發展定位,結合地區優勢,大力發展地區特色經濟。
參考文獻:
[1]孟倩.基於主成分分析和聚類分析的山東省區域經濟協調發展研究[J].區域經濟,2016(1):138-139
[2]李繼宏.「一帶一路」建設背景下廣西開放型經濟發展模式及實現路徑[J].廣西社會科學,2016(4):14-19
[3]徐曉慧.廣西科技創新對產業結構升級的影響[J].合作經濟與科技,2016(11):19-21
;❺ 一文總結聚類分析步驟!
一、聚類
1.准備工作
(1) 研究目的
聚類分析是根據事物本身的特性研究個體分類的方法,聚類分析的原則是同一類別的個體有較大相似性,不同類別的個體差異比較大。
(2) 數據類型
1)定量:數字有比較意義,比如數字越大代表滿意度越高,量表為典型定量數據。
2)定類:數字無比較意義,比如性別,1代表男,2代表女。
PS: SPSSAU會根據數據類型自動選擇聚類方法。
K-modes聚類: 數據類型僅定類時。
2.上傳數據到SPSSAU
登錄賬號後進入SPSSAU頁面,點擊右上角「上傳數據」,將處理好的數據進行「點擊上傳文件」上傳即可。
3.SPSSAU操作
(1)拖拽分析項
1) SPSSAU進階方法→聚類。
2)檢查
檢查分析項是否都在左側分析框中。
3)進行拖拽
(2)選擇參數
聚類個數: 聚類個數設置為幾類主要以研究者的研究思路為標准,如果不進行設置,SPSSAU默認聚類個數為3,通常情況下,建議設置聚類數量介於3~6個之間。
標准化: 聚類演算法是根據距離進行判斷類別,因此一般需要在聚類之前進行標准化處理,SPSSAU默認是選中進行標准化處理。數據標准化之後,數據的相對大小意義還在(比如數字越大GDP越高),但是實際意義消失了。
保存類別: 分析選擇保存『保存類別』,SPSSAU會生成 新標題 用於標識,也可以右上角「我的數據」處查看到分析後的「聚類類別」。
新標題類似如下:Cluster_********。
4.SPSSAU分析
(1)聚類類別基本情況匯總分析
使用聚類分析對樣本進行分類,使用Kmeans聚類分析方法,從上表可以看出:最終聚類得到4類群體,此4類群體的佔比分別是20.00%, 30.00%, 20.00%, 30.00%。整體來看, 4類人群分布較為均勻,整體說明聚類效果較好。
(2)聚類類別匯總圖分析
上圖可以直觀的看到各個類別所佔百分比,4類群體的佔比分別是20.00%, 30.00%, 20.00%, 30.00%。
(3)聚類類別方差分析差異對比
使用方差分析去探索各個類別的差異特徵,從上表可知:聚類類別群體對於所有研究項均呈現出顯著性(p<0.05),意味著聚類分析得到的4類群體,他們在研究項上的特徵具有明顯的差異性,具體差異性可通過平均值進行對比,並且最終結合實際情況,對聚類類別進行命名處理。
(4)聚類項重要性對比
從上述結果看,所有研究項均呈現出顯著性,說明不同類別之間的特徵有明顯的區別,聚類的效果較好。
(5)聚類中心
5.其它說明
(1)聚類中心是什麼?
聚類中心是聚類類別的中心點情況,比如某類別時年齡對應的聚類中心為20,意味著該類別群體年齡基本在20歲左右。初始聚類中心基本無意義,它是聚類演算法隨機選擇的聚類點,如果需要查看聚類中心情況,需要關注於最終聚類中心。實際分析時聚類中心的意義相對較小,其僅為聚類演算法的計算值而已。
(2)k-prototype聚類是什麼?
如果說聚類項中包括定類項,那麼SPSSAU默認會進行K-prototype聚類演算法(而不是kmeans演算法)。定類數據不能通過數字大小直接分析距離,因而需要使用K-prototype聚類演算法。
(3)聚類分析時SSE是什麼意思?
在進行Kmeans聚類分析時SPSSAU默認輸出誤差平方和SSE值,該值可用於測量各點與中心點的距離情況,理論上是希望越小越好,而且如果同樣的數據,聚類類別越多則SSE值會越小(但聚類類別過多則不便於分析)。
SSE指標可用於輔助判斷聚類類別個數,建議在不同聚類類別數量情況下記錄下SSE值,然後分析SSE值的減少幅度情況,如果發現比如從3個聚類到4個類別時SSE值減少幅度明顯很大,那麼此時選擇4個聚類類別較好。
二、分層聚類
1.准備工作
(1)研究目的
從分析角度上看,聚類分析可分為兩種,一種是按樣本(或個案)聚類,此類聚類的代表是K-means聚類方法;另外一種是按變數(或標題)聚類,此類聚類的代表是分層聚類。
(2)數據類型
2.上傳數據到SPSSAU
登錄賬號後進入SPSSAU頁面,點擊右上角「上傳數據」,將處理好的數據進行「點擊上傳文件」上傳即可。
3.SPSSAU操作
(1)拖拽分析項
1) SPSSAU進階方法→分層聚類。
2)檢查
檢查分析項是否都在左側分析框中。
3)進行拖拽
(2)確定參數
SPSSAU會默認聚類為3類並且呈現表格結果,如果希望更多的類別個數,可自行進行設置。
4.SPSSAU分析
(1)聚類項描述分析
上表格展示總共8個分析項(即8個裁判數據)的基本情況,包括均值,最大或者最小值,中位數等,以便對於基礎數據有個概括性了解。整體上看,8個裁判的打分基本平均在8分以上。
(2)聚類類別分布表分析
總共聚類為3個類別,以及具體分析項的對應關系情況。在上表格中展示出來,上表格可以看出:裁判8單獨作為一類;裁判5,3,7這三個聚為一類;以及裁判1,6,2,4作為一類。
(PS:聚類類別與分析項上的對應關系可以在上表格中得到,同時也可以查看聚類樹狀圖得出更多信息。至於聚類類別分別應該叫做什麼名字,這個需要結合對應有關系情況,自己單獨進行命名。)
(3)聚類樹狀圖分析
上圖為聚類樹狀圖的展示,聚類樹狀圖是將聚類的具體過程用圖示法手法進行展示;最上面一行的數字僅僅是一個刻度單位,代表相對距離大小;一個結點表示一次聚焦過程。
樹狀圖的解讀上,建議單獨畫一條垂直線,然後對應查看分成幾個類別,以及每個類別與分析項的對應關系。比如上圖中,紅色垂直線最終會拆分成3個類別;第1個類別對應裁判8;第2個類別對應裁判5,3,7;第3個類別對應裁判1,6,2,4。
如果是聚為四類;從上圖可看出,明顯的已經不再合適。原因在於垂直線不好區分成四類。也即說明有2個類別本應該在一起更合適(上圖中的裁判1與6/2/4);但是如果分成4類,此時裁判1會單獨成一類。所以畫垂直線無法區分出類別。因而綜合分析來看,最終聚類為3個類別最為適合。
當然在分析時也可以考慮分成2個類別,此時只需要對應將垂直線移動即可。
5.其它說明
(1)針對分層聚類,需要注意以下幾點:
(2)什麼時候做因子分析後再做聚類分析?
如果題項較多,可先做因子分析,得到每個維度(因子)的數據,再進行聚類。
三、總結
聚類分析廣泛的應用於自然科學、社會科學等領域。在分析時可以比較多次聚類結果,綜合選擇更適合的方案。
以上就是聚類分析步驟匯總,更多干貨請前往官網查看!
❻ 聚類分析是什麼研究手段
類通過把目標數據放入少數相對同源的組或「類」(cluster)里。分析表達數據,(1)通過一系列的檢測將待測的一組基因的變異標准化,然後成對比較線性協方差。(2)通過把用最緊密關聯的譜來放基因進行樣本聚類,例如用簡單的層級聚類(hierarchical clustering)方法。這種聚類亦可擴展到每個實驗樣本,利用一組基因總的線性相關進行聚類。(3)多維等級分析(multidimensional scaling analysis,MDS)是一種在二維Euclidean 「距離」中顯示實驗樣本相關的大約程度。(4)K-means方法聚類,通過重復再分配類成員來使「類」內分散度最小化的方法。
聚類方法有兩個顯著的局限:首先,要聚類結果要明確就需分離度很好(well-separated)的數據。幾乎所有現存的演算法都是從互相區別的不重疊的類數據中產生同樣的聚類。但是,如果類是擴散且互相滲透,那麼每種演算法的的結果將有點不同。結果,每種演算法界定的邊界不清,每種聚類演算法得到各自的最適結果,每個數據部分將產生單一的信息。為解釋因不同演算法使同樣數據產生不同結果,必須注意判斷不同的方式。對遺傳學家來說,正確解釋來自任一演算法的聚類內容的實際結果是困難的(特別是邊界)。最終,將需要經驗可信度通過序列比較來指導聚類解釋。
第二個局限由線性相關產生。上述的所有聚類方法分析的僅是簡單的一對一的關系。因為只是成對的線性比較,大大減少發現表達類型關系的計算量,但忽視了生物系統多因素和非線性的特點。
從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。
從機器學習的角度講,簇相當於隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習演算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。
從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。就數據挖掘功能而言,聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特徵,集中對特定的聚簇集合作進一步地分析。
❼ 聚類分析方法應用於哪些問題的研究
1.聚類分析的特點
聚類分析(cluster analysis)是根據事物本身的特性研究個體的一種方法,目的在於將相似的事物歸類.它的原則是同一類中的個體有較大的相似性,不同類的個體差異性很大.這種方法有三個特徵:適用於沒有先驗知識的分類.如果沒有這些事先的經驗或一些國際、國內、行業標准,分類便會顯得隨意和主觀.這時只要設定比較完善的分類變數,就可以通過聚類分析法得到較為科學合理的類別;可以處理多個變數決定的分類.例如,要根據消費者購買量的大小進行分類比較容易,但如果在進行數據挖掘時,要求根據消費者的購買量、家庭收入、家庭支出、年齡等多個指標進行分類通常比較復雜,而聚類分析法可以解決這類問題;聚類分析法是一種探索性分析方法,能夠分析事物的內在特點和規律,並根據相似性原則對事物進行分組,是數據挖掘中常用的一種技術.
這種較成熟的統計學方法如果在市場分析中得到恰當的應用,必將改善市場營銷的效果,為企業決策提供有益的參考.其應用的步驟為:將市場分析中的問題轉化為聚類分析可以解決的問題,利用相關軟體(如SPSS、SAS等)求得結果,由專家解讀結果,並轉換為實際操作措施,從而提高企業利潤,降低企業成本.
2.應用范圍
聚類分析在客戶細分中的應用
消費同一種類的商品或服務時,不同的客戶有不同的消費特點,通過研究這些特點,企業可以制定出不同的營銷組合,從而獲取最大的消費者剩餘,這就是客戶細分的主要目的.常用的客戶分類方法主要有三類:經驗描述法,由決策者根據經驗對客戶進行類別劃分;傳統統計法,根據客戶屬性特徵的簡單統計來劃分客戶類別;非傳統統計方法,即基於人工智慧技術的非數值方法.聚類分析法兼有後兩類方法的特點,能夠有效完成客戶細分的過程.
例如,客戶的購買動機一般由需要、認知、學習等內因和文化、社會、家庭、小群體、參考群體等外因共同決定.要按購買動機的不同來劃分客戶時,可以把前述因素作為分析變數,並將所有目標客戶每一個分析變數的指標值量化出來,再運用聚類分析法進行分類.在指標值量化時如果遇到一些定性的指標值,可以用一些定性數據定量化的方法加以轉化,如模糊評價法等.除此之外,可以將客戶滿意度水平和重復購買機會大小作為屬性進行分類;還可以在區分客戶之間差異性的問題上納入一套新的分類法,將客戶的差異性變數劃分為五類:產品利益、客戶之間的相互作用力、選擇障礙、議價能力和收益率,依據這些分析變數聚類得到的歸類,可以為企業制定營銷決策提供有益參考.
以上分析的共同點在於都是依據多個變數進行分類,這正好符合聚類分析法解決問題的特點;不同點在於從不同的角度尋求分析變數,為某一方面的決策提供參考,這正是聚類分析法在客戶細分問題中運用范圍廣的體現.
聚類分析在實驗市場選擇中的應用
實驗調查法是市場調查中一種有效的一手資料收集方法,主要用於市場銷售實驗,即所謂的市場測試.通過小規模的實驗性改變,以觀察客戶對產品或服務的反應,從而分析該改變是否值得在大范圍內推廣.
實驗調查法最常用的領域有:市場飽和度測試.市場飽和度反映市場的潛在購買力,是市場營銷戰略和策略決策的重要參考指標.企業通常通過將消費者購買產品或服務的各種決定因素(如價格等)降到最低限度的方法來測試市場飽和度.或者在出現滯銷時,企業投放類似的新產品或服務到特定的市場,以測試市場是否真正達到飽和,是否具有潛在的購買力.前述兩種措施由於利益和風險的原因,不可能在企業覆蓋的所有市場中實施,只能選擇合適的實驗市場和對照市場加以測試,得到近似的市場飽和度;產品的價格實驗.這種實驗往往將新定價的產品投放市場,對顧客的態度和反應進行測試,了解顧客對這種價格的是否接受或接受程度;新產品上市實驗.波士頓矩陣研究的企業產品生命周期圖表明,企業為了生存和發展往往要不斷開發新產品,並使之向明星產品和金牛產品順利過渡.然而新產品投放市場後的失敗率卻很高,大致為66%到90%.因而為了降低新產品的失敗率,在產品大規模上市前,運用實驗調查法對新產品的各方面(外觀設計、性能、廣告和推廣營銷組合等)進行實驗是非常有必要的.
在實驗調查方法中,最常用的是前後單組對比實驗、對照組對比實驗和前後對照組對比實驗.這些方法要求科學的選擇實驗和非實驗單位,即隨機選擇出的實驗單位和非實驗單位之間必須具備一定的可比性,兩類單位的主客觀條件應基本相同.
通過聚類分析,可將待選的實驗市場(商場、居民區、城市等)分成同質的幾類小組,在同一組內選擇實驗單位和非實驗單位,這樣便保證了這兩個單位之間具有了一定的可比性.聚類時,商店的規模、類型、設備狀況、所處的地段、管理水平等就是聚類的分析變數
❽ 16種常用的數據分析方法-聚類分析
聚類(Clustering)就是一種尋找數據之間內在結構的技術。聚類把全體數據實例組織成一些相似組,而這些相似組被稱作簇。處於相同簇中的數據實例彼此相同,處於不同簇中的實例彼此不同。
聚類分析定義
聚類分析是根據在數據中發現的描述對象及其關系的信息,將數據對象分組。目的是,組內的對象相互之間是相似的(相關的),而不同組中的對象是不同的(不相關的)。組內相似性越大,組間差距越大,說明聚類效果越好。
聚類效果的好壞依賴於兩個因素:1.衡量距離的方法(distance measurement) 2.聚類演算法(algorithm)
聚類分析常見演算法
K-均值聚類也稱為快速聚類法,在最小化誤差函數的基礎上將數據劃分為預定的類數K。該演算法原理簡單並便於處理大量數據。
K-均值演算法對孤立點的敏感性,K-中心點演算法不採用簇中對象的平均值作為簇中心,而選用簇中離平均值最近的對象作為簇中心。
也稱為層次聚類,分類的單位由高到低呈樹形結構,且所處的位置越低,其所包含的對象就越少,但這些對象間的共同特徵越多。該聚類方法只適合在小數據量的時候使用,數據量大的時候速度會非常慢。
案例
有20種12盎司啤酒成分和價格的數據,變數包括啤酒名稱、熱量、鈉含量、酒精含量、價格。
問題一:選擇那些變數進行聚類?——採用「R 型聚類」
現在我們有4個變數用來對啤酒分類,是否有必要將4個變數都納入作為分類變數呢?熱量、鈉含量、酒精含量這3個指標是要通過化驗員的辛苦努力來測定,而且還有花費不少成本。
所以,有必要對4個變數進行降維處理,這里採用spss R型聚類(變數聚類),對4個變數進行降維處理。輸出「相似性矩陣」有助於我們理解降維的過程。
4個分類變數各自不同,這一次我們先用相似性來測度,度量標准選用pearson系數,聚類方法選最遠元素,此時,涉及到相關,4個變數可不用標准化處理,將來的相似性矩陣里的數字為相關系數。若果有某兩個變數的相關系數接近1或-1,說明兩個變數可互相替代。
只輸出「樹狀圖」就可以了,從proximity matrix表中可以看出熱量和酒精含量兩個變數相關系數0.903,最大,二者選其一即可,沒有必要都作為聚類變數,導致成本增加。
至於熱量和酒精含量選擇哪一個作為典型指標來代替原來的兩個變數,可以根據專業知識或測定的難易程度決定。(與因子分析不同,是完全踢掉其中一個變數以達到降維的目的。)這里選用酒精含量,至此,確定出用於聚類的變數為:酒精含量,鈉含量,價格。
問題二:20 中啤酒能分為幾類?—— 採用「Q 型聚類」
現在開始對20中啤酒進行聚類。開始不確定應該分為幾類,暫時用一個3-5類范圍來試探。Q型聚類要求量綱相同,所以我們需要對數據標准化,這一回用歐式距離平方進行測度。
主要通過樹狀圖和冰柱圖來理解類別。最終是分為4類還是3類,這是個復雜的過程,需要專業知識和最初的目的來識別。
這里試著確定分為4類。選擇「保存」,則在數據區域內會自動生成聚類結果。
問題三:用於聚類的變數對聚類過程、結果又貢獻么,有用么?——採用「單因素方差分析」
聚類分析除了對類別的確定需討論外,還有一個比較關鍵的問題就是分類變數到底對聚類有沒有作用有沒有貢獻,如果有個別變數對分類沒有作用的話,應該剔除。
這個過程一般用單因素方差分析來判斷。注意此時,因子變數選擇聚為4類的結果,而將三個聚類變數作為因變數處理。方差分析結果顯示,三個聚類變數sig值均極顯著,我們用於分類的3個變數對分類有作用,可以使用,作為聚類變數是比較合理的。
問題四:聚類結果的解釋?——採用」均值比較描述統計「
聚類分析最後一步,也是最為困難的就是對分出的各類進行定義解釋,描述各類的特徵,即各類別特徵描述。這需要專業知識作為基礎並結合分析目的才能得出。
我們可以採用spss的means均值比較過程,或者excel的透視表功能對各類的各個指標進行描述。其中,report報表用於描述聚類結果。對各類指標的比較來初步定義類別,主要根據專業知識來判定。這里到此為止。
以上過程涉及到spss層次聚類中的Q型聚類和R型聚類,單因素方差分析,means過程等,是一個很不錯的多種分析方法聯合使用的案例。
聚類分析的應用
聚類分析是細分市場的有效工具,被用來發現不同的客戶群,並且它通過對不同的客戶群的特徵的刻畫,被用於研究消費者行為,尋找新的潛在市場。
聚類分析被用來對動植物和基因進行分類,以獲取對種群固有結構的認識。
聚類分析可以通過平均消費來鑒定汽車保險單持有者的分組,同時可以根據住宅類型、價值、地理位置來鑒定城市的房產分組。
聚類分析被用來在網上進行文檔歸類。
聚類分析通過分組聚類出具有相似瀏覽行為的客戶,並分析客戶的共同特徵,從而幫助電子商務企業了解自己的客戶,向客戶提供更合適的服務。
❾ 聚類分析法
聚類分析,亦稱群分析或點分析,是研究多要素事物分類問題的數量方法。其基本原理是,根據樣本自身的屬性,用數學方法按照某些相似性或差異性指標,定量地確定樣本之間的親疏關系,並按親疏關系的程度對樣本進行聚類(徐建華,1994)。
聚類分析方法,應用在地下水中,是在各種指標和質量級別標准約束條件下,通過樣品的各項指標監測值綜合聚類,以判別地下水質量的級別。常見的聚類分析方法有系統聚類法、模糊聚類法和灰色聚類法等。
(一)系統聚類法
系統聚類法的主要步驟有:數據標准化、相似性統計量計算和聚類。
1.數據標准化
在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結果的准確性和可靠性。在地下水質量研究中,被聚類的對象常常是多個要素構成的。不同要素的數據差異可能很大,這會對分類結果產生影響。因此當分類要素的對象確定之後,在進行聚類分析之前,首先對聚類要素進行數據標准化處理。
假設把所考慮的水質分析點(G)作為聚類對象(有m個),用i表示(i=1,2,…,m);把影響水質的主要因素作為聚類指標(有n個),用j表示(j=1,2,…,n),它們所對應的要素數據可用表4-3給出。在聚類分析中,聚類要素的數據標准化的方法較多,一般採用標准差法和極差法。
表4-3 聚類對象與要素數據
對於第j個變數進行標准化,就是將xij變換為x′ij。
(1)總和標准化
區域地下水功能可持續性評價理論與方法研究
這種標准化方法所得的新數據x′ij滿足
區域地下水功能可持續性評價理論與方法研究
(2)標准差標准化
區域地下水功能可持續性評價理論與方法研究
式中:
由這種標准化方法所得的新數據x′ij,各要素的平均值為0,標准差為1,即有
區域地下水功能可持續性評價理論與方法研究
(3)極差標准化
區域地下水功能可持續性評價理論與方法研究
經過這種標准化所得的新數據,各要素的極大值為1,極小值為0,其餘的數值均在[0,1]閉區間內。
上述式中:xij為j變數實測值;xj為j變數的樣本平均值;sj為樣本標准差。
2.相似性統計量
系統聚類法要求給出一個能反映樣品間相似程度的一個數字指標,需要找到能量度相似關系的統計量,這是系統聚類法的關鍵。
相似性統計量一般使用距離系數和相似系數進行計算。距離系數是把樣品看成多維空間的點,用點間的距離來表示研究對象的緊密關系,距離越小,表明關系越密切。相似系數值表明樣本和變數間的相似程度。
(1)距離系數
常採用歐幾里得絕對距離,其中i樣品與j樣品距離dij為
區域地下水功能可持續性評價理論與方法研究
dij越小,表示i,j樣品越相似。
(2)相似系數
常見的相似系數有夾角餘弦和相關系數,計算公式為
1)夾角餘弦
區域地下水功能可持續性評價理論與方法研究
在式(4-20)中:-1≤cosθij≤1。
2)相關系數
區域地下水功能可持續性評價理論與方法研究
式中:dij為i樣品與j樣品的歐幾里得距離;cosθij為i樣品與j樣品的相似系數;rij為i樣品與j樣品的相關系數;xik為i樣品第k個因子的實測值或標准化值;xjk為j樣品第k個因子的實測值或標准化值;
3.聚類
在選定相似性統計量之後,根據計算結果構成距離或相似性系數矩陣(n×n),然後通過一定的方法把n個樣品組合成不同等級的分類單位,對類進行並類,即將最相似的樣品歸為一組,然後,把次相似的樣品歸為分類級別較高的組。聚類主要有直接聚類法、距離聚類法(最短距離聚類法、最遠距離聚類法)。
(1)直接聚類法
直接聚類法,是根據距離或相似系數矩陣的結構一次並類得到結果,是一種簡便的聚類方法。它首先把各個分類對象單獨視為一類,然後根據距離最小或相似系數最大的原則,依次選出一對分類對象,並成新類。如果一對分類對象正好屬於已歸的兩類,則把這兩類並為一類。每一次歸並,都劃去該對象所在的列與列序相同的行。經過n-1次把全部分類對象歸為一類,最後根據歸並的先後順序作出聚類分析譜系圖。
(2)距離聚類法
距離聚類法包括最短距離聚類法和最遠距離聚類法。最短距離聚類法具有空間壓縮性,而最遠距離聚類法具有空間擴張性。這兩種聚類方法關於類之間的距離計算可以用一個統一的公式表示:
區域地下水功能可持續性評價理論與方法研究
當γ=-0.5時,式(4-22)計算類之間的距離最短;當γ=0.5時,式(4-22)計算類之間的距離最遠。
最短、最遠距離法,是在原來的n×n距離矩陣的非對角元素中找出dpq=min(dij)或dpq=max(dij),把分類對象Gp和Gq歸並為一新類Gr,然後按計算公式:
dpq=min(dpk,dqk)(k≠ p,q) (4-23)
dpq=max(dpk,dqk)(k≠ p,q) (4-24)
計算原來各類與新類之間的距離,這樣就得到一個新的(n-1)階的距離矩陣;再從新的距離矩陣中選出最小或最大的dij,把Gi和Gj歸並成新類;再計算各類與新類的距離,直至各分類對象被歸為一類為止。最後綜合整個聚類過程,作出最短距離或最遠距離聚類譜系圖(圖4-1)。
圖4-1 地下水質量評價的聚類譜系圖
(二)模糊聚類法
模糊聚類法是普通聚類方法的一種拓展,它是在聚類方法中引入模糊概念形成的。該方法評價地下水質量的主要步驟,包括數據標准化、標定和聚類3個方面(付雁鵬等,1987)。
1.數據標准化
在進行聚類過程中,由於所研究的各個變數絕對值不一樣,所以直接使用原始數據進行計算就會突出絕對值大的變數,而降低絕對值小的變數作用,特別是在進行模糊聚類分析中,模糊運算要求必須將數據壓縮在[0,1]之間。因此,模糊聚類計算的首要工作是解決數據標准化問題。數據標准化的方法見系統聚類分析法。
2.標定與聚類
所謂標定就是計算出被分類對象間的相似系數rij,從而確定論域集U上的模糊相似關系Rij。相似系數的求取,與系統聚類分析法相同。
聚類就是在已建立的模糊關系矩陣Rij上,給出不同的置信水平λ(λ∈[0,1])進行截取,進而得到不同的分類。
聚類方法較多,主要有基於模糊等價關系基礎上的聚類與基於最大樹的聚類。
(1)模糊等價關系方法
所謂模糊等價關系,是指具有自反性(rii=1)、對稱性(rij=rji)與傳遞性(R·R⊆R)的模糊關系。
基於模糊等價關系的模糊聚類分析方法的基本思想是:由於模糊等價關系R是論域集U與自己的直積U×U上的一個模糊子集,因此可以對R進行分解,當用λ-水平對R作截集時,截得的U×U的普通子集Rλ就是U上的一個普通等價關系,也就是得到了關於U中被分類對象元素的一種。當λ由1下降到0時,所得的分類由細變粗,逐漸歸並,從而形成一個動態聚類譜系圖(徐建華,1994)。此類分析方法的具體步驟如下。
第一步:模糊相似關系的建立,即計算各分類對象之間相似性統計量。
第二步:將模糊相似關系R改造為模糊等價關系R′。模糊等價關系要求滿足自反性、對稱性與傳遞性。一般而言,模糊相似關系滿足自反性和對稱性,但不滿足傳遞性。因此,需要採用傳遞閉合的性質將模糊相似關系改造為模糊等價關系。改造的方法是將相似關系R自乘,即
R2=R·R
R4=R2·R2
︙
這樣計算下去,直到:R2k=Rk·Rk=Rk,則R′=Rk便是一個模糊等價關系。
第三步:在不同的截集水平下進行聚類。
(2)最大樹聚類方法
基於最大樹的模糊聚類分析方法的基本思路是:最大樹是一個不包含迴路的連通圖(圖4-2);選取λ水平對樹枝進行截取,砍去權重低於λ 的枝,形成幾個孤立的子樹,每一棵子樹就是一個類的集合。此類分析方法的具體步驟如下。
圖4-2 最大聚類支撐樹圖
第一步:計算分類對象之間的模糊相似性統計量rij,構建最大樹。
以所有被分類的對象為頂點,當兩點間rij不等於0時,兩點間可以用樹干連接,這種連接是按rij從大到小的順序依次進行的,從而構成最大樹。
第二步:由最大樹進行聚類分析。
選擇某一λ值作截集,將樹中小於λ值的樹干砍斷,使相連的結點構成一類,即子樹,當λ由1到0時,所得到的分類由細變粗,各結點所代表的分類對象逐漸歸並,從而形成一個動態聚類譜系圖。
在聚類方法中,模糊聚類法比普通聚類法有較大的突破,簡化了運算過程,使聚類法更易於掌握。
(三)灰色聚類法
灰色聚類是根據不同聚類指標所擁有的白化數,按幾個灰類將聚類對象進行歸納,以判斷該聚類對象屬於哪一類。
灰色聚類應用於地下水水質評價中,是把所考慮的水質分析點作為聚類對象,用i表示(i=1,2,…,n);把影響水質的主要因素作為聚類指標,用j表示(j=1,2,…,m),把水質級別作為聚類灰數(灰類),用k表示(k=1,2,3)即一級、二級、三級3個灰類(羅定貴等,1995)。
灰色聚類的主要步驟:確定聚類白化數、確定各灰色白化函數fjk、求標定聚類權重ηjk、求聚類系數和按最大原則確定聚類對象分類。
1.確定聚類白化數
當各灰類白化數在數量上相差懸殊時,為保證各指標間的可比性與等效性,必須進行白化數的無量綱化處理。即給出第i個聚類對象中第j個聚類指標所擁有的白化數,i=1,2,…,n;j=1,2,…,m。
2.確定各灰色白化函數
建立滿足各指標、級別區間為最大白化函數值(等於1),偏離此區間愈遠,白化函數愈小(趨於0)的功效函數fij(x)。根據監測值Cki,可在圖上(圖4-3)解析出相應的白化函數值fjk(Cik),j=1,2,…,m;k=1,2,3。
3.求標定聚類權重
根據式(4-25),計算得出聚類權重ηjk的矩陣(n×m)。
區域地下水功能可持續性評價理論與方法研究
式中:ηjk為第j個指標對第k個灰類的權重;λjk為白化函數的閾值(根據標准濃度而定)。
圖4-3 白化函數圖
註:圖4-3白化函數f(x)∈[0,1],具有下述特點:①平頂部分,表示該量的最佳程度。這部分的值為最佳值,即系數(權)為1,f(x)=max=1(峰值),x∈[x2,x3]。②白化函數是單調變化的,左邊部分f(x)=L(x),單調增,x∈(x1,x2],稱為白化的左支函數;右邊部分f(x)=R(x),單調減,x∈[x3,x4),稱為白化的右支函數。③白化函數左右支函數對稱。④白化函數,為了簡便,一般是直線。⑤白化函數的起點和終點,一般來說是人為憑經驗確定。
4.求聚類系數
σik=∑fjk(dij)ηjk (4-26)
式中:σik為第i個聚類對象屬於第k個灰類的系數,i=1,2,…,n;k=1,2,3。
5.按最大原則確定聚類對象分類
由σik構造聚類向量矩陣,行向量最大者,確定k樣品屬於j級對應的級別。
用灰色聚類方法進行地下水水質評價,能最大限度地避免因人為因素而造成的「失真、失效」現象。
聚類方法計算相對復雜,但是計算結果與地下水質量標准級別對應性明顯,能夠較全面反映地下水質量狀況,也是較高層次定量研究地下水質量的重要方法。
❿ 什麼是聚類分析,它有什麼作用呢
1、與多元分析的其他方法相比,聚類分析是很粗糙的,理論尚不完善,但由於它成功地應用於心理、經濟、社會、管理、醫學、地質、生態、地震、氣象、考古、企業決策等,因此成了多元分析的重要方法,統計包中都有豐富的軟體,對數據進行聚類處理。
2、聚類分析除了獨立的統計功能外,還有一個輔助功能,就是和其他統計方法配合,對數據進行預處理。
例如,當總體不清楚時,可對原始數據進行聚類,根據聚類後相似的數據,各自建立回歸分析,分析的效果會更好。同時如果聚類不是根據個案,而是對變數先進行聚類,聚類的結果,可以在每一類推出一個最有代表性的變數,從而減少了進入回歸方程的變數數。
3、聚類分析是研究按一定特徵,對研究對象進行分類的多元統計方法,它並不關心特徵及變數間的因果關系。分類的結果,應使類別間個體差異大,而同類的個體差異相對要小。
(10)基於聚類分析方法的股票投資的研究擴展閱讀:
聚類效果的檢驗:
一、聚類分析後得到的每個類別是否可以進行有效的命名,每個類別的特徵情況是否符合現實意義,如果研究者可以結合專業知識對每個聚類類別進行命名,即說明聚類效果良好,如果聚類類別無法進行命名,則需要考慮重新進行聚類分析。
二、使用判別分析方法進行判斷,將SPSS生成的聚類類別變數作為因變數(Y),而將聚類變數作為自變數(X)進行判別分析,判別分析具體分析聚類變數與類別之間投影關系情況,如果研究人員對聚類分析效果非常在乎,可以使用判別分析進行分析。
三、聚類分析方法的詳細過程說明,描述清楚聚類分析的科學使用過程,科學的聚類分析方法使用即是良好結果的前提保障。
是、聚類分析後每個類別樣本數量是否均勻,如果聚類結果顯示為三個類別,有一個類別樣本量非常少,比如低於30,此時很可能說明聚類效果較差。針對聚類效果的判斷,研究者主要是結合專業知識判斷,即聚類類別是否可以進行有效命名。