1. 股票的數據挖掘用什麼演算法最合適
寫個貝葉斯分類演算法
對文本進行分類
2. 求問什麼是數據挖掘
數據挖掘相關的10個問題 NO.1 Data Mining 和統計分析有什麼不同? 硬要去區分Data Mining和Statistics的差異其實是沒有太大意義的。一般將之定義為Data Mining技術的CART、CHAID或模糊計算等等理論方法,也都是由統計學者根據統計理論所發展衍生,換另一個角度看,Data Mining有相當大的比重是由高等統計學中的多變數分析所支撐。但是為什麼Data Mining的出現會引發各領域的廣泛注意呢?主要原因在相較於傳統統計分析而言,Data Mining有下列幾項特性: 1.處理大量實際數據更強勢,且無須太專業的統計背景去使用Data Mining的工具; 2.數據分析趨勢為從大型資料庫抓取所需數據並使用專屬計算機分析軟體,Data Mining的工具更符合企業需求; 3. 純就理論的基礎點來看,Data Mining和統計分析有應用上的差別,畢竟Data Mining目的是方便企業終端用戶使用而非給統計學家檢測用的。 NO.2 Data Warehousing 和 Data Mining 的關系為何? 若將Data Warehousing(數據倉庫)比喻作礦坑,Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無中生有的魔術,也不是點石成金的煉金術,若沒有夠豐富完整的數據,是很難期待Data Mining能挖掘出什麼有意義的信息的。 要將龐大的數據轉換成為有用的信息,必須先有效率地收集信息。隨著科技的進步,功能完善的資料庫系統就成了最好的收集數據的工具。數據倉庫,簡單地說,就是搜集來自其它系統的有用數據,存放在一整合的儲存區內。所以其實就是一個經過處理整合,且容量特別大的關系型資料庫,用以儲存決策支持系統(Design Support System)所需的數據,供決策支持或數據分析使用。從信息技術的角度來看,數據倉庫的目標是在組織中,在正確的時間,將正確的數據交給正確的人。 許多人對於Data Warehousing和Data Mining時常混淆,不知如何分辨。其實,數據倉庫是資料庫技術的一個新主題,利用計算機系統幫助我們操作、計算和思考,讓作業方式改變,決策方式也跟著改變。 數據倉庫本身是一個非常大的資料庫,它儲存著由組織作業資料庫中整合而來的數據,特別是指事務處理系統OLTP(On-Line Transactional Processing)所得來的數據。將這些整合過的數據置放於數據昂哭中,而公司的決策者則利用這些數據作決策;但是,這個轉換及整合數據的過程,是建立一個數據倉庫最大的挑戰。因為將作業中的數據轉換成有用的的策略性信息是整個數據倉庫的重點。綜上所述,數據倉庫應該具有這些數據:整合性數據(integrated data)、詳細和匯總性的數據(detailed and summarized data)、歷史數據、解釋數據的數據。從數據倉庫挖掘出對決策有用的信息與知識,是建立數據倉庫與使用Data Mining的最大目的,兩者的本質與過程是兩回事。換句話說,數據倉庫應先行建立完成,Data mining才能有效率的進行,因為數據倉庫本身所含數據是干凈(不會有錯誤的數據參雜其中)、完備,且經過整合的。因此兩者關系或許可解讀為Data Mining是從巨大數據倉庫中找出有用信息的一種過程與技術。 NO.3 OLAP 能不能代替 Data Mining? 所謂OLAP(Online Analytical Process)意指由資料庫所連結出來的在線分析處理程序。有些人會說:「我已經有OLAP的工具了,所以我不需要Data Mining。」事實上兩者間是截然不同的,主要差異在於Data Mining用在產生假設,OLAP則用於查證假設。簡單來說,OLAP是由使用者所主導,使用者先有一些假設,然後利用OLAP來查證假設是否成立;而Data Mining則是用來幫助使用者產生假設。所以在使用OLAP或其它Query的工具時,使用者是自己在做探索(Exploration),但Data Mining是用工具在幫助做探索。 舉個例子來看,一市場分析師在為超市規劃貨品架櫃擺設時,可能會先假設嬰兒尿布和嬰兒奶粉會是常被一起購買的產品,接著便可利用OLAP的工具去驗證此假設是否為真,又成立的證據有多明顯;但Data Mining則不然,執行Data Mining的人將龐大的結帳數據整理後,並不需要假設或期待可能的結果,透過Mining技術可找出存在於數據中的潛在規則,於是我們可能得到例如尿布和啤酒常被同時購買的意料外之發現,這是OLAP所做不到的。 Data Mining常能挖掘出超越歸納范圍的關系,但OLAP僅能利用人工查詢及可視化的報表來確認某些關系,是以Data Mining此種自動找出甚至不會被懷疑過的數據模型與關系的特性,事實上已超越了我們經驗、教育、想像力的限制,OLAP可以和Data Mining互補,但這項特性是Data Mining無法被OLAP取代的。 NO.4 完整的Data Mining 包含哪些步驟? 以下提供一個Data Mining的進行步驟以為參考: 1. 理解業務與理解數據; 2. 獲取相關技術與知識; 3. 整合與查詢數據; 4. 去除錯誤或不一致及不完整的數據; 5. 由數據選取樣本先行試驗; 6. 建立數據模型 7. 實際Data Mining的分析工作; 8. 測試與檢驗; 9. 找出假設並提出解釋; 10. 持續應用於企業流程中。 由上述步驟可看出,Data Mining牽涉了大量的准備工作與規劃過程,事實上許多專家皆認為整套Data Mining的進行有80﹪的時間精力是花費在數據前置作業階段,其中包含數據的凈化與格式轉換甚或表格的連結。由此可知Data Mining只是信息挖掘過程中的一個步驟而已,在進行此步驟前還有許多的工作要先完成。 NO.5 Data Mining 運用了哪些理論與技術? Data Mining是近年來資料庫應用技術中相當熱門的議題,看似神奇、聽來時髦,實際上卻也不是什麼新東西,因其所用之諸如預測模型、數據分割,連結分析(Link Analysis)、偏差偵測(Deviation Detection)等,美國早在二次世界大戰前就已應用運用在人口普查及軍事等方面。 隨著信息科技超乎想像的進展,許多新的計算機分析工具問世,例如關系型資料庫、模糊計算理論、基因演算法則以及類神經網路等,使得從數據中發掘寶藏成為一種系統性且可實行的程序。 一般而言,Data Mining的理論技術可分為傳統技術與改良技術兩支。 傳統技術以統計分析為代表,統計學內所含序列統計、概率論、回歸分析、類別數據分析等都屬於傳統數據挖掘技術,尤其 Data Mining 對象多為變數繁多且樣本數龐大的數據,是以高等統計學里所含括之多變數分析中用來精簡變數的因素分析(Factor Analysis)、用來分類的判別分析(Discriminant Analysis),以及用來區隔群體的分群分析(Cluster Analysis)等,在Data Mining過程中特別常用。 在改良技術方面,應用較普遍的有決策樹理論(Decision Trees)、類神經網路(Neural Network)以及規則歸納法(Rules Inction)等。決策樹是一種用樹枝狀展現數據受各變數的影響情形之預測模型,根據對目標變數產生之效應的不同而建構分類的規則,一般多運用在對客戶數據的分析上,例如針對有回函與未回含的郵寄對象找出影響其分類結果的變數組合,常用分類方法為CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)兩種。 類神經網路是一種模擬人腦思考結構的數據分析模式,由輸入之變數與數值中自我學習並根據學習經驗所得之知識不斷調整參數以期建構數據的型樣(patterns)。類神經網路為非線性的設計,與傳統回歸分析相比,好處是在進行分析時無須限定模式,特別當數據變數間存有交互效應時可自動偵測出;缺點則在於其分析過程為一黑盒子,故常無法以可讀之模型格式展現,每階段的加權與轉換亦不明確,是故類神經網路多利用於數據屬於高度非線性且帶有相當程度的變數交感效應時。 規則歸納法是知識發掘的領域中最常用的格式,這是一種由一連串的「如果…/則…(If / Then)」之邏輯規則對數據進行細分的技術,在實際運用時如何界定規則為有效是最大的問題,通常需先將數據中發生數太少的項目先剔除,以避免產生無意義的邏輯規則。 NO.6 Data Mining包含哪些主要功能? Data Mining實際應用功能可分為三大類六分項來說明:Classification和Clustering屬於分類區隔類;Regression和Time-series屬於推算預測類;Association和Sequence則屬於序列規則類。 Classification是根據一些變數的數值做計算,再依照結果作分類。(計算的結果最後會被分類為幾個少數的離散數值,例如將一組數據分為 "可能會響應" 或是 "可能不會響應" 兩類)。Classification常被用來處理如前所述之郵寄對象篩選的問題。我們會用一些根據歷史經驗已經分類好的數據來研究它們的特徵,然後再根據這些特徵對其他未經分類或是新的數據做預測。這些我們用來尋找特徵的已分類數據可能是來自我們的現有的客戶數據,或是將一個完整資料庫做部份取樣,再經由實際的運作來測試;譬如利用一個大型郵寄對象資料庫的部份取樣來建立一個Classification Model,再利用這個Model來對資料庫的其它數據或是新的數據作分類預測。 Clustering用在將數據分群,其目的在於將群間的差異找出來,同時也將群內成員的相似性找出來。Clustering與Classification不同的是,在分析前並不知道會以何種方式或根據來分類。所以必須要配合專業領域知識來解讀這些分群的意義。 Regression是使用一系列的現有數值來預測一個連續數值的可能值。若將范圍擴大亦可利用Logistic Regression來預測類別變數,特別在廣泛運用現代分析技術如類神經網路或決策樹理論等分析工具,推估預測的模式已不在止於傳統線性的局限,在預測的功能上大大增加了選擇工具的彈性與應用范圍的廣度。 Time-Series Forecasting與Regression功能類似,只是它是用現有的數值來預測未來的數值。兩者最大差異在於Time-Series所分析的數值都與時間有關。Time-Series Forecasting的工具可以處理有關時間的一些特性,譬如時間的周期性、階層性、季節性以及其它的一些特別因素(如過去與未來的關連性)。 Association是要找出在某一事件或是數據中會同時出現的東西。舉例而言,如果A是某一事件的一種選擇,則B也出現在該事件中的機率有多少。(例如:如果顧客買了火腿和柳橙汁,那麼這個顧客同時也會買牛奶的機率是85%。) Sequence Discovery與Association關系很密切,所不同的是Sequence Discovery中事件的相關是以時間因素來作區隔(例如:如果A股票在某一天上漲12%,而且當天股市加權指數下降,則B股票在兩天之內上漲的機率是 68%)。 NO.7 Data Mining在各領域的應用情形為何? Data Mining在各領域的應用非常廣泛,只要該產業擁有具分析價值與需求的數據倉儲或資料庫,皆可利用Mining工具進行有目的的挖掘分析。一般較常見的應用案例多發生在零售業、直效行銷界、製造業、財務金融保險、通訊業以及醫療服務等。 於銷售數據中發掘顧客的消費習性,並可藉由交易紀錄找出顧客偏好的產品組合,其它包括找出流失顧客的特徵與推出新產品的時機點等等都是零售業常見的實例;直效行銷強調的分眾概念與資料庫行銷方式在導入Data Mining的技術後,使直效行銷的發展性更為強大,例如利用Data Mining分析顧客群之消費行為與交易紀錄,結合基本數據,並依其對品牌價值等級的高低來區隔顧客,進而達到差異化行銷的目的;製造業對Data Mining的需求多運用在品質控管方面,由製造過程中找出影響產品品質最重要的因素,以期提高作業流程的效率。 近來電話公司、信用卡公司、保險公司以及股票交易商對於詐欺行為的偵測(Fraud Detection)都很有興趣,這些行業每年因為詐欺行為而造成的損失都非常可觀,Data Mining可以從一些信用不良的客戶數據中找出相似特徵並預測可能的詐欺交易,達到減少損失的目的。財務金融業可以利用 Data Mining來分析市場動向,並預測個別公司的營運以及股價走向。Data Mining的另一個獨特的用法是在醫療業,用來預測手術、用葯、診斷、或是流程式控制制的效率。 NO.8 Web Mining 和Data Mining有什麼不同? 如果將Web視為CRM的一個新的Channel,則Web Mining便可單純看做Data Mining應用在網路數據的泛稱。 該如何測量一個網站是否成功?哪些內容、優惠、廣告是人氣最旺的?主要訪客是哪些人?什麼原因吸引他們前來?如何從堆積如山之大量由網路所得數據中找出讓網站運作更有效率的操作因素?以上種種皆屬Web Mining 分析之范疇。Web Mining 不僅只限於一般較為人所知的log file分析,除了計算網頁瀏覽率以及訪客人次外,舉凡網路上的零售、財務服務、通訊服務、政府機關、醫療咨詢、遠距教學等等,只要由網路連結出的資料庫夠大夠完整,所有Off-Line可進行的分析,Web Mining都可以做,甚或更可整合Off-Line及On-Line的資料庫,實施更大規模的模型預測與推估,畢竟憑借網際網路的便利性與滲透力再配合網路行為的可追蹤性與高互動特質,一對一行銷的理念是最有機會在網路世界裡完全落實的。 整體而言,Web Mining具有以下特性:1. 數據收集容易且不引人注意,所謂凡走過必留下痕跡,當訪客進入網站後的一切瀏覽行為與歷程都是可以立即被紀錄的;2. 以互動式個人化服務為終極目標,除了因應不同訪客呈現專屬設計的網頁之外,不同的訪客也會有不同的服務;3. 可整合外部來源數據讓分析功能發揮地更深更廣,除了log file、cookies、會員填表數據、線上調查數據、線上交易數據等由網路直接取得的資源外,結合實體世界累積時間更久、范圍更廣的資源,將使分析的結果更准確也更深入。 利用Data Mining技術建立更深入的訪客數據剖析,並賴以架構精準的預測模式,以期呈現真正智能型個人化的網路服務,是Web Mining努力的方向。 NO.9 Data Mining 在 CRM 中扮演的角色為何? CRM(Customer Relationship Management)是近來引起熱烈討論與高度關切的議題,尤其在直效行銷的崛起與網路的快速發展帶動下,跟不上CRM的腳步如同跟不上時代。事實上CRM並不算新發明,奧美直效行銷推動十數年的CO(Customer Ownership)就是現在大家談的CRM—客戶關系管理。 Data Mining應用在CRM的主要方式可對應在Gap Analysis之三個部分: 針對Acquisition Gap,可利用Customer Profiling找出客戶的一些共同的特徵,希望能藉此深入了解客戶,藉由Cluster Analysis對客戶進行分群後再透過Pattern Analysis預測哪些人可能成為我們的客戶,以幫助行銷人員找到正確的行銷對象,進而降低成本,也提高行銷的成功率。 針對Sales Gap,可利用Basket Analysis幫助了解客戶的產品消費模式,找出哪些產品客戶最容易一起購買,或是利用Sequence Discovery預測客戶在買了某一樣產品之後,在多久之內會買另一樣產品等等。利用 Data Mining可以更有效的決定產品組合、產品推薦、進貨量或庫存量,甚或是在店裡要如何擺設貨品等,同時也可以用來評估促銷活動的成效。 針對Retention Gap,可以由原客戶後來卻轉成競爭對手的客戶群中,分析其特徵,再根據分析結果到現有客戶數據中找出可能轉向的客戶,然後設計一些方法預防客戶流失;更有系統的做法是藉由Neural Network根據客戶的消費行為與交易紀錄對客戶忠誠度進行Scoring的排序,如此則可區隔流失率的等級進而配合不同的策略。 CRM不是設一個(080)客服專線就算了,更不僅只是把一堆客戶基本數據輸入計算機就夠,完整的CRM運作機制在相關的硬軟體系統能健全的支持之前,有太多的數據准備工作與分析需要推動。
3. 請問什麼是數據挖掘
數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。
1. 數據挖掘能做什麼?
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Des cription and Visualization)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以
理解成資料庫中表的屬性,即列)進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系
。
· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分
類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的
輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的
連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運
用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
· 預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用
於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。
預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時
間後,才知道預言准確性是多少。
· 相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先
定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一
類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,
回答問題,可能效果更好。
· 描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景
數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有
價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。
1)數據挖掘作為研究工具 (Research)
2)數據挖掘提高過程式控制制(Process Improvement)
3)數據挖掘作為市場營銷工具(Marketing)
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)
3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分:演算法和技術;數據;建模能力
2)數據挖掘和機器學習(Machine Learning)
· 機器學習是計算機科學和人工智慧AI發展的產物
· 機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決
策樹)
· 數據挖掘由來
數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是一個新興
的,面向商業應用的AI研究。選擇數據挖掘這一術語,表明了與統計、精算、長期從事預
言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計
統計也開始支持數據挖掘。統計本包括預言演算法(回歸)、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
· 數據倉庫
· OLAP(聯機分析處理)、Data Mart(數據集市)、多維資料庫
· 決策支持工具融合
將數據倉庫、OLAP,數據挖掘融合在一起,構成企業決策分析環境。
4. 數據挖掘的社會背景
數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上
,客戶自己可能都不明確自己下一步要作什麼。所以,數據挖掘的結果,沒有人們想像中
神秘,它不可能是完全正確的。
客戶的行為是與社會環境相關連的,所以數據挖掘本身也受社會背景的影響。比如說,在
美國對銀行信用卡客戶信用評級的模型運行得非常成功,但是,它可能不適合中國
轉載的
4. 可以買的美國基金有哪幾個
目前,投資美國市場的QDII(合格境內機構投資者)基金有以下三種:
1、一種是投資於美國房地產信託憑證(REITs)、房地產上市公司股票等的QDII。比如鵬華美國房地產、廣發美國房地產、諾安全球收益不動產以及嘉實全球房地產等。
2、第二種是指數化產品,如跟蹤標普指數的大成標普500、博時標普500以及跟蹤納斯達克指數的廣發納斯達克100、華安納斯達克100等。
3、最後還有投資於美國資源商品類的QDII,如華寶興業標普油氣、建信全球資源等。在資源商品下跌的趨勢下,建議謹慎配置商品類QDII產品。
在挑選QDII時,要注意挑選公司實力雄厚、涉足海外市場較早的基金管理人,通過分析基金的整體業績來判斷其投資經驗和管理能力如何。
溫馨提示:
1、以上信息僅供參考,不作任何建議。
2、入市有風險,投資需謹慎。您在做任何投資之前,應確保自己完全明白產品的投資性質和所涉及的風險,詳細了解和謹慎評估產品後,再自身判斷是否參與交易。
應答時間:2021-09-17,最新業務變化請以平安銀行官網公布為准。
[平安銀行我知道]想要知道更多?快來看「平安銀行我知道」吧~
https://b.pingan.com.cn/paim/iknow/index.html
5. 位元組跳動美國上市股票代碼
位元組跳動在美股納斯達克上市股票代碼BYTE。
北京位元組跳動科技有限公司是中國北京的一家信息科技公司,地址位於北京市海淀區知春路甲48號。獨立研發的「今日頭條」客戶端,通過海量信息採集、深度數據挖掘和用戶行為分析,為用戶智能推薦個性化信息,從而開創了一種全新的新聞閱讀模式。位元組范是位元組跳動企業文化的重要組成部分,是共同認可的行為准則。追求極致,務實敢為,開放謙遜,坦誠清晰,始終創業,多元兼容。
北京位元組跳動科技有限公司成立於2012年3月,是最早將人工智慧應用於移動互聯網場景的科技企業之一。公司以建設「全球創作與交流平台」為願景。位元組跳動的全球化布局始於2015年,「技術出海」是位元組跳動全球化發展的核心戰略。位元組跳動人工智慧實驗室成立於2016年,旨在針對人工智慧相關領域的長期性和開放性問題進行探索,幫助公司實現對未來發展的構想。其獨立研發的「今日頭條」客戶端,通過海量信息採集、深度數據挖掘和用戶行為分析,為用戶智能推薦個性化信息,從而開創了一種全新的新聞閱讀模式。「今日頭條」是北京位元組跳動科技有限公司推出的一款移動資訊客戶端產品,可根據用戶的閱讀習慣、結合用戶所處的環境和閱讀的文章內容等,向用戶推薦個性化信息。
2019年3月,位元組跳動收購了上海墨鵾數碼科技有限公司,加快布局游戲領域。4月25日,SmartisanOS已經成為位元組跳動旗下子公司的產品。5月19日,社交產品「飛聊」上線。6月,位元組跳動以12.6億人民幣的價格收購了虎撲30%的股權,成為其第一大股東。2019年5月19日,社交產品「飛聊」上線,飛聊是一款UGC主題社區產品,可下載路徑主要有:在AppStore搜索「興趣相遇」或「移動社交新大陸」關鍵字,可彈出「飛聊」:此外,用戶可通過好友分享的二維碼鏈接,獲取下載網址跳轉至下載頁面。
6. 數據挖掘的國內外研究現狀
摘要:隨著網路、資料庫技術的迅速發畏以及資料庫管理系統的廣泛應用,人們積累的數據越來越多。數據挖掘(Data Mining)就是從大量的實際應用數據中提取隱含信息和知識,它利用了資料庫、人工智慧和數理統計等多方面的技術,是一類深層次的數據分析方法。
關鍵詞:數據挖掘;知識;分析;市場營銷;金融投資
隨著網路、資料庫技術的迅速發展以及資料庫管理系統的廣泛應用,人們積累的數據越來越多。由此,數據挖掘技術應運而生。下面,本文對數據技術及其應用作一簡單介紹。
一、數據挖掘定義
數據挖掘(Data Mining)就是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它是一種新的商業信息處理技術,其主要特點是對商業資料庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。簡而言之,數據挖掘其實是一類深層次的數據分析方法。從這個角度數據挖掘也可以描述為:按企業制定的業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,並進一步將其模型化的先進有效的方法。
二、數據挖掘技術
數據挖掘技術是人們長期對資料庫技術進行研究和開發的結果,代寫論文其中數據倉庫技術的發展與數據挖掘有著密切的關系。大部分情況下,數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中,因為數據倉庫會對數據進行清理,並會解決數據的不一致問題,這會給數據挖掘帶來很多好處。此外數據挖掘還利用了人工智慧(AI)和統計分析的進步所帶來的好處,這兩門學科都致力於模式發現和預測。資料庫、人工智慧和數理統計是數據挖掘技術的三大支柱。由於數據挖掘所發現的知識的不同,其所利用的技術也有所不同。
1.廣義知識。指類別特徵的概括性描述知識。根據數據的微觀特性發現其表徵的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物的共同性質,是對數據的概括、精煉和抽象。廣義知識的發現方法和實現技術有很多,如數據立方體、面向屙性的歸約等。數據立方體的基本思想是實現某些常用的代價較高的聚集函數的計算,諸如計數、求和、平均、最大值等,並將這些實現視圖儲存在多維資料庫中。而面向屬性的歸約是以類SQL語言來表示數據挖掘查詢,收集資料庫中的相關數據集,然後在相關數據集上應用一系列數據推廣技術進行數據推廣,包括屬性刪除、概念樹提升、屬性閾值控制、計數及其他聚集函數傳播等。
2.關聯知識。它反映一個事件和其他事件之間依賴或關聯的知識。如果兩項或多項屬性之間存在關聯,那麼其中一項的屬性值就可以依據其他屬性值進行預測。最為著名的關聯規
則發現方法是Apriori演算法和FP—Growth演算法。關聯規則的發現可分為兩步:第一步是迭代識別所有的頻繁項目集,要求頻繁項目集的支持率不低於用戶設定的最低值;第二步是從頻繁項目集中構造可信度不低於用戶設定的最低值的規則。識別或發現所有頻繁項目集是關聯規則發現演算法的核心,也是計算量最大的部分。
3.分類知識。它反映同類事物共同性質的特徵型知識和不同事物之間的差異型特徵知識。分類方法有決策樹、樸素貝葉斯、神經網路、遺傳演算法、粗糙集方法、模糊集方法、線性回歸和K—Means劃分等。其中最為典型的分類方法是決策樹。它是從實例集中構造決策樹,是一種有指導的學習方法。
該方法先根據訓練子集形成決策樹,如果該樹不能對所有對象給出正確的分類,那麼選擇一些例外加入到訓練子集中,重復該過程一直到形成正確的決策集。最終結果是一棵樹,其葉結點是類名,中間結點是帶有分枝的屙性,該分枝對應該屙性的某一可能值。
4.預測型知識。它根據時間序列型數據,由歷史的和當前的數據去推測未來的數據,也可以認為是以時間為關鍵屬性的關聯知識。目前,時間序列預測方法有經典的統計方法、神經網路和機器學習等。1968年BoX和Jenkins提出了一套比較完善的時間序列建模理論和分析方法,這些經典的數學方法通過建立隨機模型,進行時間序列的預測。由於大量的時間序列是非平穩的,其特徵參數和數據分布隨著時間的推移而發生變化。因此,僅僅通過對某段歷史數據的訓練,建立單一的神經網路預測模型,還無法完成准確的預測任務。為此,人們提出了基於統計學和基於精確性的再訓練方法,當發現現存預測模型不再適用於當前數據時,對模型重新訓練,獲得新的權重參數,建立新的模型。
5.偏差型知識。它是對差異和極端特例的描述,揭示事物偏離常規的異常現象,如標准類外的特例、數據聚類外的離群值等。所有這些知識都可以在不同的概念層次上被發現,並隨著概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的需要。
三、數據挖掘流程
數據挖掘是指一個完整的過程,該過程從大型資料庫中挖掘先前未知的、有效的、可實用的信息,代寫畢業論文並使用這些信息做出決策或豐富知識。數據挖掘的基本過程和主要步驟如下:
過程中各步驟的大體內容如下:
1.確定業務對象,清晰地定義出業務問題。認清數據挖掘的目的是數據挖掘的重要一步,挖掘的最後結構不可預測,但要探索的問題應該是有預見的,為了數據挖掘而挖掘則帶有盲目性,是不會成功的。
2.數據准備。(1)數據選擇。搜索所有與業務對象有關的內部和外部數據信息,並從中選擇出適用於數據挖掘應用的數據。(2)數據預處理。研究數據的質量,進行數據的集成、變換、歸約、壓縮等.為進一步的分析作準備,並確定將要進行的挖掘操作的類型。(3)數據轉換。將數據轉換成一個分析模型,這個分析模型是針對挖掘演算法建立的,這是數據挖掘成功的關鍵。
3.數據挖掘。對所得到的經過轉換的數據進行挖掘。除了完善和選擇合適的挖掘演算法外,其餘一切工作都能自動地完成。
4.結果分析。解釋並評估結果。其使用的分析方法一般應視挖掘操作而定,通常會用到可視化技術。
5.知識同化。將分析所得到的知識集成到業務信息系統的組織結構中去。
四、數據挖掘的應用
數據挖掘技術從一開始就是面向應用的。目前在很多領域,數據挖掘都是一個很時髦的詞,尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業領域。
1.市場營銷。由於管理信息系統和P0S系統在商業尤其是零售業內的普遍使用,特別是條形碼技術的使用,從而可以收集到大量關於用戶購買情況的數據,並且數據量在不斷激增。對市場營銷來說,通過數據分析了解客戶購物行為的一些特徵,對提高競爭力及促進銷售是大有幫助的。利用數據挖掘技術通過對用戶數據的分析,可以得到關於顧客購買取向和興趣的信息,從而為商業決策提供了可靠的依據。數據挖掘在營銷業上的應用可分為兩類:資料庫營銷(database markerting)和貨籃分析(basket analysis)。資料庫營銷的任務是通過互動式查詢、數據分割和模型預測等方法來選擇潛在的顧客,以便向它們推銷產品。通過對已有的顧客數據的辱淅,可以將用戶分為不同級別,級別越高,其購買的可能性就越大。貨籃分析
是分析市場銷售數據以識別顧客的購買行為模式,例如:如果A商品被選購,那麼B商品被購買的可能性為95%,從而幫助確定商店貨架的布局排放以促銷某些商品,並且對進貨的選擇和搭配上也更有目的性。這方面的系統有:Opportunity Ex-plorer,它可用於超市商品銷售異常情況的因果分析等,另外IBM公司也開發了識別顧客購買行為模式的一些工具(IntdligentMiner和QUEST中的一部分)。
2.金融投資。典型的金融分析領域有投資評估和股票交易市場預測,分析方法一般採用模型預測法(如神經網路或統計回歸技術)。代寫碩士論文由於金融投資的風險很大,在進行投資決策時,更需要通過對各種投資方向的有關數據進行分析,以選擇最佳的投資方向。無論是投資評估還是股票市場預測,都是對事物發展的一種預測,而且是建立在對數據的分析基礎之上的。數據挖掘可以通過對已有數據的處理,找到數據對象之間的關系,然後利用學習得到的模式進行合理的預測。這方面的系統有Fidelity Stock Selector和LBS Capital Management。前者的任務是使用神經網路模型選擇投資,後者則使用了專家系統、神經網路和基因演算法技術來輔助管理多達6億美元的有價證券。
3.欺詐甄別。銀行或商業上經常發生詐騙行為,如惡性透支等,這些給銀行和商業單位帶來了巨大的損失。對這類詐騙行為進行預測可以減少損失。進行詐騙甄別主要是通過總結正常行為和詐騙行為之間的關系,得到詐騙行為的一些特性,這樣當某項業務符合這些特徵時,可以向決策人員提出警告。
這方面應用非常成功的系統有:FALCON系統和FAIS系統。FALCON是HNC公司開發的信用卡欺詐估測系統,它已被相當數量的零售銀行用於探測可疑的信用卡交易;FAIS則是一個用於識別與洗錢有關的金融交易的系統,它使用的是一般的政府數據表單。此外數據挖掘還可用於天文學上的遙遠星體探測、基因工程的研究、web信息檢索等。
結束語
隨著資料庫、人工智慧、數理統計及計算機軟硬體技術的發展,數據挖掘技術必能在更多的領域內取得更廣泛的應用。
參考文獻:
[1]閆建紅《資料庫系統概論》的教學改革與探索[J].山西廣播電視大學學報,2006,(15):16—17.
7. 股票市場搞數據挖掘,數據分析來炒股有沒機會
有機會,而且機會不小,但是我等散戶靠數據分析,可能自身實力差的太懸殊了。
硬體設備就不達標哦。
8. 「基於數據挖掘的股票交易分析--模型分析」 這個題目,是什麼意思 哪位哥們,能給點具體解釋么
很難寫,主要牽涉到數據挖掘(軟體)和股票交易兩方面的專業。數據挖掘需要設計軟體進行建模,而股票交易需要進行實證(博士論文都可以寫了)。
建議:可以寫基於統計挖掘的股票交易分析--模型分析,這樣就簡單多了,只需要在股票軟體上得出一些統計數據,然後進行驗證就可以了,可操作性強。
9. 求推薦一個好的股票數據分析網站
大散戶——股市數據挖掘網,基本的一些數據分析都有了。
10. 如何獲得股票行情數據,自己編程處理進行數據挖掘
行情數據可到通達信或者同花順觀看