⑴ 數據倉庫中查詢與分析模式是什麼樣的
星形模式是基於關系資料庫的數據倉庫中的一個著名概念,由於星形連接模式的設計思想能夠滿足人們從不同觀察角度(維)分析數據的需求,所以在基於關系資料庫的數據倉庫的設計中廣泛地使用了星形模式。
在使用數據倉庫來回答綜合性問題的場合,通常可以使用OLAP工具實現記錄不多的較高粒度表的維度旋轉來滿足不同分析的需要;
而在數據倉庫中較高粒度表中記錄非常多或者還要經常回答細節問題的場合,則還必須對數據倉庫中記錄非常多的較高粒度的表或者細節級表進行維度轉換。
但通常的OLAP工具難以處理幾十萬條記錄數據表的維度旋轉,針對這種應用場合,筆者提出了一種」有選擇地使用維的星形模式」,在事實表中避開使用要旋轉的維,用存貯過程編寫程序高效地實現OLAP工具相應的功能,對星形模式下維的使用原則做出了一定的探索。
⑵ 哪些商業應用在數據倉庫中即使擁有過期的數據也依然有效
在大數據成為趨勢,成為國家戰略的今天,如何最大限度發揮大數據的價值成為人們思考的問題。無論是對於互聯網企業、電信運營商還是數量眾多的初創企業而言,大數據的變現顯得尤為重要。誰最先一步找到密碼,誰就能夠搶占市場,贏得發展。在探索大數據商業模式的同時,大數據正加速在各行各業的應用,大數據不僅為人們的購物、出行、交友提供了幫助,甚至還在高考這樣重要的事件中發揮作用。大數據產業具有無污染、生態友好、低投入高附加值特點,對於我國轉變過去資源因素型經濟增長方式、推進「互聯網+」行動計劃、實現國家製造業30年發展目標有戰略意義。前幾年,國內大數據產業討論較多、落地較少,商業模式處於初探期,行業處於兩種極端:一種是過熱的浮躁帶來了一定的泡沫和產業風險;一種是懷疑大數據只是炒作,依然堅持傳統管理理念、經營模式。但是進入2015年之後,大數據產業告別了泡沫,進入更務實的發展階段,從產業萌芽期進入了成長期。當前,如何將大數據變現成為業界探索的重要方向。B2B大數據交易所國內外均有企業在推動大數據交易。目前,我國正在探索「國家隊」性質的B2B大數據交易所模式。2014年2月20日,國內首個面向數據交易的產業組織—中關村大數據交易產業聯盟成立,同日,中關村數海大數據交易平台啟動,定位大數據的交易服務平台。2015年4月15日,貴陽大數據交易所正式掛牌運營並完成首批大數據交易。貴陽大數據交易所完成的首批數據交易賣方為深圳市騰訊計算機系統有限公司、廣東省數字廣東研究院,買方為京東雲平台、中金數據系統有限公司。2015年5月26日,在2015貴陽國際大數據產業博覽會暨全球大數據時代貴陽峰會上,貴陽大數據交易所推出《2015年中國大數據交易白皮書》和《貴陽大數據交易所702公約》,為大數據交易所的性質、目的、交易標的、信息隱私保護等指明了方向,奠定了大數據金礦變現的產業基礎。咨詢研究報告國內咨詢報告的數據大多來源於國家統計局等各部委的統計數據,由專業的研究員對數據加以分析、挖掘,找出各行業的定量特點進而得出定性結論,常見於「市場調研分析及發展咨詢報告」,如「2015~2020年中國通信設備行業市場調研分析及發展咨詢報告」、「2015~2020年中國手機行業銷售狀況分析及發展策略」、「2015年光纖市場分析報告」等,這些咨詢報告面向社會銷售,其實就是O2O的大數據交易模式。各行各業的分析報告為行業內的大量企業提供了智力成果、企業運營和市場營銷的數據參考,有利於市場優化供應鏈,避免產能過剩,維持市場穩定。這些都是以統計部門的結構化數據和非結構化數據為基礎的專業研究,這就是傳統的一對多的行業大數據商業模式。數據挖掘雲計算軟體雲計算的出現為中小企業分析海量數據提供了廉價的解決方案,SaaS模式是雲計算的最大魅力所在。雲計算服務中SaaS軟體可以提供數據挖掘、數據清洗的第三方軟體和插件。業內曾有專家指出,大數據=海量數據+分析軟體+挖掘過程,通過強大的各有千秋的分析軟體來提供多樣性的數據挖掘服務就是其盈利模式。國內已經有大數據公司開發了這些架構在雲端的大數據分析軟體:它集統計分析、數據挖掘和商務智能於一體,用戶只需要將數據導入該平台,就可以利用該平台提供的豐富演算法和模型,進行數據處理、基礎統計、高級統計、數據挖掘、數據制圖和結果輸出等。數據由系統統一進行管理,能夠區分私有和公有數據,可以保證私有數據只供持有者使用,同時支持多樣數據源接入,適合分析各行各業的數據,易學好用、操作界面簡易直觀,普通用戶稍做了解即可使用,同時也適合高端用戶自己建模進行二次開發。大數據咨詢分析服務機構及企業規模越大其擁有的數據量就越大,但是很少有企業像大型互聯網公司那樣有自己的大數據分析團隊,因此必然存在一些專業型的大數據咨詢公司,這些公司提供基於管理咨詢的大數據建模、大數據分析、商業模式轉型、市場營銷策劃等,有了大數據作為依據,咨詢公司的結論和咨詢成果更加有說服力,這也是傳統咨詢公司的轉型方向。比如某國外大型IT研究與顧問咨詢公司的副總裁在公開場合曾表示,大數據能使貴州農業節省60%的投入,同時增加80%的產出。該公司能做出這樣的論斷當然是基於其對貴州農業、天氣、土壤等數據的日積月累以及其建模分析能力。政府決策咨詢智庫黨的十八屆三中全會通過的《中共中央關於全面深化改革若乾重大問題的決定》明確提出,加強中國特色新型智庫建設,建立健全決策咨詢制度。這是中共中央文件首次提出「智庫」概念。近幾年,一批以建設現代化智庫為導向、以服務國家發展戰略為目標的智庫迅速成立,中國智庫數量從2008年的全球第12位躍居當前第2位。大數據是智庫的核心,沒有了數據,智庫的預測和分析將為無源之水。在海量信息甚至泛濫的情況下,智庫要提升梳理、整合信息的能力必然需要依靠大數據分析。研究認為,93%的行為是可以預測的,如果將事件數字化、公式化、模型化,其實多麼復雜的事件都是有其可以預知的規律可循,事態的發展走向是極易被預測的。可見,大數據的應用將不斷提高政府的決策效率和決策科學性。自有平台大數據分析隨著大數據的價值被各行各業逐漸認可,擁有廣大客戶群的大中型企業也開始開發、建設自有平台來分析大數據,並嵌入到企業內部的ERP系統信息流,由數據來引導企業內部決策、運營、現金流管理、市場開拓等,起到了企業內部價值鏈增值的作用。在分析1.0時代,數據倉庫被視作分析的基礎。2.0時代,公司主要依靠Hadoop集群和NoSQL資料庫。3.0時代的新型「敏捷」分析方法和機器學習技術正在以更快的速度來提供分析結果。的企業將在其戰略部門設置首席分析官,組織跨部門、跨學科、知識結構豐富、營銷經驗豐富的人員進行各種類型數據的混合分析。大數據投資工具證券市場行為、各類指數與投資者的分析、判斷以及情緒都有很大關系。2002年諾貝爾經濟學獎授予了行為經濟學家卡尼曼和實驗經濟學家史密斯,行為經濟學開始被主流經濟學所接受,行為金融理論將心理學尤其是行為科學理論融入金融中。現實生活中擁有大量用戶數據的互聯網公司將其論壇、博客、新聞報道、文章、網民用戶情緒、投資行為與股票行情對接,研究的是互聯網的行為數據,關注熱點及市場情緒,動態調整投資組合,開發出大數據投資工具,比如大數據類基金等。這些投資工具直接將大數據轉化為投資理財產品。定向采購線上交易平台數據分析結果很多時候是其他行業的業務基礎,國內目前對實體經濟的電子商務化已經做到了B2C、C2C、B2B等,甚至目前O2O也越來越流行,但是對於數據這種虛擬商品而言,目前還沒有具體的線上交易平台。比如服裝製造企業針對某個省份的市場,需要該市場客戶的身高、體重的中位數和平均數數據,那麼醫院體檢部門、專業體檢機構就是這些數據的供給方。通過獲取這些數據,服裝企業將可以開展精細化生產,以更低的成本生產出貼合市場需求的服裝。假想一下,如果有這樣一個「大數據定向采購平台」,就像淘寶購物一樣,可以發起買方需求,也可以推出賣方產品,通過這樣的模式,外加第三方支付平台,「數據分析結論」這種商品就會悄然而生,這種商品不佔用物流資源、不污染環境、快速響應,但是卻有「供」和「需」雙方巨大的市場。而且通過這種平台可以保障基礎數據安全,大數據定向采購服務平台交易的不是底層的基礎數據,而是通過清洗建模出來的數據結果。所有賣方、買方都要實名認證,建立誠信檔案機制並與國家信用體系打通。非營利性數據徵信評價機構在國家將公民信息保護納入刑法范圍之前,公民個人信息經常被明碼標價公開出售,並且形成了一個「灰色產業」。為此,2009年2月28日通過的刑法修正案(七)中新增了出售、非法提供公民個人信息罪,非法獲取公民個人信息罪。該法條中特指國家機關或者金融、電信、交通、教育、醫療等單位的工作人員,不得將公民個人信息出售或非法提供給他人。而公民的信息在各種考試中介機構、房產中介、釣魚網站、網站論壇依然在出售,詐騙電話、騷擾電話、推銷電話在增加運營商話務量的同時也在破壞整個社會的信用體系和公民的安全感。雖然數據交易之前是交易所規定的經過數據清洗的數據,但是交易所員工從本質上是無法監控全國海量的數據的。數據清洗只是對不符合格式要求的數據進行清洗,主要有不完整的數據、錯誤的數據、重復的數據三大類。因此,建立非營利性數據徵信評價機構是非常有必要的,將數據徵信納入企業及個人徵信系統,作為全國徵信系統的一部分,避免黑市交易變成市場的正常行為。除了徵信評價機構之外,未來國家公共安全部門也許會成立數據安全局,納入網路警察范疇,重點打擊將侵犯企業商業秘密、公民隱私的基礎數據進行數據販賣的行為。結語:大數據已經從論壇串場、浮躁的觀點逐步走向國家治理體系建設、營銷管理、生產管理、證券市場等方面,其商業模式也多種多樣。市場經驗表明,存在買賣就存在商品經濟,具體哪種商業模式佔主流將由市場決定。而最終的事實將證明,大數據交易商品經濟必然成為「互聯網+」的重要組成部分。
⑶ 數據倉庫和數據挖掘技術在企業管理中的典型應用分析
它能有效地從大量的、不完全的、模糊的實際應用數據中,提取隱含在其中的潛在有用的信息和知識,揭示出大量數據中復雜的和隱藏的關系,為決策提供有用的參...探討管理會計中應用數據挖掘技術的可行性,探討數據挖掘技術在管理會計中應...
⑷ 資料庫,數據倉庫和數據挖掘技術之間的區別
先說說數據倉庫和數據挖掘的關系,再說說資料庫與數據倉庫的關系
數據倉庫與數據挖掘的聯系
(1) 數據倉庫為數據挖掘提供了更好的、更廣泛的數據源。
(2) 數據倉庫為數據挖掘提供了新的支持平台。
(3) 數據倉庫為更好地使用數據挖掘這個工具提供了方便。
(4) 數據挖掘為數據倉庫提供了更好的決策支持。
(5) 數據挖掘對數據倉庫的數據組織提出了更高的要求。
(6) 數據挖掘還為數據倉庫提供了廣泛的技術支持。
數據倉庫與數據挖掘的差別
(1) 數據倉庫是一種數據存儲和數據組織技術, 提供數據源。
(2) 數據挖掘是一種數據分析技術, 可針對數據倉庫中的數據進行分析。
1、資料庫:是一種邏輯概念,用來存放數據的倉庫,通過資料庫軟體來實現。資料庫由很多表組成,表是二維的,一張表裡面有很多欄位。欄位一字排開,對數據就一行一行的寫入表中。資料庫的表,在於能夠用二維表現多維的關系。如:oracle、DB2、MySQL、Sybase、MSSQL Server等。
2、數據倉庫:是資料庫概念的升級。從邏輯上理解,資料庫和數據倉庫沒有區別,都是通過資料庫軟體實現存放數據的地方,只不過從數據量來說,數據倉庫要比資料庫更龐大德多。數據倉庫主要用於數據挖掘和數據分析,輔助領導做決策;
區別主要總結為以下幾點:
1.資料庫只存放在當前值,數據倉庫存放歷史值;
2.資料庫內數據是動態變化的,只要有業務發生,數據就會被更新,而數據倉庫則是靜態的歷史數據,只能定期添加、刷新;
3.資料庫中的數據結構比較復雜,有各種結構以適合業務處理系統的需要,而數據倉庫中的數據結構則相對簡單;
4.資料庫中數據訪問頻率較高,但訪問量較少,而數據倉庫的訪問頻率低但訪問量卻很高;
5.資料庫中數據的目標是面向業務處理人員的,為業務處理人員提供信息處理的支持,而數據倉庫則是面向高層管理人員的,為其提供決策支持;
6.資料庫在訪問數據時要求響應速度快,其響應時間一般在幾秒內,而數據倉庫的響應時間則可長達數幾小時
⑸ 簡述資料庫 數據倉庫 和數據挖掘三者之間的關系
先說說數據倉庫和數據挖掘的關系,再說說資料庫與數據倉庫的關系
數據倉庫與數據挖掘的聯系
(1) 數據倉庫為數據挖掘提供了更好的、更廣泛的數據源。
(2) 數據倉庫為數據挖掘提供了新的支持平台。
(3) 數據倉庫為更好地使用數據挖掘這個工具提供了方便。
(4) 數據挖掘為數據倉庫提供了更好的決策支持。
(5) 數據挖掘對數據倉庫的數據組織提出了更高的要求。
(6) 數據挖掘還為數據倉庫提供了廣泛的技術支持。
數據倉庫與數據挖掘的差別
(1) 數據倉庫是一種數據存儲和數據組織技術, 提供數據源。
(2) 數據挖掘是一種數據分析技術, 可針對數據倉庫中的數據進行分析。
1、資料庫:是一種邏輯概念,用來存放數據的倉庫,通過資料庫軟體來實現。資料庫由很多表組成,表是二維的,一張表裡面有很多欄位。欄位一字排開,對數據就一行一行的寫入表中。資料庫的表,在於能夠用二維表現多維的關系。如:oracle、DB2、MySQL、Sybase、MSSQL Server等。
2、數據倉庫:是資料庫概念的升級。從邏輯上理解,資料庫和數據倉庫沒有區別,都是通過資料庫軟體實現存放數據的地方,只不過從數據量來說,數據倉庫要比資料庫更龐大德多。數據倉庫主要用於數據挖掘和數據分析,輔助領導做決策;
區別主要總結為以下幾點:
1.資料庫只存放在當前值,數據倉庫存放歷史值;
2.資料庫內數據是動態變化的,只要有業務發生,數據就會被更新,而數據倉庫則是靜態的歷史數據,只能定期添加、刷新;
3.資料庫中的數據結構比較復雜,有各種結構以適合業務處理系統的需要,而數據倉庫中的數據結構則相對簡單;
4.資料庫中數據訪問頻率較高,但訪問量較少,而數據倉庫的訪問頻率低但訪問量卻很高;
5.資料庫中數據的目標是面向業務處理人員的,為業務處理人員提供信息處理的支持,而數據倉庫則是面向高層管理人員的,為其提供決策支持;
6.資料庫在訪問數據時要求響應速度快,其響應時間一般在幾秒內,而數據倉庫的響應時間則可長達數幾小時
⑹ 數據倉庫在證券業如何應用
那麼究竟數據倉庫的「行」在何處:它可以為我們帶來什麼?為什麼「不行」:它的應用為什麼不能達到其預期的效果?怎樣才能使數據倉庫從「不行」的模式轉到到「行」的模式?本文試對此進行探討,並認為數據的集中統一是數據倉庫應用的基礎;確立合理的數據模型是數據倉庫應用的核心;高效的應用系統是數據倉庫應用的動力;良好的外部環境是數據倉庫成功應用的外部保障。 數據倉庫的「行」 這里所說的數據倉庫的「行」主要是指數據倉庫可以做什麼,它的使用能為證券業帶來哪些好處,為什麼對券商來說是一個行之有效的工具。 數據倉庫(Data Warehouse)是在資料庫基礎上發展而來的,是一個面向主題的、集成的、穩定的、不同時期的數據集合,用以支持企業經營管理中的決策過程。它通常由三個部分構成:數據倉庫、聯機分析處理及數據挖掘,它們之間具有極強的互補關系。數據倉庫用來對大量的數據按一定的結構進行組織存儲;聯機分析處理則可進行靈活豐富的多維分析與查詢,可以從不同的角度去分析企業的運作情況,並對未來進行預測;數據挖掘則是對現有數據進行深層次的研究分析,從中找出對經營管理有用的結論。 由上述對數據倉庫的敘述,不難看出特別是對券商這種數據密集型的企業而言,數據倉庫技術的應用在以下三個方面有其得天獨厚之處和現實的意義: 提升客戶服務 雖然大部分券商已積累了大量的客戶信息和交易數據,但現在還沒有辦法對客戶的貢獻度、盈虧情況、持倉情況及操作習慣等進行統計和分析,為客戶提供針對其個人習慣的投資組合建議。而通過建立數據倉庫,為客戶資料的統計分析提供基本的信息源和輔助工具,已成為券商提高市場競爭能力和客戶服務水平的關鍵。 提高資產質量 數據倉庫中強大的分析和預測功能為此提供了有力的支持,可根據股市行情走勢、上市公司的資料以及宏觀微觀經濟數據等對未來市場進行預測,為客戶和自有資產的經營管理提供合理的建議,從而有效地提高資產質量、防範經營風險。 降低成本 數據倉庫的建立可使券商更加及時、准確地掌握自身的經營狀況、資金情況、利潤情況、客戶群分布等重要的信息,從而能有效地提高管理水平、降低經營成本,使整個證券公司的經營管理更加高效、科學、規范。 數據倉庫的「不行」 雖然從理論上說數據倉庫技術的應用可以為券商帶來很大的收益,但實際情況卻並不盡如人意,完全意義上的數據倉庫的應用在證券業中還鮮有成功的案例,這也使得相當部分券商對它「望而卻步」,為什麼數據倉庫從「行」變成了「不行」,不能有效發揮其應有的作用呢?究其主要原因就是數據倉庫技術沒有做到與證券業務的有機融合 。 系統平台不統一 目前大部分券商所用的業務系統平台並不統一,如交易系統用一種軟體,清算系統又用另一種軟體,還有的證券公司中各家營業部所採用的業務系統的平台也不一樣,而且大部分採用的都是分布的管理模式,這種情況造成了數據的分散、數據結構的多樣。而數據倉庫的基礎是大量集中的、豐富的、按統一規則組織存放的數據,分散的、結構不同的數據使得數據採集困難,數據倉庫不能有效地發揮其作用。 技術與業務部門欠協調 數據倉庫的提出和應用通常都是技術部門在其中扮演重要角色,業務部門參與得較少,但實際上沒有業務部門與技術部門之間的很好協調,數據倉庫是不可能應用成功的。因為數據倉庫技術是管理科學、計算機科學、網路科學和分析手段的大融合,從技術上來說資料庫技術的發展已使數據倉庫的實現並不困難,而關鍵在於怎樣使用它。數據倉庫的成功使用離不開管理思想和業務經驗的完美結合,在有了相應的技術支持以後,只有同時具備豐富的業務經驗和先進的管理思想的使用者才能成功使用數據倉庫,得到有用的信息。 缺乏管理經驗 數據倉庫不乏失敗的案例,如美國在對越戰爭中根據越軍對美軍攻擊的時間和次數而得出了一個「越軍在有月亮的晚上最易展開攻擊」的無用結論。數據倉庫使用時一個重要問題是建立模型,數據倉庫的產品一般可使用多種建模方法,如關聯法、依賴法、時序法、神經網路以及利用統計分析等等,然後利用模型去對問題進行分析得出相應結論,建立在數據倉庫之上的系統都是決策支持系統。而要進行決策,針對一個具體的問題怎樣分析,從什麼角度進行分析,何種因素是主要的、何種因素是次要的,採用何種方法建模以及怎樣建模都要依使用者的經驗而定,這就要求使用者對相關的業務非常熟悉並具備相應的管理和分析能力,否則得出的結論就很可能是無用的。而對我國大部分券商而言,缺少的恰好就是這種經驗,而且券商經營管理中的不規范也為數據倉庫的成功應用增加了難度。 受政策影響較大 人們將市場對經濟的自動調節比喻為「一隻看不見的手」,而股市則是反映經濟情況的晴雨表,經濟學家一直試圖通過對市場的研究找出經濟發展的規律,數據倉庫的主要效用之一也就是通過對已有數據的分析藉以揭示市場內在的發展規律,從而得出市場可能的走向。但縱觀中國證券市場十多年的風風雨雨,國家政策與宏觀調控這只「看得見的手」在其中起了舉足輕重的作用,當然這是由於我國證券市場先天基礎不好,發展不規范使得國家不得不採取措施加以調整,但這也使得證券市場無可避免地打上了國家政策的烙印。這種情況下,單純根據市場規律,用數據倉庫進行分析得到的預測結果與實際情況就會有所偏差。 從「不行」到「行」 如何將數據倉庫的「不行」變為「行」,使其在我國的證券業發展中發揮巨大的作用,是廣大券商普遍關心的一個問題 。那麼在找出「不行」的原因之後我們就可「對症下葯」採取相應的措施了。 數據的集中統一是數據倉庫應用的基礎。首先要統一券商所用信息系統的平台,各營業部均應採用統一的系統平台,同時各業務系統也採用統一的平台,統一數據結構。並採用集中的經營管理模式,使所有的數據都按相同的結構集中存放在一起,方便數據採集,做好數據倉庫應用的基礎工作。 確立合理的數據模型是數據倉庫應用的核心。電腦技術人員知道數據倉庫可以「做什麼」,業務人員則知道具體的分析要「怎麼做」,為此應將技術部門與相關的業務部門進行很好的協調,充分發揮技術人員和業務人員的優勢,根據證券業和本公司的具體情況選用合適的方法建立模型,這些模型經過檢驗正確後就可作為整個數據倉庫的核心,為經營管理提供決策建議。 高效的應用系統是數據倉庫應用的動力。數據模型建好以後,要使其發揮應有的作用就應在其上建立相應的應用系統,包括客戶關系管理系統、市場分析和風險控制系統等等,只有當建立於數據倉庫基礎之上的應用系統在券商的發展中起了很好的作用以後,證券公司的老總們才能充分意識到數據倉庫的重要性,這就是數據倉庫應用發展的動力所在。 良好的外部環境是數據倉庫成功應用的外部保障。令人欣慰的是國家已意識到證券市場健康穩定的重要性,證監會等領導機構對券商和上市公司的要求越來越嚴格,監管力度不斷加強,這一切都促使中國股市朝健康穩定的方向發展。我們有理由相信隨著我國證券市場的逐步規范,股市也必將按市場規律進行發展,數據倉庫就會發揮越來越大的作用。 結束語 數據倉庫的應用在國外取得了很大的成功,但中國與外國在數據倉庫的應用環境方面有很大的區別,所以數據倉庫在中國的應用成功的案例並不多。為了促進這項技術在證券業的成功應用,除了證監會等領導機構對證券市場進行規范為其創造良好的外部環境之外,更重要的是各證券公司注意業務系統平台的集中統一和技術與業務的有機融合,做好數據倉庫應用的准備,勇敢面對加入WTO所帶來的挑戰。
⑺ 請問數據挖掘在證券投資分析中的應用
證券股票的趨勢,股票關聯等
⑻ 求數據挖掘的論文!
數據挖掘、OLAP在財務決策中的應用
楊春華
(杭州商學院財務與會計學院,杭州,310012)
[摘要]數據挖掘、OLAP是當前基於大型資料庫或數據倉庫的新型信息分析技術,在許多領域得到廣泛應用,取得了很好的成效。如何將其應用於財務決策以提高決策的正確性、及時性,降低決策的風險,已成為財務管理領域的重要研究課題。本文在介紹數據挖掘、OLAP技術及其相互關系的基礎上,分析了財務決策領域應用這兩種技術的現實必要性,並進一步論述了財務決策中數據挖掘和OLAP的應用流程。
[Abstract]In this paper, the author introced Data Mining and OLAP at first. And then, the author analyzed the practical necessity for the firms to apply these two techniques in the area of financial decision-making. In the end, the author brought forward the flow of the appliance.
[關鍵詞]數據挖掘,聯機分析處理,財務決策
[Key words]Data Mining,OnLine Analysis Process(OLAP),Financial Decision-making
正文
隨著計算機技術和Internet技術的發展,以及企業在以往事務型處理中數據的不斷積累,一方面企業數據資源日益豐富,信息超載,另一方面數據資源中蘊涵的知識企業卻至今未能得到充分的挖掘和利用,「數據豐富而知識貧乏」是常見現象。如何才能不被信息的汪洋大海所淹沒,並能從中及時發現有用的知識,提高信息的利用效率,已成為企業急需面對的一個問題。正是在這種背景下,數據挖掘、OLAP技術應運而生。這是兩種基於大量資料庫或數據倉庫的新型數據分析技術。將其應用到財務決策領域則有利於提高決策的正確性、及時性,降低決策的風險。
一、數據挖掘與OLAP
1.數據挖掘
關於數據挖掘,一種較為公認的定義是由G.Piatetsky-Shapiro等人提出的。他們認為:數據挖掘是從大型資料庫中提取人們感興趣的知識,這些知識是隱含的、事先不知的,潛在有用的信息。數據挖掘涉及到機器學習、模式識別、統計學、智能資料庫、知識獲取、數據可視化、高性能計算、專家系統等各個領域。它不僅面向特定資料庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。這樣一來,就把人們對數據的應用從低層次的末端查詢操作,提高到為各級經營決策者提供決策支持。
2.OLAP
聯機分析處理(OLAP)的概念最早是由關系資料庫之父E.F.Codd於1993年提出的,它是基於大型資料庫或數據倉庫的信息分析過程,是大型資料庫或數據倉庫的用戶介面部分,其目的是滿足決策支持或多維環境特定的查詢和報表要求。簡單地講,OLAP就是共享多維信息的快速分析。它是跨部門、面向主題的,其基本特點是快速性、可分析性、多維性、信息性和共享性。也就是說,OLAP能快速響應用戶的要求,能處理與應用有關的任何邏輯分析和統計分析,能提供多維數據分析的多維視圖,能及時獲得信息和管理大容量的信息,以及能在大量用戶群中共享潛在的數據。其中「多維性」是其核心靈魂。
3.數據挖掘與OLAP
數據挖掘和OLAP都是基於大型資料庫或數據倉庫的數據分析技術,有著一定的聯系和區別。數據挖掘和OLAP最本質的區別在於,數據挖掘是一種挖掘性的分析工具,它主要是利用各種分析方法主動地去挖掘大量數據中蘊涵的規律,產生一些假設,幫助人們在這些假設的基礎上更有效地進行決策;而OLAP則是一種求證性的分析工具,一般由用戶預先設定一些假設,然後使用OLAP去驗證這些假設,提供可以使用戶很方便地進行數據分析的手段。但就工具而言,數據挖掘和OLAP這兩種分析工具本身又是相輔相成的,且界限正在逐漸模糊。OLAP的分析結果可以補充到系統知識庫中,給數據挖掘提供分析信息並作為數據挖掘的依據;數據挖掘發現的知識可以指導OLAP的分析處理,拓展OLAP分析的深度,以便發現OLAP所不能發現的更為復雜、細致的信息。
二、財務決策中應用數據挖掘、OLAP的必要性
財務決策是企業決策中最重要的組成部分之一。任何好的財務決策都需要事實和數字支持。一個財務決策的正確程度取決於所使用的事實和數字的正確程度。隨著競爭的增加,財務決策的時效性也變得越來越重要了。因此,在財務決策領域應用數據挖掘、OLAP是企業現實的需要。
1.有利於提高財務信息的利用能力。
解決企業財務決策問題需要詢問為中心的數據圖解,其以序列導向和多維為特徵。而傳統的財務數據查詢是一種事務處理(OLTP),它是面向應用,支持日常操作的,對查詢得到的數據信息缺乏分析能力,決策者不能夠在大量歷史數據的支持下對某一主題的相關數據進行多角度的比較、分析,得出科學的分析結果。因此,財務決策問題自身的多維特性驅動了數據挖掘、OLAP在其領域的應用,以提高財務信息的利用能力。
2.有利於解決財務信息的噪音問題。
科學財務決策必須以盡可能真實、及時、充分的信息為依據。這些信息既包括諸如企業目標、企業現狀、事物狀況等企業的內部資料,又包括諸如客戶、供應商等企業的關聯方資料,還包括諸如市場等企業所需的外部資料。由於網路技術的發展,企業可以通過Intranet、Extranet、Internet方便獲取各種企業內部、關聯方及外部資料。因此,現今的問題已不是信息缺乏,而是信息過量,難以消化,且信息真假難辨,可靠性難以保證。所以,對企業來說,這時就需要高效的數據分析工具——數據挖掘、OLAP在浩瀚的信息流中分辨、析取、整理、挖掘對財務決策有用的信息,減少信息噪音的影響。
3.有利於滿足財務信息智能化的需求。
由於決策本身的動態性、復雜性,決策者本身素質層次的多樣性,不同的情況應有不同的處理方式。傳統的數據析取是依靠程序人員在系統開發過程中設計的專用程序來實現,非常機械化。隨著數據量的增大,查詢的復雜化,這種方式越來越不可取。決策者希望信息的析取過程能夠智能化,如不僅能對自己想到的信息進行訪問,還能對自己想不到卻需要的信息進行訪問,對同樣數據進行多次訪問時,不必須做重復操作;不同決策者作相似訪問時,也不必進行重復操作等。數據挖掘能夠利用現有的數據來獲取新的有用信息,支持查詢、存儲的優化,使信息的析取具有較強的自我學習功能,滿足財務信息智能化的需求。
三、財務決策中數據挖掘、 OLAP的應用流程
1.基於數據挖掘、OLAP的財務決策支持系統模型
數據挖掘、OLAP是在大型資料庫或數據倉庫基礎上進行深入的數據分析,從而獲取海量數據中隱藏的關鍵信息的主要手段。因此,為了進一步提高財務決策的支持能力,可以將它們結合起來構成一種新型的財務決策支持框架,如圖1所示。
這個模型中,在數據倉庫為財務決策提供完整、及時、准確和明了的綜合數據的基礎上,OLAP
圖1 基於數據挖掘、OLAP的財務決策支持系統
通過進行有效集中分析和深入研究,可以發現趨勢,看到異常,並得到重要細節,而數據挖掘則可通過使用一系列方法進行分析,從中識別和抽取隱含、潛在的有用知識,並充分利用這些知識輔助財務決策。
2.財務決策中數據挖掘流程
財務決策中的數據挖掘流程一般由財務決策問題識別、數據准備、數據開采和結果表達和解釋四個主要階段構成,如圖2所示。
圖2 數據挖掘流程
(1)財務決策問題識別。典型的財務決策有投資決策、籌資決策、成本決策、銷售決策等。在進行數據挖掘前,必須先對具體財務決策問題進行識別,即要確定進行什麼決策、達到什麼樣的決策目標等。然後再將財務決策目標轉換成數據挖掘目標,並進行定義。
(2)數據准備。這個階段又可分成3個子步驟,即數據集成、數據選擇和數據預處理。數據集成是將多文件或多資料庫運行環境中的數據進行合並處理,解決語義模糊性、處理數據中的遺漏和清洗臟數據等。數據選擇的目的是辨別出需要分析的數據集合,縮小處理范圍,提高數據挖掘的質量。而預處理則是為了克服目前數據挖掘工具的局限性。
(3)數據採掘。這一階段主要進行實際的數據挖掘工作,主要包括決定如何產生假設、選擇合適的工具、發掘知識的操作和證實發現的知識等步驟。
(4)結果表達和解釋。根據用戶的財務決策目的對提取的信息進行分析,把最有價值的信息區分出來,並提交給用戶。如果結果不能讓決策者滿意,則重復進行上述過程。
3.財務決策支持中OLAP流程
財務決策中的OLAP流程一般由財務決策信息確認、維度分析、信息集成、數據切片和數據掘進五個主要階段構成,如圖3所示。
圖3 OLAP流程
(1)財務決策信息確認。在進行OLAP之前,必須先確認要查詢、分析的目標數據及其屬性,即事實和維。然後用事實表來存儲與之相關聯的維信息和事實信息。
(2)維度分析。對每個目標屬性做進一步的分析,如維的層次、成員類別等,並將這些信息用維表保存下來。維表與事實表通過關鍵字相關聯。
(3)信息集成。當維數增加和事實表增大時,採用一定的綜合、匯總等方法將信息進行集成,並用綜合表存儲。在綜合表中,數據由多維構成,每個維又劃分為多個匯總層次,所有元素及其層次關系構成樹型結構。各維的層次劃分,基本確定了每一維垂直的匯總路徑。
(4)數據切片。在綜合表中,將某一路徑與不同方向的其他若幹路徑作任意組合,就可實現面與塊的切割,獲取任意組合信息。
(6)數據掘進。在數據切片中,沿其中任一條路徑進行自上而下的分析,就可獲取相應的詳細信息。
參考文獻
[1]馬麗娜、劉弘、張希林. 數據挖掘、 OLAP在決策支持系統中的應用[J]. 計算機應用研究,2001,(11):10-12.
[2]胡彥. 基於數據倉庫的決策支持工具的比較研究[J]. 計算機應用,2000,20(6):20-24.
[3]喻鋼、周定康. 聯機分析處理(OLAP)技術的研究[J]. 計算機應用,2001,21(11):80-84.
[4]於丹. 數據挖掘走向Internet——孟小峰先生談面向Internet的數據挖掘技術[J]. 微電腦世界,2000,14(3):36-38.
[5]胡侃、夏紹瑋. 基於大型數據倉庫的數據採掘:研究綜述[J]. 軟體學報,1998,9(1):53-117.
[6]范小軍、王方華. 數據挖掘在營銷領域中的應用[J]. 外國經濟與管理,2001,23(12):38-42.
[7]劉明傑、張曉京、劉洪傑、王秀峰、王治寶. 數據倉庫在證券交易中的研究與應用[J].計算機工程,2000,26(2):47-49、94.
[8]李竹平、吳相林. 基於數據倉庫的企業管理型會計信息系統研究[J]. 華中理工大學學報,28(
⑼ 數據倉庫與數據挖掘問題
公眾交流平台
1 介紹
數據倉庫是面向主題的、集成的、與時間相關的、不可修改的數據集合。數據倉庫技術是基於信息系統業務發展的需要,基於資料庫系統技術發展而來,並逐步獨立的一系列新的應用技術。數據倉庫系統可以看作是基於數學及統計學嚴謹邏輯思維的並達成「科學的判斷、有效的行為」的一個工具,也是一種達成「數據整合、知識管理」的有效手段。隨著數據倉庫技術應用的不斷深入,越來越多的企業開始使用數據倉庫技術建設自己的數據倉庫系統,希望能對歷史數據進行具體而又有針對性的分析與挖掘,以期從中發現新客戶和客戶新的需求。
目前主要的數據倉庫產品供應商包括Oracle、IBM、Microsoft、SAS、Teradata、Sybase、Business Objects(已被SAP收購)等。Oracle公司的數據倉庫解決方案包含了業界領先的資料庫平台、開發工具和應用系統,能夠提供一系列的數據倉庫工具集和服務,具有多用戶數據倉庫管理能力,多種分區方式,較強的與OLAP工具的交互能力,及快速和便捷的數據移動機制等特性;IBM公司的數據倉庫產品稱為DB2 Data Warehouse Edition,它結合了DB2數據伺服器的長處和IBM的商業智能基礎設施,集成了用於倉庫管理、數據轉換、數據挖掘以及OLAP分析和報告的核心組件,提供了一套基於可視數據倉庫的商業智能解決方案;微軟的SQL Server提供了三大服務和一個工具來實現數據倉庫系統的整合,為用戶提供了可用於構建典型和創新的分析應用程序所需的各種特性、工具和功能,可以實現建模、ETL、建立查詢分析或圖表、定製KPI、建立報表和構造數據挖掘應用及發布等功能;SAS公司的數據倉庫解決方案是一個由30多個專用模塊構成的架構體系,適應於對企業級的數據進行重新整合,支持多維、快速查詢,提供服務於OLAP操作和決策支持的數據採集、管理、處理和展現功能;Teradata公司提出了可擴展數據倉庫基本架構,包括數據裝載、數據管理和信息訪問幾個部分,是高端數據倉庫市場最有力競爭者,主要運行在基於Unix操作系統平台的NCR硬體設備上;Sybase提供了稱為Warehouse Studio的一整套覆蓋整個數據倉庫建立周期的產品包,包括數據倉庫的建模、數據集成和轉換、數據存儲和管理、元數據管理和數據可視化分析等產品;Business Objects是集查詢、報表和OLAP技術為一身的智能決策支持系統,具有較好的查詢和報表功能,提供多維分析技術,支持多種資料庫,同時它還支持基於Web瀏覽器的查詢、報表和分析決策。
根據IDC發布的2006年數據倉庫市場分析報告,上述公司占據了全球近90%的市場份額,提供的數據倉庫產品的功能特性已經成為市場的主流。這些公司在推出各自的數據倉庫產品的同時也提供了相應的數據倉庫解決方案。本文後續內容將針對這些數據倉庫產品和解決方案的主要支撐技術進行比較,並結合IDC和ChinaBI相關報告給出相應的市場情況分析。
2 支撐技術
在數據倉庫系列技術中,主要的支撐技術包括資料庫技術、ETL技術、OLAP技術、報表技術、數據挖掘技術。
2.1 資料庫技術
資料庫技術是支撐數據倉庫技術的基礎技術。盡管在數據倉庫技術存儲模型方面,基於資料庫技術而發展的關系模式的理念已經被顛覆,取而代之是各種各樣的數據倉庫數據模型,如星型模型,雪花模型等。然而,在已有的數據倉庫實踐中,關系資料庫仍然是實質的資料庫存儲工具,只是將資料庫表改稱為了事實表和維表,將屬性域之間的關系重新定義為維度,量度,層次,粒度等。
成熟的數據倉庫後台資料庫包括Oracle、DB2、SQL Server、Teradata和Sybase IQ。在查詢效率方面,Sybase IQ由於採用了列存儲技術,查詢效率比較高;在兼容性方面,Teradata從軟體到硬體都必須是專用的,因而兼容性最差;在管理平台和海量數據管理方面,Oracle、DB2和SQL Server都提供了一系列完整的工具,相對於其它產品有著明顯的優勢;在磁碟空間利用方面,Sybase IQ的壓縮比是所有資料庫中最好的,而Teradata最為浪費。
另外,SAS公司和BO公司也擁有自己的數據管理能力,但對於大型數據倉庫的數據管理,仍然需要使用上述資料庫產品,SAS和BO都提供了與這些資料庫進行連接的專門介面。
2.2 ETL技術
數據倉庫系統是集成的、與時間相關的數據集合,ETL作為數據倉庫的核心,負責將分布的、異構數據源中的數據進行抽取、清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。ETL能夠按照統一的規則集成並提高數據的價值,是負責完成數據從數據源向目標數據倉庫轉化的過程,是實施數據倉庫的重要步驟。要實現數據倉庫中數據的自動更新運轉,ETL技術是必不可少的關鍵技術之一。
主流數據倉庫產品供應商都擁有各自的ETL能力。IBM的ETL工具稱為IBM WebSphere DataStage,它為整個ETL過程提供了一個圖形化的開發環境,支持對多種操作數據源的數據抽取、轉換和維護,並將其輸入數據集或數據倉庫;Teradata的ETL工具稱為ETL Automation,它利用Teradata資料庫本身的並行處理能力,通過SQL語句實現數據的轉換,提供對ETL流程的支持,包括前後依賴、執行和監控等;SAS的ETL工具稱為ETL Studio,提供管理ETL流程和建立數據倉庫、數據集市和OLAP結構的單控制點。其他幾家公司則將其工具融合在大的數據倉庫組件中,如Oracle的Oracle Warehouse Builder (OWB)、SQL Server的Integration Services、Sybase的Data Integration Suite、BO的可擴展數據整合平台Data Integrator。
上述各公司提供的ETL相關工具功能相近,在易用性、效率、價格等方面各有千秋,但就工具的二次開發、集成和開放性而言,與專業的數據集成平台,如Informatica公司的PowerCenter,相比還是存在一定的差距。
2.3 OLAP技術
聯機分析處理(OLAP)是針對特定問題的聯機數據訪問和分析,通過對信息進行快速、穩定、一致和互動式的存取,對數據進行多層次、多階段的分析處理,以獲得高度歸納的分析結果。聯機事務處理(OLTP)已不能滿足終端用戶對資料庫查詢分析的需要,SQL對大資料庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關系資料庫進行大量計算才能得到結果,而查詢的結果並不能滿足決策者提出的需求,由此出現了多維資料庫和多維分析的概念。
目前主流的OLAP產品有Oracle Express/Discoverer、SQL Server Analysis Services、DB2 OLAP Server、SAS OLAP Server等,這些產品都可以生成多維數據立方體,提供多維數據的快速分析,支持所有主流關系型資料庫如DB2,Oracle,SQL Server,Sybase等,同時可讀取關系資料庫中細節數據,實現混合在線分析(HOLAP)或關系型在線分析(ROLAP)。並且,各廠商的OLAP Sever對自己的資料庫產品的支持均好於其它資料庫,各自的分析工具也都基於開放的OLE DB標准,可以訪問支持OLE DB標準的數據立方體。
BO公司和Sybase公司則分別提供了各自的OLAP分析工具OLAP Intelligence和Power Dimension,支持標准OLAP API,如OLEDB for OLAP,能夠對Microsoft、IBM等OLAP數據進行劃分、鑽取等處理,兼容第三方報表和展現工具。Teradata盡管不提供獨立的OLAP工具,但提供了相關技術,用於提升運行於Teradata資料庫上的OLAP應用系統的性能。
2.4 報表技術
報表技術主要是將集成在數據模型里的數據,按照復雜的格式、指定行列統計項,計算形成的特殊表格。一般的簡單報表可以使用通用的前台展現技術實現,而復雜的報表則需要使用特定的報表技術。主流的報表技術都可以靈活的制定各種報表模版庫和指標庫,並根據每個區塊或單元格的需要引用指標,實現一系列復雜的符合要求的報表的自動生成。
主流數據倉庫廠商的報表工具中較為有影響包括IBM的Cognos ReportNet、BO的Crystal Reports、Oracle的Oracle Reports。IBM通過收購Cognos公司獲得了完整的報表產品Cognos ReportNet,覆蓋了各種報表需求,包括管理報表、商業報表、賬單和發票等;BO公司提供了一個完整的企業報表解決方案Crystal Reports Server,支持通過Web快速便捷的創建、管理和交付報表;Oracle Reports工具提供了自由的數據格式方式,可以自動生成個性化字母或矩陣風格的布局,包括動態、數據驅動的圖表;SQL Server的報表功能包含在Reporting Services (SSRS)中,包括處理組件、一整套可用於創建和管理報表的工具、在自定義應用程序中集成和擴展數據和報表處理的API。與上述產品相比,Sybase的InfoMaker、Teradata的BTEQ和SAS的Report Studio等報表產品在功能、性能、二次開發等方面都還存在著一定的差距。
總的來說,這些產品在大部分通用軟體領域相對國產軟體都要優秀,但在有中國特色的報表領域內卻是例外,在處理能力存在一定的不適應性。另外這些產品的數學模型都是基於SQL/OLAP理論設計的,在技術上也不能滿足國內復雜報表的製作需求。
2.5 數據挖掘技術
當數據積累到一定數量時,某些潛在聯系、分類、推導結果和待發現價值隱藏在其中,可以使用數據發掘工具幫助發現這些有價值的數據。數據挖掘就是從海量數據中,提取隱含在其中的、人們事先不知道的但又可能有用的信息和知識的過程。通過數據挖掘能找出資料庫中隱藏的信息,實現用模型來擬合數據、探索型數據分析,數據驅動型的發現,演繹型學習等功能。
目前,IBM公司的IBM Intelligent Miner支持典型數據集自動生成、關聯發現、序列規律發現、概念性分類和可視化呈現,可以自動實現數據選擇、數據轉換、數據發掘和結果呈現這一整套數據發掘操作;Oracle公司提供的數據挖掘平台稱為Oracle Data Miner,它提供了的一個圖形用戶界面,通過簡單易用的向導來指導完成數據准備、數據挖掘、模型評估和模型評價過程,根據需要自動生成將數據挖掘步驟轉換成一個集成的數據挖掘/BI應用程序所需的代碼;SAS公司的SAS Enterprise Miner將數據挖掘過程簡單流程化,支持關聯、聚類、決策樹、神經元網路和經典的統計回歸技術;Teradata公司的挖掘工具稱為Teradata Warehouse Miner,它通過將數據挖掘技術整合到數據倉庫來簡化數據挖掘流程,該工具還可實現將多家廠商的數據挖掘技術嵌入Teradata企業級數據倉庫環境中運行;Microsoft數據挖掘平台不同於傳統數據挖掘應用程序,它支持組織中數據的整個開發生命周期,允許第三方添加自定義演算法以支持特定的挖掘需求,支持實時根據挖掘的數據集進行數據驗證。對比於上述公司,Sybase和BO公司並沒有推出專門的數據挖掘平台或工具。
和前幾項支撐技術相比,數據挖掘技術的專業性更強,與應用領域的特殊背景結合得更加緊密。上述產品除了在性能、通用性、數據展示、二次開發上有一定差異外,沒有一個能夠占據絕對技術和市場優勢,反而是一些專門領域內的專業挖掘工具更具競爭性,如Fair Isaac公司占據了全球信用卡積分市場近7成的份額。
3 市場分析
國際權威市場分析機構IDC將數據倉庫平台工具市場細分為數據倉庫生成(Data Warehouse Generation)工具市場和數據倉庫管理(Data Warehouse Management)工具市場兩個部分,前者涵蓋數據倉庫的設計和ETL過程的各種工具,後者指數據倉庫後台資料庫的管理工具,如DBMS。根據IDC發布的《全球數據倉庫平台工具2006年度供應商市場份額》分析報告,2006年該市場增長率為12.5%,規模達到57億美元,其中數據倉庫生成工具和數據倉庫管理工具兩個市場的比重分別為23.3%和76.7%,相對於數據倉庫管理工具市場,數據倉庫生成工具市場的增長進一步放緩。可以預見,整個數據倉庫市場將進一步向擁有強大後台資料庫系統的傳統廠商傾斜。從供應商看,Oracle公司繼續占據數據倉庫管理領域的領先供應商地位,並且與其主要競爭者IBM之間的這種領先優勢正逐漸擴大。Microsoft緊追IBM之後,與其之間的差距則在逐漸縮小。
在國內,商業智能已經成為企業信息化中最重要的組成部分,而數據倉庫相關技術在其中扮演著無可替代的重要角色。據ChinaBI統計,2007年中國大陸地區的BI市場份額約為20億元人民幣,同比2006年增長35%,其中BI產品許可證約為9億元人民幣,BI系統集成約為11億元人民幣。現有BI廠商包括產品提供商、集成商、分銷商、服務商等有近500家,在未來幾年內商業智能市場需求旺盛,市場規模增長迅速。從國內數據倉庫實踐看,根據ChinaBI評選的2007年中國十大數據倉庫的初步結果,傳統資料庫廠商占據7個,分別是IBM 3個、Oracle 3個、SQL Server 1個,其餘3個屬於NCR/Teradata公司;從數據倉庫規模來看,傳統資料庫廠商更佔有巨大優勢,總數據量為536.3T,Teradata則為54T。涉及的行業包括通信、郵政、稅務、證券和保險等。
在數據倉庫市場快速發展的同時,市場競爭也日趨激烈,其中尤其以Oracle收購Hyperion、SAP收購BO、IBM收購Cognos具有代表意義。截至2007年底,混亂的市場已經基本明朗化,三個層次逐漸浮現出來。Oracle,IBM,Microsoft和SAP位居第一層次,能夠提供全面的解決方案;第二層次是NCR Teradata和SAS等產品相對獨立的供應商,可以提供解決方案中的部分應用;第三層次是只專注於單一領域的專業廠商,但其在並購的硝煙中日趨難以存活。
⑽ 數據分析技術的主要研究領域及其前景
數據分析技術的主要研究領域及其前景_數據分析師考試
隨著分析技術在BI領域重要性的不斷提升,廠商們圍繞分析技術的競爭也在逐漸升溫。分析技術正在不斷地成熟之中。隨著商業智能(BI)軟體成本在IT預算中所佔份額的不斷上漲,以及數據收集與存儲成本越來越受到分析使用的驅使,DBMS和企業應用廠商都將其在產品差異化的努力集中在分析技術方面。 然而,卻很少有企業會進行大量的計劃工作,以迎接正在蓬勃發展的分析技術。誠然,許多企業在數據倉庫方面進行了非常仔細的設計。
但是,在大多數的企業里,部門性的BI應用和分析應用的安裝幾乎都是雜亂無章的。 現在是採取更嚴肅的態度來看待分析性IT戰略計劃的時候了。這不僅僅是因為分析技術在你的預算中佔有更大的份額。分析技術不僅比以前所佔的份額更大,而且它還擁有更多的集成點,其中包括分析范圍內以及交易系統之外的集成點。 現在,就讓我們來探討一下目前分析技術集成的5個主要研究領域。
1. 集成監控、評估與信息發送 從歷史的角度看來,BI技術包含了信息發送與分析工具的混合體――例如實時查詢、實時報告、企業報告、多維分析、圖形數據可視化等。這一切如今正在集成於新一代的技術之中。 隨著時間的推移,傳統的BI技術變得越來越不那麼重要了。用戶的中央監控工具將是門戶或儀錶板。這種格式會首先顯示有哪些指標超出預期的范圍之外,並僅在事後讓用戶了解報告的准確數字。 通常,這是一種對傳統以報告為中心的系統的改進,這種系統可能提供大量的數據,然後讓用戶自行搜索和查找異常情況。而在時間就是金錢的時代里,異常情況的警告可以直接發送至手機或其他移動設備上。
2. 監控、評估與事務處理應用 過去,BI技術一直是只讀的,而且與事務處理資料庫的拷貝相互抵觸。因此,從技術上講,把BI技術與事務處理系統集成起來似乎很不自然。但是,我們不妨從業務流程的角度來看待這個問題。當管理人員注意或得到警告,在度量中出現了異常情況――到底是「什麼原因導致警告」呢? 這個原因通常都將成為採取行動的一個過程,也許是在生產或購買過程當中,但是也很有可能是在企業的其他所有領域。 全新一代的混合分析/事務處理應用正在出現,以支持這些新的流程。你可以等待獲得此類打包應用,或許也可以使用一些流程規范工具。但是,無論使用上述哪種方式,對於你來說,流程(以及由此而出現的應用)將是至關重要的。
3. 內部分析技術 分析技術的傳統工作就是要准確地弄清楚要向哪位客戶提供什麼服務,以便讓這種關系盡可能地帶來利潤。 在某些環境里,例如手機服務提供商的呼叫中心等,實時地進行此類分析將是極其重要的。因此,分析工具――通常是統計工具――必須按照順序運行事務處理系統。與此同時,某些客戶營銷應用正試圖對測試和統計分析系統化,以使其作為事務處理直郵業務流程的一部分。
4. 計劃及其他 幾乎每一個組織都有各自龐大的預算與計劃過程。但是,現代企業計劃技術已使數千個企業的計劃過程多多少少地被規范化了。即便如此,大多數企業的預測體系仍然是得不到有效支持的。隨著計劃技術的不斷發展,事務處理應用、監控/評估、計劃自身甚至統計分析隨時都會有合並的可能,以形成更好、更及時的預測系統,並且制訂更有用的項目計劃。
5. 集成分析數據管理 一些核心伺服器的技術問題也需要考慮。把企業報告、實時查詢以及各種不同的分析集成至一個單一的伺服器可能是一件非常費力的任務,它要求在選擇分析技術的廠商時要進行細致的評估。但是,伺服器方面的問題比這個問題還要更廣泛。DBMS廠商正在著力進行數據的聚合。BI廠商也正在努力,盡可能地使DBMS的性能變得不再是必不可少的。數據高速緩存也正在以有趣的方式集成到應用伺服器之中,而且一些著名的BI產品還包含了其自己的應用伺服器。
此外,一些專業MOLAP(多維聯機分析處理)資料庫伺服器的廠商則由於其核心利益受到關系型DBMS技術進步的侵蝕,正在更加瘋狂地試圖為自己尋找發展方向。
以上是小編為大家分享的關於數據分析技術的主要研究領域及其前景的相關內容,更多信息可以關注環球青藤分享更多干貨