⑴ 求助offer怎麼選騰訊TEG數據挖掘崗/私募基金量化交易系統開發崗
量化對沖基金在國外發展稱為,甚至被稱為"抗跌神奇"。在國外一直被稱為股壇抗跌神話的量化對沖基金是否就此走下"神壇"?是否真的預示著其將有黯淡的未來?
按照現有量化基金主要的運作模式,大致分為三類:
一是多因子選股,單策略和多策略並行。多因子模型是應用最廣泛的一種選股模型。其基本思想是:找到影響股票投資收益率的一組主要指標,並依據這些指標構建一個股票組合,期望該組合在未來一段時間內獲得相對大盤的超額收益。除多因子選股外,很多量化基金還採取多種量化選股策略並行的模式,不同策略之間可以是平均分配資產,也可以設定不同的權重。
二是量化指數增強。量化指數增強型基金是指採取指數增強策略的主動管理型量化基金。與傳統的指數增強基金不同,這類產品具有以下幾個特點:1)股票投資范圍並沒有最低90%的限制,只需要滿足契約限定的是股票型或者混合型基金的配置要求;2)基金契約中並未明確增強的標的指數;3)實際運作過程中,投資標的指數成分股或者備選成分股的資產占基金股票資產的比例沒有最低80%的限制。
三是引入對沖機制,做絕對收益。股票對沖策略是指通過使用衍生品或者融券等做空手段,對沖持有的股票多頭頭寸的風險暴露,達到降低投資組合市場風險、獲取選股Alpha收益的一種對沖投資策略。國內目前發行的產品主要是市場中性策略,即一般要求的投資組合的風險暴露不超過其多頭頭寸的15%至20%,並且長期維持在這一水平。
一、基礎篇
1、在市場不穩定的情況下如何穩健套利?
套利,本就是很穩健的一種盈利方式。套利和盈利不同,相信您問的是在市場不穩定的情況下穩健"盈利"。先明確量化和對沖的概念,可下載OA系統中"量化對沖產品基礎知識學習手冊"進行詳細學習。量化對沖產品在構建股票多頭的同時,也構建期貨空頭。這種操作在市場不穩定時,可以對沖市場的系統風險,從而留下股票多頭特有的盈利。
2、量化對沖產品的操作流程是怎樣的?
先用量化投資的方式構建股票多頭組合,然後空頭股指期貨對沖市場風險,最終獲取穩定的超額收益。
3、收益方面、安全性方面哪個更有優勢?
量化對沖產品在收益方面和安全性方面都有優勢,屬於風險和收益高度匹配的高性價比產品。
4、量化對沖程序化交易的對象是什麼?
股票、債券、期貨、現貨、期權等等。
5、通過期貨對沖的那部分資金是不是一定加杠桿的?
是的。期貨是保證金交易,本身就帶有杠桿性質。但這部分的杠桿不是為了博取高收益而主動加杠桿,而是為了"等市值對沖"。比如2個億的基金,1.6個億買股票,剩餘0.4億做股指期貨空頭(這0.4個億為保證金,相當於做了市值1.6個億的股指期貨空頭),這樣下來整個基金幾乎無風險敞口。
6、針對目前的市場,量化對沖策略是不是以市場中性為主要策略點?
是的。
7、量化對沖類產品收益大概在什麼范圍內?
我國主流的市場中性策略的量化對沖產品,年化收益大概在10%-20%。
8、如何確定準確的貝塔因子系數,來安全的對沖掉系統風險?
國內主流的市場中性策略量化對沖基金是等市值對沖,比如2個億的基金,1.6個億買股票,剩餘0.4億做股指期貨空頭(這0.4個億為保證金,相當於做了市值1.6個億的股指期貨空頭),這樣下來整個基金幾乎無風險敞口。
9、量化對沖選股范圍都是哪些?大概選擇多少支股票呢?
目前國內的量化對沖產品選股范圍主要在A股內。股票的數量取決於量化對沖基金中對選股的量化要求,達標即入池,但是大多數量化對沖基金選股都達上百隻。
10、量化選股的具體方法是什麼?如何判斷量化模型選出來的股票就是能賺錢的股票?
量化選股的具體方法:量化投資一般會選出幾百支股票進行投資分析來分散風險,適合風險偏好低,追求穩定收入的投資者。量化分析師們在制定規則之後建立某個模型,先用歷史數據對其進行回測,看是否能賺錢;如果可以,就再注入小額資金,積累樣板外的實盤交易。實盤後如有盈利,就擴大資金量判斷其是否對投資結果帶來影響。最後運行的模型,都是經過千錘百煉的。
11、國內量化對沖使用的策略有哪些?
(1)主流:股票市場中性策略又稱alpha策略,是當前國內私募證券投資基金最常用的策略之一。
它從消除市場系統性風險(Beta)的維度出發,通過同時構建多頭和空頭頭寸對沖市場風險,以期獲得較穩定的絕對收益。國內通常的操作方式為:買入股票同時賣空與股票等市值的股指期貨(也可以採取融券方式),盈利模式為所買股票超越大盤的漲跌幅。
特點:較為穩健的策略,收益不高但穩定,回撤較小,適用於震盪市場,但是我國現在面臨的問題在於,市場對於對沖策略日趨上漲的需求與實際對沖工具不足的矛盾(如2014年下半年多數運用市場中性策略的機構因為持有成長股,但是當時沒有可以對沖成長股系統風險的股指期貨,所以他們只能選擇可以對沖大盤藍籌股風險的滬深300股指期貨,結果在大盤上漲、創業板下跌的行情中遭受了慘敗),多種股指期貨推出、股票期權上市以及融券業務的擴充能夠緩解此類問題。
(2)股票多空策略,類似於alpha策略,但不同於alpha策略的是其會有多頭敞口或者空頭敞口,股票多空策略的操作難度大,因為除了要進行標的選擇外,還需對大盤多空進行判斷即擇時。正因為如此,目前的量化多空策略,往往是以動量策略為主,即市場已經出現較為明顯的趨勢性上漲或者下跌行情時,再做相應的調整。
(3)CTA(期貨管理)策略,側重於期貨市場的投資,投資於股指期貨、外匯期貨、國債期貨等期貨/期權品種及相應的現貨品種。量化對沖類的管理期貨產品,就是用量化手段判斷買賣時點、用計算機程序化實現期貨的投資策略。由於期貨為T+0方式,因而採用程序化的高頻交易比手動交易具有天然優勢。從程序化交易這塊,期貨領域其實較為領先於股票領域,而且現在的期貨高頻策略已經由比拼策略思想提升到了比拼系統配置和下單速度等方面。特點:具有杠桿屬性,收益率較高,但在無趨勢的震盪行情中,由於杠桿特性會產生較大的回撤,受限於交易品種的成交量及活躍程度。
(4)套利復合策略,套利策略中最常見的是二級市場套利,包括商品跨期、跨品種套利,股指期貨跨期、期現套利、ETF跨市場、事件套利、延時套利等。由於國內的金融工具和金融品種都不多,國內的套利策略多為方向性套利,即依賴於價格的上漲下跌而尋找套利機會,國外的期權可以對波動率預測進行套利。
由於在市場行情不溫不火,波動較小時,這類策略往往找不到套利機會,因而國內的套利對沖基金往往會在無套利機會時,增加一些另外的小策略,構成套利復合策略。例如在套利機會較少時,套利基金會增加一小部分的趨勢投機或者股票市場中性等。長期來看,這種方式更利於產品的發展。
特點:在我國是一類性價比較高的策略,但是資金容量有限,機會有限,需要不斷開發新的策略;股票-期貨套利在震盪市場中隨著套利機會的增加而如魚得水,但在穩定、波動小的市場中表現欠佳;分級基金套利在單邊上漲市場中可以取得較高的收益,但是震盪市場中變現欠佳;目前主要問題是可套利品種不多、分級基金的活躍基金數不夠多難以承受較大資金進出、可用金融工具僅有股指期貨對沖性能不夠。
(5)宏觀對沖策略,宏觀策略是一種基於宏觀經濟周期理論對經濟增長趨勢、資金流動、政策變化等因素進行自上而下的分析,預期其對股票、債券、貨幣、商品、衍生品等各類投資品價格的影響,運用量化、定性分析方法作出投資決策並在不同大類資產之間甚至是不同國家之間進行輪動配置,以期獲得穩定收益。例如當對沖基金更看好未來美國經濟的復甦,就可以逐步做多美股資產,同時將資金撤出新興市場並做空新興市場資產來構建組合。該策略的成功取決於對全球宏觀經濟趨勢的判斷,判斷越准確,策略的效果越好。
12、量化對沖是否保本,風險多大?上下浮動多大?
量化對沖基金的合同與固定收益類信託、大部分銀行理財產品一樣,寫的是不保本。市場中性策略量化對沖產品(國內主流),短期內最大回撤在5%,長期內都是穩增值的。而且部分量化對沖產品還採取分級結構,通過劣後級的資金對優先順序投資者進行本金的保證。
13、風險收益方面跟陽光私募和信託有啥區別?
量化對沖產品也是一種陽光私募,相信您說的陽光私募指的是國內純做主動管理股票多頭的陽光私募基金,國內主流量化對沖產品的風險、收益介於主動管理股票多頭陽光私募和固定收益信託之間,但是夏普率(投資性價比)普遍高於其他兩種類型產品。
14、加杠桿和不加杠桿的區別在於哪裡?
加杠桿可能會帶來更多的收益,但是也要承擔更多的風險。
15、整個市場上的量化對沖產品如何對比?
從多個方面去比較,看運用的策略、公司成立的時長、看管理團隊的風格、看團隊旗下同時期管理基金的夏普比率、波動率。
16、量化選股的具體方法是什麼?如何判斷量化模型選出來的股票就是能賺錢的股票?
量化選股的具體方法:量化投資一般會選出幾百支股票進行投資分析來分散風險,適合風險偏好低,追求穩定收入的投資者。量化分析師們在制定規則之後建立某個模型,先用歷史數據對其進行回測,看是否能賺錢;如果可以,就再注入小額資金,積累樣板外的實盤交易。實盤後如有盈利,就擴大資金量判斷其是否對投資結果帶來影響。最後運行的模型,都是經過千錘百煉的。
二、進階篇
1、目前管理層在對沖這塊有一定的限制,那這個對量化對沖策略會不會產生一些影響?
禁止"做空"是禁止"裸做空",並沒有禁止量化對沖的空單,故以市場中性為主的量化對沖產品並無受影響。政策上完全禁止市場上一切做空動作的概率極小。如果真遇到監管"昏招",可以做套利策略,比如分級基金套利。
2、怎樣才能區別好的量化對沖策略與一般的策略?
好和不好要看和投資者的契合程度,對於追求穩健收益的投資者來說,市場中性策略的量化對沖產品是最合適的。在市場中性策略中,策略跑的時間越長、年化復合收益率相對較高、收益曲線表現越穩定、夏普率越高的產品相對更好。每年也有評測機構對各量化對沖產品進行綜合排名。
3、量化對沖是需要寫選股程序的,我們怎麼知道選股程序是否比較優質呢,並且能為客戶賺到正收益呢?
量化投資一般會選出幾百支股票進行投資分析來分散風險,而且加入對沖系統風險的工具,很適合風險偏好低,追求穩定收入的投資者。量化分析師們在制定規則之後建立某個模型,先用歷史數據對其進行回測,看是否能賺錢;如果可以,就再注入小額資金,積累樣板外的實盤交易。實盤後如有盈利,就擴大資金量判斷其是否對投資結果帶來影響。最後運行的模型,都是經過千錘百煉的。
4、股指期貨的金融種類不多怎麼辦?
現在已經有上證50期貨、中證500期貨、300期權、500期權、50期權等等,隨著未來各類對沖工具越來越多,系統風險能更有效對沖,可選策略會更多,燙平波動的效果更好。
5、過往產品的歷史、收益穩定性和回撤?
"對沖"的概念最早由AlfredW.Jones於1949年創立第一隻對沖基金時提出,他認為"對沖"就是通過管理並降低組合系統風險以應對金融市場變化。全球范圍內:截至2014年末,全球量化對沖基金管理資產規模已從1997年的1182億美元發展到3萬億美元(近18萬億人名幣),增長20倍,年均復合增速20%。
我國范圍內:2014年以前,量化對沖私募發行主要依託信託平台、及券商資管平台;2014年以後,《私募投資基金管理人登記和基金備案辦法(試行)》實行,截至2015年2月7日,國內已完成登記的私募基金管理人為7358家,管理私募基金9156隻,管理規模2.38萬億元人名幣,如果估計證券投資類私募基金佔比40%、量化對沖占證券投資比為15%,則國內當前量化對沖私募的管理資產規模估計約1500億元,與全球3萬億美元(近18萬億人名幣)的規模相比,佔比約0.9%。我國主流的市場中性量化對沖產品收益穩定性極好。而且據相對完全統計,2015年6-7月(股災時),已經成立1年的127隻市場中性量化對沖產品中100隻逆市上漲,剩下那27隻回撤大都控制在5%之內。
補充問題:那這剩下的27隻沒有上漲什麼原因導致的?答:各家量化選股還是有非常小的差異性,少數產品在短期內收益有小幅回撤是很正常的,反觀這27隻產品一年之中的收益曲線,也都呈現出了"凈值穩增長"的態勢。
6、量化對沖項目在做對沖時是不是有比例限制,比如是不是只能拿出10%出來做對沖還是沒有規定?
國內主流的市場中性策略量化對沖基金是等市值對沖,比如2個億的基金,1.6個億買股票,另0.4億做股指期貨空頭,無風險敞口。
三、風險應對篇
1、量化對沖的風險點在哪?
最大的風險在於基金經理建的股票多頭所處的市場的β風險沒有得到有效對沖這是2014下半年對沖基金面對的主要矛盾,多種股指期貨推出、股票期權上市以及融券業務的擴充(利好:上證50、中證500股指期貨4月16日上市)能夠緩解此類問題。遇到這種極端情況,應對方式是:
(1)堅持持有,等待市場回歸均衡,量化對沖策略多數是長期有效的。
(2)一般此時期貨與現貨價格會出現大幅偏離,基差套利可以獲利或減少損失。
(3)現在已經有上證50期貨、中證500期貨、300期權、500期權、50期權等等,隨著未來各類對沖工具越來越多,系統風險能更有效對沖,可選策略會更多,燙平波動的效果更好。綜上,對於量化對沖,理解產品屬性,長期持有是應對風險最好的辦法。
2、量化對沖風險控制是如何做的?
量化對沖,故名思意,有量化,有對沖,對沖本就是一種風險控制(控制整體市場的風險),量化是一種嚴格的、利用計算機、利用程序的選股模式(控制的是人性的貪婪恐慌風險),另外量化對沖產品也設有預警和止損線,而且設置的較高(市場中性策略的量化對沖產品中,觸及止損線的產品極少)。
3、量化對沖可能出現虧損現象嗎?最大虧損可能是多少?
有可能出現,不同的策略有不同的回撤,阿爾法中性策略年度一般回撤5%-10%,量化對沖產品的止損線一般設置為0.9或者更高,這樣在基金出現少量虧損的情況下可以嚴格止損。
4、目前市場都採用中性策略,如果市場稍微有大的波動會不會加劇大幅振動的可能?
中性策略與市場的漲跌相關性很低,市場波動對策略的影響很低。
5、某些量化對沖產品近期的凈值小於1,怎麼理解?
各家量化選股還是有差異性,少數產品在短期內收益有小幅回撤是很正常的,反觀這些產品一年之中的收益曲線,也都呈現出了"凈值穩增長"的態勢。
6、可預見的政策性風險、可預見的市場性風險、可預見的操作性風險會有哪些?
這是一個非常寬泛的問題,雖然量化對沖在風險控制方面有優勢,但也面臨著各種不同的風險。可預見的政策性風險:因國家宏觀政策(如貨幣政策、財政政策、行業政策、地區發展政策等)發生變化,導致市場價格波動而產生風險。可預見的市場性風險:如多頭一方因持有股票會面對持有股票的一系列風險(價格波動風險、經濟環境風險、上市公司經營風險等),而空頭部分因持有空頭股指期貨會面對期貨投資的風險(杠桿風險、基差風險、平倉風險等),但正因為多頭風險與空頭風險可以大部分相互對沖,所以整體風險被控制在一個較安全的水平。
可預見的操作性風險:相關當事人在業務各環節操作過程中,因內部控制存在缺陷或者人為因素造成操作失誤或違反操作規程等引致的風險,如越權違規交易、會計部門欺詐、交易錯誤、IT系統故障等風險。當然這些可預見的風險,管理人都會提前做規避工作,盡全力做到"風險可控"。
四、營銷篇
1、客戶:相較目前的固收類的產品來說,收益沒有太大的優勢,同樣要承擔一定的風險,百分之十幾的收益我寧願選擇私募產品。
按照客戶風險偏好,對客戶資產進行最優配置。客戶想享受股票市場的收益,但又不太願意冒太大風險的可以推薦配置量化對沖。市場中性策略的量化對沖產品是介於固定收益與浮動收益之間的一種產品,稱為"類固定收益",風險收益適中,預期收益10%-20%。
2、客戶:產品如遇虧損,止損策略怎麼進行,能保證我資金的安全嗎?
止損根據產品不同有不同的止損條件,阿爾法中性策略年度最大回撤一般在5%左右,產品的止損線一般設置為0.9或更高。而且量化對沖基金通過嚴格的量化選股 操作、等市值構建股指期貨空頭來對沖系統風險,雖然在合同中跟銀行理財、固定收益信託、主動管理型陽光私募產品一樣都無法寫上"保本"二字,但是您的資金 也是很安全的。
3、客戶:對國外這個模型不相信,對於投入到二級市場不抱信心。
模型其實並不復雜,而且都是經過反復的理論和實際驗證的,對二級市場不抱信心的客戶更加可以推薦量化對沖,量化對沖適合所有行情,不懼股市下跌。
4、傾向固收類客戶對政信類等更感興趣,對量化對沖比較猶豫,偏向高風險客戶又覺得收益不能動心。
政信類產品的收益率正在往下走,對風險厭惡型客戶的資產配置可以推薦量化對沖類的阿爾法策略,風險相對較小,收益預期相對比較穩定。而偏向高風險的客戶,也 可以進行細致分類。沒有人會願意為了追求一定的收益而承擔相對更高的風險,對於量化對沖產品來說,它的收益和風險是高度匹配的,也就是具有高投資性價比。
5、客戶:現在銀行和很多私募都准備做量化對沖,國家可能會出不利的政策?
國家對惡意做空以及惡意高頻交易操綜市場的行為的會進行查處,國內主流的量化對沖產品以市場中性策略為主,做多股票+做空股指期貨是同時進行的,而且做多與做空的頭寸一致,國家對這類產品干預的可能性極低。
6、客戶:具體的凈值計算方法,凈值創新高部分提取25%後,我的年化收益大概是多少?
扣除管理費、託管費、業績提成之後,客戶的收益在10%-20%區間,業績提成一般客戶80%,機構20%。
7、客戶:操作策略中,期限套利和跨期套利可以認為是無風險套利,但本身收益做不高,年化6-7%已經不錯,加了阿爾法套利,主動性加入後,風險就會增大,風險轉化為收益是很好,如果風險削減收益,這會影響凈值上升的斜率,本來斜率就很小,這樣體現的收益不大,即使波動也在較小范圍,我覺得不值。
量化對沖策略很多,無風險套利是其中一種,無風險套利的市場機會不是很多,可以作為基金的安全墊策略,阿爾法策略(也就是市場中性策略)是一種成熟策略,能夠長期操作,加入後會增加收益的穩定性,風險變小,阿爾法的收益高於套利的收益,加入後收益變大。
對沖的意義在哪裡?
對沖策略的"意義"在於去掉某種我們不想承擔的風險,從而只保留我們想要的風險。
原則:所有回報都對應著風險。大而化之甚至可以說風險和回報是一回事,本篇中,風險和回報兩個詞是可以互換的
以一隻股票來說,股票回報 = 自身經營回報 + 整個股市回報(β)。相應的,承擔的風險 = 自身經營風險 + 整個股市風險。
如果我們對某家公司有強烈的看法(好壞皆可)並且 我們並非股市專家在股市整體走勢預測上沒有優勢,那麼我們就可以選擇 買入股票(假設看好)+ 做空股指 以獲得純粹的公司自身經營回報。這時回報 = 股票回報 - 整個股市回報(股指)= 自身經營回報。風險也變成了只有自身經營風險。
例子1,假設我們是IT業內人士,對google未來幾年強烈看好,但是對經濟形勢沒看法,對股市大勢沒看法。就可以做多google做空股指來對沖掉股市的風險,假設股市上漲50%,google上漲70%,我們賺20%。股市下跌50%,google下跌30%,我們還是賺20%。只要我們判斷正確,"即google未來會很好",我們就賺到了。
例子2,我們看好新浪,買了新浪股票,但新浪股票在nasdaq上市,是用美元計價的,我們又不是經濟學家,不知道將來人民幣對美元是漲還是跌,如果美元下跌了,那麼新浪股票(美元計價)相對於人民幣而言就是下跌了,風險也就變成了 = 新浪自身 + nasdaq + 美元/人民幣 。這時我們可以通過做空美元/人民幣期貨來對沖掉美元對人民幣下跌的風險。
再來說下,對沖這種做法的由來。
最早使用對沖Hedge這個詞的人是 阿爾弗雷德·溫斯洛·瓊斯(Alfred Winslow Jones,1900-1989),他覺得股市難以預測,但預測一家公司的前景就容易多了,(ps.任何人都可以利用自己的行業知識挑出本行業內最好的公司,准確率比聽消息高多了),那麼我可以買入一家好公司,再賣出一家壞公司,這樣一來,股市的影響就被去掉了,只要對這兩家公司的看法沒錯就可以盈利了。
憑借這個理念,瓊斯在1949年開創了第一家現代模式的對沖基金,它使用的策略學名叫股票多空(equity long/short)。
阿爾弗雷德·溫斯洛·瓊斯(Alfred Winslow Jones,1900-1989)(社會學博士、前憤青、前CIA、前socialism粉、前納粹時期的猶太女德共的老公、前記者、前專欄作家)
股票多空策略,比我們剛才舉的例子稍微復雜一點點,區別在於做空那端不是股指而是另一隻股票,即買入好公司賣出壞公司,假設我們相信未來幾年蘋果比google好,我們就可以做多蘋果做空google,回報 = 蘋果好於google的那部分,同樣是對沖掉了股市波動的風險,只剩下了我們對蘋果和谷歌兩家公司的預期。這樣一來,不管納斯達克怎麼動,或者美國經濟怎麼糟糕都和我們沒關系了。
類似的,可口可樂/百事可樂,茅台/五糧液,中石化/中石油,sony/panasonic,通用/福特,這個列表可以無限延伸下去,只要我們是某行業里的專家,我們就可以通過做多好的+做空差的來獲利,而不管市場波動如何。(實踐表明,即便08年那種大跌也無所謂)
如今,股票多空策略是對沖基金領域里的重要分支,規模龐大,種類繁雜。而對沖的思想也擴展到金融領域的方方面面,我們可以對沖匯率風險,對沖利率風險,對沖某種原材料風險,只要你能想的到就行。但其思路從未變過,就是剝離我們不想要的風險。
⑵ 用GARCH(1,1)模型對股票收盤價收益率序列建模,如何在eviews軟體中得出收益率序列的波動性方差
接分啦。。。找到一篇不錯的文章
樓主看下,參考資料:
2.關聯規則挖掘過程、分類及其相關演算法
2.1關聯規則挖掘的過程
關聯規則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets),第二階段再由這些高頻項目組中產生關聯規則(Association Rules)。
關聯規則挖掘的第一階段必須從原始資料集合中,找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言,必須達到某一水平。一項目組出現的頻率稱為支持度(Support),以一個包含A與B兩個項目的2-itemset為例,我們可以經由公式(1)求得包含項目組的支持度,若支持度大於等於所設定的最小支持度(Minimum Support)門檻值時,則稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組(Frequent k-itemset),一般表示為Large k或Frequent k。演算法並從Large k的項目組中再產生Large k+1,直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要產生關聯規則(Association Rules)。從高頻項目組產生關聯規則,是利用前一步驟的高頻k-項目組來產生規則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規則所求得的信賴度滿足最小信賴度,稱此規則為關聯規則。例如:經由高頻k-項目組所產生的規則AB,其信賴度可經由公式(2)求得,若信賴度大於等於最小信賴度,則稱AB為關聯規則。
就沃爾馬案例而言,使用關聯規則挖掘技術,對交易資料庫中的紀錄進行資料挖掘,首先必須要設定最小支持度與最小信賴度兩個門檻值,在此假設最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關聯規則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%於此應用範例中的意義為:在所有的交易紀錄資料中,至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布,啤酒)>=70%於此應用範例中的意義為:在所有包含尿布的交易紀錄資料中,至少有70%的交易會同時購買啤酒。因此,今後若有某消費者出現購買尿布的行為,超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布,啤酒」關聯規則,因為就該超市過去的交易紀錄而言,支持了「大部份購買尿布的交易,會同時購買啤酒」的消費行為。
從上面的介紹還可以看出,關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始資料庫中的指標值是取連續的數據,則在關聯規則挖掘之前應該進行適當的數據離散化(實際上就是將某個區間的值對應於某個值),數據的離散化是數據挖掘前的重要環節,離散化的過程是否合理將直接影響關聯規則的挖掘結果。
2.2關聯規則的分類
按照不同情況,關聯規則可以進行分類如下:
1.基於規則中處理的變數的類別,關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的,它顯示了這些變數之間的關系;而數值型關聯規則可以和多維關聯或多層關聯規則結合起來,對數值型欄位進行處理,將其進行動態的分割,或者直接對原始的數據進行處理,當然
⑶ 現在我想做一個數據挖掘在股票預測軟體能做的熟悉的RMB答復,急求
你想要做的數據挖掘,應該是按照你指定的數據呈現規律,然後根據已有的歷史數據進行動態的數據分析,並以一定的數據組織形式呈現給你,如圖表等等 。從而觀察其規律變化性,為你的下一次購買做出參考吧。
不知道你現在手裡有的軟體是什麼,是需要集成到已有的軟體裡面,還是單獨做一套就可以。還需要知道你的數據源在哪裡。
聯系方式:球球號:406607820
⑷ 股票的數據挖掘用什麼演算法最合適
寫個貝葉斯分類演算法
對文本進行分類
⑸ 股票市場搞數據挖掘,數據分析來炒股有沒機會
有機會,而且機會不小,但是我等散戶靠數據分析,可能自身實力差的太懸殊了。
硬體設備就不達標哦。
⑹ 誰有金融數據挖掘,關聯規則分析與挖掘的一些介紹啊
雨林演算法的數據結構:
AVC-set:節點n包含的所有紀錄在某個屬性上的投影,其中該AVC-set包括了屬性的不同值在每個類別上的計數。
AVC-group:一個節點n上所有的AVC -set的集合
AVC-set的所佔內存的大小正比於對應屬性的不同值個數,AVC-group並不是資料庫信息的簡單的壓縮,它只是提供了建立決策樹需要的信息, AVC-group所佔用的內存空間遠遠小於資料庫所實際佔用的空間。
一般設計方案:
AVC_set
{
//存儲屬性的各個值
DistinctValue[]
//存儲屬性各個值在某個類上對應的計數
DistinctValueCountForClassA[]
DistinctValueCountForClassB[]
… …
}
AVC_group
{
//節點n中的每個屬性的avc_set
AVC_set[]
}
自頂向下決策樹演算法
BuildTree(Node m,datapatition D,algorithm decisionTree)
對D使用決策樹演算法decisionTree得到分裂指標crit(n)
令k為節點n的子節點個數
if(k>0)
建立n的k個子節點c1,…,ck
使用最佳分割將D分裂為D1,…,Dk
for(i=1;i<=k;i++)
BuildTree(ci,Di)
endfor
endif
RainForest 演算法框架重新定義的部分:
1a) for 每一個屬性的謂詞p,尋找最佳的分割
1b) decisionTree.find_best_partitioning(AVC-set of p)
1c) endfor
2a) k= decisionTree.decide_splitting_criterion();//決定最終的分割
雨林演算法的常規過程:
建立節點的AVC-group
(通過讀取整個原始資料庫或者某個分支的資料庫表或文件)
選擇分裂屬性和分裂標准:取決於使用雨林演算法框架的具體演算法,通過逐一檢查AVC-set來選擇。
將數據分解到各個子節點:必須讀取整個數據集(資料庫或文件),將各條數據分解到各個子節點中,此時如果有足夠的內存,我們將建立一個或多個子節點的AVC-group
參考資料:李岱 rainforest.ppt 什麼是數據挖掘
數據挖掘(Data Mining),又稱為資料庫中的知識發現(Knowledge Discovery in Database, KDD),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數據挖掘就是從大量數據中提取或「挖掘」知識。
並非所有的信息發現任務都被視為數據挖掘。例如,使用資料庫管理系統查找個別的記錄,或通過網際網路的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的演算法和數據結構,但是它們主要依賴傳統的計算機科學技術和數據的明顯特徵來創建索引結構,從而有效地組織和檢索信息。盡管如此,數據挖掘技術也已用來增強信息檢索系統的能力。
編輯本段數據挖掘的起源
為迎接前一節中的這些挑戰,來自不同學科的研究者匯集到一起,開始著手開發可以處理不同數據類型的更有效的、可伸縮的工具。這些工作建立在研究者先前使用的方法學和演算法之上,在數據挖掘領域達到高潮。特別地是,數據挖掘利用了來自如下一些領域的思想:(1) 來自統計學的抽樣、估計和假設檢驗,(2) 人工智慧、模式識別和機器學習的搜索演算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、信號處理、可視化和信息檢索。
一些其他領域也起到重要的支撐作用。特別地,需要資料庫系統提供有效的存儲、索引和查詢處理支持。源於高性能(並行)計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據,並且當數據不能集中到一起處理時更是至關重要。
編輯本段數據挖掘能做什麼
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Des cription and Visualization)
· 復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以理解成資料庫中表的屬性,即列)進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系 。
· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
· 預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時間後,才知道預言准確性是多少。
· 相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,回答問題,可能效果更好。
· 描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
編輯本段數據挖掘中的關聯規則上面演算法講的很清楚了,我來舉個例子:
Training data:
Id age income class
1 young 65 G
2 young 15 B
3 young 75 G
4 senior 40 B
5 senior 100 G
6 senior 60 G
AVC set „age「 for N1:
value class count
young B 1
young G 2
senior B 1
senior G 2
AVC set „income「 for N1:
value class count
15 B 1
40 B 1
60 G 1
65 G 1
75 G 1
100 G 1
AVC set „income「 for N2:
value class count
15 B 1
65 G 1
75 G 1
AVC set „age「 for N2:
value class count
young B 1
young G 2
最後推出雨林: N1
age=young / \ age=senior
/ \
N2 N3
最後提醒一點,對於雨林演算法,訓練樣本集不要大於3百萬。否則改用SPRINT。
1.什麼是關聯規則
在描述有關關聯規則的一些細節之前,我們先來看一個有趣的故事: "尿布與啤酒"的故事。
在一家超市裡,有一個有趣的現象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發生在美國沃爾瑪連鎖店超市的真實案例,並一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統,為了能夠准確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上,沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是:"跟尿布一起購買最多的商品竟是啤酒!經過大量實際調查和分析,揭示了一個隱藏在"尿布與啤酒"背後的美國人的一種行為模式:在美國,一些年輕的父親下班後經常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班後為小孩買尿布,而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。
按常規思維,尿布與啤酒風馬牛不相及,若不是藉助數據挖掘技術對大量交易數據進行挖掘分析,沃爾瑪是不可能發現數據內在這一有價值的規律的。
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯系。Agrawal等於1993年首先提出了挖掘顧客交易資料庫中項集間的關聯規則問題,以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的演算法進行優化,如引入隨機采樣、並行的思想等,以提高演算法挖掘規則的效率;對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題,最近幾年已被業界所廣泛研究。
2.關聯規則挖掘過程、分類及其相關演算法
2.1關聯規則挖掘的過程
關聯規則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets),第二階段再由這些高頻項目組中產生關聯規則(Association Rules)。
關聯規則挖掘的第一階段必須從原始資料集合中,找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言,必須達到某一水平。一項目組出現的頻率稱為支持度(Support),以一個包含A與B兩個項目的2-itemset為例,我們可以經由公式(1)求得包含{A,B}項目組的支持度,若支持度大於等於所設定的最小支持度(Minimum Support)門檻值時,則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組(Frequent k-itemset),一般表示為Large k或Frequent k。演算法並從Large k的項目組中再產生Large k+1,直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要產生關聯規則(Association Rules)。從高頻項目組產生關聯規則,是利用前一步驟的高頻k-項目組來產生規則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規則所求得的信賴度滿足最小信賴度,稱此規則為關聯規則。例如:經由高頻k-項目組{A,B}所產生的規則AB,其信賴度可經由公式(2)求得,若信賴度大於等於最小信賴度,則稱AB為關聯規則。
就沃爾馬案例而言,使用關聯規則挖掘技術,對交易資料庫中的紀錄進行資料挖掘,首先必須要設定最小支持度與最小信賴度兩個門檻值,在此假設最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關聯規則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%於此應用範例中的意義為:在所有的交易紀錄資料中,至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布,啤酒)>=70%於此應用範例中的意義為:在所有包含尿布的交易紀錄資料中,至少有70%的交易會同時購買啤酒。因此,今後若有某消費者出現購買尿布的行為,超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布,啤酒」關聯規則,因為就該超市過去的交易紀錄而言,支持了「大部份購買尿布的交易,會同時購買啤酒」的消費行為。
從上面的介紹還可以看出,關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始資料庫中的指標值是取連續的數據,則在關聯規則挖掘之前應該進行適當的數據離散化(實際上就是將某個區間的值對應於某個值),數據的離散化是數據挖掘前的重要環節,離散化的過程是否合理將直接影響關聯規則的挖掘結果。
2.2關聯規則的分類
按照不同情況,關聯規則可以進行分類如下:
1.基於規則中處理的變數的類別,關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的,它顯示了這些變數之間的關系;而數值型關聯規則可以和多維關聯或多層關聯規則結合起來,對數值型欄位進行處理,將其進行動態的分割,或者直接對原始的數據進行處理,當然數值型關聯規則中也可以包含種類變數。例如:性別=「女」=>職業=「秘書」 ,是布爾型關聯規則;性別=「女」=>avg(收入)=2300,涉及的收入是數值類型,所以是一個數值型關聯規則。
2.基於規則中數據的抽象層次,可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中,所有的變數都沒有考慮到現實的數據是具有多個不同的層次的;而在多層的關聯規則中,對數據的多層性已經進行了充分的考慮。例如:IBM台式機=>Sony列印機,是一個細節數據上的單層關聯規則;台式機=>Sony列印機,是一個較高層次和細節層次之間的多層關聯規則。
3.基於規則中涉及到的數據的維數,關聯規則可以分為單維的和多維的。
在單維的關聯規則中,我們只涉及到數據的一個維,如用戶購買的物品;而在多維的關聯規則中,要處理的數據將會涉及多個維。換成另一句話,單維關聯規則是處理單個屬性中的一些關系;多維關聯規則是處理各個屬性之間的某些關系。例如:啤酒=>尿布,這條規則只涉及到用戶的購買的物品;性別=「女」=>職業=「秘書」,這條規則就涉及到兩個欄位的信息,是兩個維上的一條關聯規則。
2.3關聯規則挖掘的相關演算法
1.Apriori演算法:使用候選項集找頻繁項集
Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里,所有支持度大於最小支持度的項集稱為頻繁項集,簡稱頻集。
該演算法的基本思想是:首先找出所有的頻集,這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集產生強關聯規則,這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集產生期望的規則,產生只包含集合的項的所有規則,其中每一條規則的右部只有一項,這里採用的是中規則的定義。一旦這些規則被生成,那麼只有那些大於用戶給定的最小可信度的規則才被留下來。為了生成所有頻集,使用了遞推的方法。
可能產生大量的候選集,以及可能需要重復掃描資料庫,是Apriori演算法的兩大缺點。
2.基於劃分的演算法
Savasere等設計了一個基於劃分的演算法。這個演算法先把資料庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊並對它生成所有的頻集,然後把產生的頻集合並,用來生成所有可能的頻集,最後計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而演算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該演算法是可以高度並行的,可以把每一分塊分別分配給某一個處理器生成頻集。產生頻集的每一個循環結束後,處理器之間進行通信來產生全局的候選k-項集。通常這里的通信過程是演算法執行時間的主要瓶頸;而另一方面,每個獨立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集演算法
針對Apriori演算法的固有缺陷,J. Han等提出了不產生候選挖掘頻繁項集的方法:FP-樹頻集演算法。採用分而治之的策略,在經過第一遍掃描之後,把資料庫中的頻集壓縮進一棵頻繁模式樹(FP-tree),同時依然保留其中的關聯信息,隨後再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關,然後再對這些條件庫分別進行挖掘。當原始數據量很大的時候,也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明,FP-growth對不同長度的規則都有很好的適應性,同時在效率上較之Apriori演算法有巨大的提高。
3.該領域在國內外的應用
3.1關聯規則發掘技術在國內外的應用
就目前而言,關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中,它可以成功預測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息,供使用本行ATM機的用戶了解。如果資料庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候,資料庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什麼產品感興趣。
同時,一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘,然後設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售,也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國,「數據海量,信息缺乏」是商業銀行在數據大集中之後普遍所面對的尷尬。目前金融業實施的大多數資料庫只能實現數據的錄入、查詢、統計等較低層次的功能,卻無法發現數據中存在的各種有用的信息,譬如對這些數據進行分析,發現其數據模式及特徵,然後可能發現某個客戶、消費群體或組織的金融和商業興趣,並可觀察金融市場的變化趨勢。可以說,關聯規則挖掘的技術在我國的研究與應用並不是很廣泛深入。
3.2近年來關聯規則發掘技術的一些研究
由於許多應用問題往往比超市購買問題更復雜,大量研究從不同的角度對關聯規則做了擴展,將更多的因素集成到關聯規則挖掘方法之中,以此豐富關聯規則的應用領域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關系,時態關系,多表挖掘等。近年來圍繞關聯規則的研究主要集中於兩個方面,即擴展經典關聯規則能夠解決問題的范圍,改善經典關聯規則挖掘演算法效率和規則興趣性。
編輯本段數據挖掘技術實現
在技術上可以根據它的工作過程分為:數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。
·數據的抽取
數據的抽取是數據進入倉庫的入口。由於數據倉庫是一個獨立的數據環境,它需要通過抽取過程將數據從聯機事務處理系統、外部數據源、離線的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監控等幾個方面的處理。在數據抽取方面,未來的技術發展將集中在系統功能集成化方面,以適應數據倉庫本身或數據源的變化,使系統更便於管理和維護。
·數據的存儲和管理
數據倉庫的組織管理方式決定了它有別於傳統資料庫的特性,也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多,且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何並行處理大量的數據、如何優化查詢等。目前,許多資料庫廠家提供的技術解決方案是擴展關系型資料庫的功能,將普通關系資料庫改造成適合擔當數據倉庫的伺服器。
·數據的展現
在數據展現方面主要的方式有:
查詢:實現預定義查詢、動態查詢、OLAP查詢與決策支持智能查詢;報表:產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易於理解的點線圖、直方圖、餅圖、網狀圖、互動式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關系;統計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析;挖掘:利用數據挖掘等方法,從數據中得到關於數據關系和模式的知識。
編輯本段數據挖掘與數據倉庫融合發展
數據挖掘和數據倉庫的協同工作,一方面,可以迎合和簡化數據挖掘過程中的重要步驟,提高數據挖掘的效率和能力,確保數據挖掘中數據來源的廣泛性和完整性。另一方面,數據挖掘技術已經成為數據倉庫應用中極為重要和相對獨立的方面和工具。
數據挖掘和數據倉庫是融合與互動發展的,其學術研究價值和應用研究前景將是令人振奮的。它是數據挖掘專家、數據倉庫技術人員和行業專家共同努力的成果,更是廣大渴望從資料庫「奴隸」到資料庫「主人」轉變的企業最終用戶的通途。
統計學與數據挖掘
統計學和數據挖掘有著共同的目標:發現數據中的結構。事實上,由於它們的目標相似,一些人(尤其是統計學家)認為數據挖掘是統計學的分支。這是一個不切合實際的看法。因為數據挖掘還應用了其它領域的思想、工具和方法,尤其是計算機學科,例如資料庫技術和機器學習,而且它所關注的某些領域和統計學家所關注的有很大不同。
1.統計學的性質
試圖為統計學下一個太寬泛的定義是沒有意義的。盡管可能做到,但會引來很多異議。相反,我要關注統計學不同於數據挖掘的特性。
差異之一同上節中最後一段提到的相關,即統計學是一門比較保守的學科,目前有一種趨勢是越來越精確。當然,這本身並不是壞事,只有越精確才能避免錯誤,發現真理。但是如果過度的話則是有害的。這個保守的觀點源於統計學是數學的分支這樣一個看法,我是不同意這個觀點的,盡管統計學確實以數學為基礎(正如物理和工程也以數學為基礎,但沒有被認為是數學的分支),但它同其它學科還有緊密的聯系。
數學背景和追求精確加強了這樣一個趨勢:在採用一個方法之前先要證明,而不是象計算機 這
⑺ 如何獲得股票行情數據,自己編程處理進行數據挖掘
行情數據可到通達信或者同花順觀看
⑻ 數據挖掘演算法與生活中的應用案例
數據挖掘演算法與生活中的應用案例
如何分辨出垃圾郵件」、「如何判斷一筆交易是否屬於欺詐」、「如何判斷紅酒的品質和檔次」、「掃描王是如何做到文字識別的」、「如何判斷佚名的著作是否出自某位名家之手」、「如何判斷一個細胞是否屬於腫瘤細胞」等等,這些問題似乎都很專業,都不太好回答。但是,如果了解一點點數據挖掘的知識,你,或許會有柳暗花明的感覺。
本文,主要想簡單介紹下數據挖掘中的演算法,以及它包含的類型。然後,通過現實中觸手可及的、活生生的案例,去詮釋它的真實存在。 一般來說,數據挖掘的演算法包含四種類型,即分類、預測、聚類、關聯。前兩種屬於有監督學習,後兩種屬於無監督學習,屬於描述性的模式識別和發現。
有監督學習有監督的學習,即存在目標變數,需要探索特徵變數和目標變數之間的關系,在目標變數的監督下學習和優化演算法。例如,信用評分模型就是典型的有監督學習,目標變數為「是否違約」。演算法的目的在於研究特徵變數(人口統計、資產屬性等)和目標變數之間的關系。
分類演算法分類演算法和預測演算法的最大區別在於,前者的目標變數是分類離散型(例如,是否逾期、是否腫瘤細胞、是否垃圾郵件等),後者的目標變數是連續型。一般而言,具體的分類演算法包括,邏輯回歸、決策樹、KNN、貝葉斯判別、SVM、隨機森林、神經網路等。
預測演算法預測類演算法,其目標變數一般是連續型變數。常見的演算法,包括線性回歸、回歸樹、神經網路、SVM等。
無監督學習無監督學習,即不存在目標變數,基於數據本身,去識別變數之間內在的模式和特徵。例如關聯分析,通過數據發現項目A和項目B之間的關聯性。例如聚類分析,通過距離,將所有樣本劃分為幾個穩定可區分的群體。這些都是在沒有目標變數監督下的模式識別和分析。
聚類分析聚類的目的就是實現對樣本的細分,使得同組內的樣本特徵較為相似,不同組的樣本特徵差異較大。常見的聚類演算法包括kmeans、系譜聚類、密度聚類等。
關聯分析關聯分析的目的在於,找出項目(item)之間內在的聯系。常常是指購物籃分析,即消費者常常會同時購買哪些產品(例如游泳褲、防曬霜),從而有助於商家的捆綁銷售。
基於數據挖掘的案例和應用上文所提到的四種演算法類型(分類、預測、聚類、關聯),是比較傳統和常見的。還有其他一些比較有趣的演算法分類和應用場景,例如協同過濾、異常值分析、社會網路、文本分析等。下面,想針對不同的演算法類型,具體的介紹下數據挖掘在日常生活中真實的存在。下面是能想到的、幾個比較有趣的、和生活緊密關聯的例子。
基於分類模型的案例這裡面主要想介紹兩個案例,一個是垃圾郵件的分類和判斷,另外一個是在生物醫葯領域的應用,即腫瘤細胞的判斷和分辨。
垃圾郵件的判別郵箱系統如何分辨一封Email是否屬於垃圾郵件?這應該屬於文本挖掘的范疇,通常會採用樸素貝葉斯的方法進行判別。它的主要原理是,根據郵件正文中的單詞,是否經常出現在垃圾郵件中,進行判斷。例如,如果一份郵件的正文中包含「報銷」、「發票」、「促銷」等詞彙時,該郵件被判定為垃圾郵件的概率將會比較大。
一般來說,判斷郵件是否屬於垃圾郵件,應該包含以下幾個步驟。
第一,把郵件正文拆解成單片語合,假設某篇郵件包含100個單詞。
第二,根據貝葉斯條件概率,計算一封已經出現了這100個單詞的郵件,屬於垃圾郵件的概率和正常郵件的概率。如果結果表明,屬於垃圾郵件的概率大於正常郵件的概率。那麼該郵件就會被劃為垃圾郵件。
醫學上的腫瘤判斷如何判斷細胞是否屬於腫瘤細胞呢?腫瘤細胞和普通細胞,有差別。但是,需要非常有經驗的醫生,通過病理切片才能判斷。如果通過機器學習的方式,使得系統自動識別出腫瘤細胞。此時的效率,將會得到飛速的提升。並且,通過主觀(醫生)+客觀(模型)的方式識別腫瘤細胞,結果交叉驗證,結論可能更加靠譜。
如何操作?通過分類模型識別。簡言之,包含兩個步驟。首先,通過一系列指標刻畫細胞特徵,例如細胞的半徑、質地、周長、面積、光滑度、對稱性、凹凸性等等,構成細胞特徵的數據。其次,在細胞特徵寬表的基礎上,通過搭建分類模型進行腫瘤細胞的判斷。
基於預測模型的案例這裡面主要想介紹兩個案例。即通過化學特性判斷和預測紅酒的品質。另外一個是,通過搜索引擎來預測和判斷股價的波動和趨勢。
紅酒品質的判斷如何評鑒紅酒?有經驗的人會說,紅酒最重要的是口感。而口感的好壞,受很多因素的影響,例如年份、產地、氣候、釀造的工藝等等。但是,統計學家並沒有時間去品嘗各種各樣的紅酒,他們覺得通過一些化學屬性特徵就能夠很好地判斷紅酒的品質了。並且,現在很多釀酒企業其實也都這么幹了,通過監測紅酒中化學成分的含量,從而控制紅酒的品質和口感。
那麼,如何判斷鑒紅酒的品質呢?
第一步,收集很多紅酒樣本,整理檢測他們的化學特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等等。
第二步,通過分類回歸樹模型進行預測和判斷紅酒的品質和等級。
搜索引擎的搜索量和股價波動一隻南美洲熱帶雨林中的蝴蝶,偶爾扇動了幾下翅膀,可以在兩周以後,引起美國德克薩斯州的一場龍卷風。你在互聯網上的搜索是否會影響公司股價的波動?
很早之前,就已經有文獻證明,互聯網關鍵詞的搜索量(例如流感)會比疾控中心提前1到2周預測出某地區流感的爆發。
同樣,現在也有些學者發現了這樣一種現象,即公司在互聯網中搜索量的變化,會顯著影響公司股價的波動和趨勢,即所謂的投資者注意力理論。該理論認為,公司在搜索引擎中的搜索量,代表了該股票被投資者關注的程度。因此,當一隻股票的搜索頻數增加時,說明投資者對該股票的關注度提升,從而使得該股票更容易被個人投資者購買,進一步地導致股票價格上升,帶來正向的股票收益。這是已經得到無數論文驗證了的。
基於關聯分析的案例:沃爾瑪的啤酒尿布啤酒尿布是一個非常非常古老陳舊的故事。故事是這樣的,沃爾瑪發現一個非常有趣的現象,即把尿布與啤酒這兩種風馬牛不相及的商品擺在一起,能夠大幅增加兩者的銷量。原因在於,美國的婦女通常在家照顧孩子,所以,她們常常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。沃爾瑪從數據中發現了這種關聯性,因此,將這兩種商品並置,從而大大提高了關聯銷售。
啤酒尿布主要講的是產品之間的關聯性,如果大量的數據表明,消費者購買A商品的同時,也會順帶著購買B產品。那麼A和B之間存在關聯性。在超市中,常常會看到兩個商品的捆綁銷售,很有可能就是關聯分析的結果。
基於聚類分析的案例:零售客戶細分對客戶的細分,還是比較常見的。細分的功能,在於能夠有效的劃分出客戶群體,使得群體內部成員具有相似性,但是群體之間存在差異性。其目的在於識別不同的客戶群體,然後針對不同的客戶群體,精準地進行產品設計和推送,從而節約營銷成本,提高營銷效率。
例如,針對商業銀行中的零售客戶進行細分,基於零售客戶的特徵變數(人口特徵、資產特徵、負債特徵、結算特徵),計算客戶之間的距離。然後,按照距離的遠近,把相似的客戶聚集為一類,從而有效的細分客戶。將全體客戶劃分為諸如,理財偏好者、基金偏好者、活期偏好者、國債偏好者、風險均衡者、渠道偏好者等。
基於異常值分析的案例:支付中的交易欺詐偵測採用支付寶支付時,或者刷信用卡支付時,系統會實時判斷這筆刷卡行為是否屬於盜刷。通過判斷刷卡的時間、地點、商戶名稱、金額、頻率等要素進行判斷。這裡面基本的原理就是尋找異常值。如果您的刷卡被判定為異常,這筆交易可能會被終止。
異常值的判斷,應該是基於一個欺詐規則庫的。可能包含兩類規則,即事件類規則和模型類規則。第一,事件類規則,例如刷卡的時間是否異常(凌晨刷卡)、刷卡的地點是否異常(非經常所在地刷卡)、刷卡的商戶是否異常(被列入黑名單的套現商戶)、刷卡金額是否異常(是否偏離正常均值的三倍標准差)、刷卡頻次是否異常(高頻密集刷卡)。第二,模型類規則,則是通過演算法判定交易是否屬於欺詐。一般通過支付數據、賣家數據、結算數據,構建模型進行分類問題的判斷。
基於協同過濾的案例:電商猜你喜歡和推薦引擎電商中的猜你喜歡,應該是大家最為熟悉的。在京東商城或者亞馬遜購物,總會有「猜你喜歡」、「根據您的瀏覽歷史記錄精心為您推薦」、「購買此商品的顧客同時也購買了商品」、「瀏覽了該商品的顧客最終購買了商品」,這些都是推薦引擎運算的結果。
這裡面,確實很喜歡亞馬遜的推薦,通過「購買該商品的人同時購買了**商品」,常常會發現一些質量比較高、較為受認可的書。一般來說,電商的「猜你喜歡」(即推薦引擎)都是在協同過濾演算法(Collaborative Filter)的基礎上,搭建一套符合自身特點的規則庫。即該演算法會同時考慮其他顧客的選擇和行為,在此基礎上搭建產品相似性矩陣和用戶相似性矩陣。基於此,找出最相似的顧客或最關聯的產品,從而完成產品的推薦。
基於社會網路分析的案例:電信中的種子客戶種子客戶和社會網路,最早出現在電信領域的研究。即,通過人們的通話記錄,就可以勾勒出人們的關系網路。電信領域的網路,一般會分析客戶的影響力和客戶流失、產品擴散的關系。
基於通話記錄,可以構建客戶影響力指標體系。採用的指標,大概包括如下,一度人脈、二度人脈、三度人脈、平均通話頻次、平均通話量等。基於社會影響力,分析的結果表明,高影響力客戶的流失會導致關聯客戶的流失。其次,在產品的擴散上,選擇高影響力客戶作為傳播的起點,很容易推動新套餐的擴散和滲透。
此外,社會網路在銀行(擔保網路)、保險(團伙欺詐)、互聯網(社交互動)中也都有很多的應用和案例。
基於文本分析的案例這裡面主要想介紹兩個案例。一個是類似「掃描王」的APP,直接把紙質文檔掃描成電子文檔。相信很多人都用過,這里准備簡單介紹下原理。另外一個是,江湖上總是傳言紅樓夢的前八十回和後四十回,好像並非都是出自曹雪芹之手,這裡面准備從統計的角度聊聊。
字元識別:掃描王APP手機拍照時會自動識別人臉,還有一些APP,例如掃描王,可以掃描書本,然後把掃描的內容自動轉化為word。這些屬於圖像識別和字元識別(Optical Character Recognition)。圖像識別比較復雜,字元識別理解起來比較容易些。
查找了一些資料,字元識別的大概原理如下,以字元S為例。
第一,把字元圖像縮小到標准像素尺寸,例如12*16。注意,圖像是由像素構成,字元圖像主要包括黑、白兩種像素。
第二,提取字元的特徵向量。如何提取字元的特徵,採用二維直方圖投影。就是把字元(12*16的像素圖)往水平方向和垂直方向上投影。水平方向有12個維度,垂直方向有16個維度。這樣分別計算水平方向上各個像素行中黑色像素的累計數量、垂直方向各個像素列上的黑色像素的累計數量。從而得到水平方向12個維度的特徵向量取值,垂直方向上16個維度的特徵向量取值。這樣就構成了包含28個維度的字元特徵向量。
第三,基於前面的字元特徵向量,通過神經網路學習,從而識別字元和有效分類。
文學著作與統計:紅樓夢歸屬這是非常著名的一個爭論,懸而未決。對於紅樓夢的作者,通常認為前80回合是曹雪芹所著,後四十回合為高鶚所寫。其實主要問題,就是想確定,前80回合和後40回合是否在遣詞造句方面存在顯著差異。
這事讓一群統計學家比較興奮了。有些學者通過統計名詞、動詞、形容詞、副詞、虛詞出現的頻次,以及不同詞性之間的相關系做判斷。有些學者通過虛詞(例如之、其、或、亦、了、的、不、把、別、好),判斷前後文風的差異。有些學者通過場景(花卉、樹木、飲食、醫葯與詩詞)頻次的差異,來做統計判斷。總而言之,主要通過一些指標量化,然後比較指標之間是否存在顯著差異,藉此進行寫作風格的判斷。
以上是小編為大家分享的關於數據挖掘演算法與生活中的應用案例的相關內容,更多信息可以關注環球青藤分享更多干貨
⑼ 股票軟體里怎麼看整體盈利
登錄股票賬戶後在「我的持倉」中即可看到成本價,盈利率,單個股票盈利和總盈利
股票軟體即針對股票交易而開發的軟體系統,也被稱為炒股軟體,基礎功能包括財經資訊、股票行情、數據挖掘與分析、智能選股、交易系統。國內的股票軟體從上世紀九十年代初的少數幾家的獨領風騷,到已經發展成為百家齊放的局面,比較有代表性的軟體有:投資保姆、大智慧、錢龍、益盟操盤手、同花順、wind等,有的以行情實時性見長,有的以咨詢研究擅場,各具特色。
股票軟體的實質是通過對市場信息數據的統計,按照一定的分析模型來給出數(報表)、形(指標圖形)、文(資訊鏈接)。用戶則依照一定的分析理論,來對這些結論進行解釋,也有一些傻瓜式的易用軟體會直接給出買賣的建議。其實,比較正確,或者實在的用法,是應該挑選一款性能穩定、信息精準的軟體,結合自己的炒股經驗,經過摸索之後,形成一套行之有效的應用法則,那樣才是值得信賴的辦法,而機械地輕信軟體自動發出的進場離場的信號,往往會謬以千里。
⑽ 現在最好用的免費股票分析軟體是哪
你好( ^_^)/感謝你的邀請!
很多人問:免費的股票分析軟體真的好用嗎?答案是:市面上有好用的!只是你沒發現!
簡單點的,同花順旗下投資賬本APP,可以導入股票基金、定期存款,數據實時同步,分析近2年收益盈虧。
另外,分析股票走勢的方法很多,如下就常用的一些方法列舉出來:
技術分析:
1.看K線圖 股價是處於上升通道還是下跌通道?上升通道可以關注,但不要盲目追高,下跌通道不要碰。
2.看金叉死叉 當短期均線上穿中期或者長期均線時,形成最佳買點即金叉;短期均線下穿中期或者長期均線時,形成最佳賣點即死叉。這時再賣已有些下跌,因炒股軟體裡面的指 標有些滯後。
3.看量價關系 沒放量股價在微漲,說明主力在布局;在上升通道中,明顯放量但股價微跌,此時主力在盤整打壓散戶;放量逐漸加劇,此時拉高,主力快出貨了,不要盲目追漲。 後面劇烈放量股價並未漲就是主力悄悄出貨了。
基本面分析:
1.看公司有沒有重組消息?重組包含很多方面。
2.看公司是否有關聯交易?
3.看公司前期是否有虧損?
4.看上市公司產品是否屬於國家政策扶持還是打壓的?
5.看公司的盈利能力。 只要把以上的方法真正撐握了,你就是一個穩健的股票玩家了!但要注意炒股的心態!做短線,中線,長線完全看你個人的資金量了!
投資者炒股得掌握好一定的經驗和技巧,這樣才能分析出好的股票,平時得多看,多學,多做模擬盤,多和股壇老將們交流。吸收他們的經驗。
如果一個股民經常虧損,我建議他要反思,需要總結一套自己炒股盈利的方法,這樣炒股相對來說要穩妥得多,我現在也一直都在追蹤同花順投資賬本里的高手學習,感覺還是受益良多,願能幫助到你,祝投資愉快!