1. 量化投資
沒有你想的書
我多年來都有關注這方面的書 可是也沒有在國內找到
數量化投資是將投資理念及策略通過具體指標、參數的設計,體現到具體的模型中,讓模型對市場進行不帶任何情緒的跟蹤;相對於傳統投資方式來說,具有快速高效、客觀理性、收益與風險平衡和個股與組合平衡等四大特點。量化投資技術幾乎覆蓋了投資的全過程,包括估值與選股、資產配置與組合優化、訂單生成與交易執行、績效評估和風險管理等,在各個環節都有不同的方法及量化模型:
一、估值與選股
估值:對上市公司進行估值是公司基本面分析的重要方法,在「價值投資」的基本邏輯下,可以通過對公司的估值判斷二級市場股票價格的扭曲程度,繼而找出價值被低估或高估的股票,作為投資決策的參考。對上市公司的估值包括相對估值法和絕對估值法,相對估值法主要採用乘數方法,如PE估值法、PB估值法、PS估值法、PEG估值法、PSG估值法、EV/EBITDA估值法等;絕對估值法主要採用折現的方法,如公司自由現金流模型、股權自由現金流模型和股利折現模型等。相對估值法因簡單易懂,便於計算而被廣泛使用;絕對估值法因基礎數據缺乏及不符合模型要求的全流通假設而一直處於非主流地位。隨著全流通時代的到來和國內證券市場的快速發展,絕對估值法正逐漸受到重視。
選股:在當前品種繁多的資本市場中,從浩瀚復雜的數據背後選出適合自己投資風格的股票變得越加困難。在基本面研究的基礎上結合量化分析的手段就可以構建數量化選股策略,主流的選股方法如下:
資產配置方法與模型
資產配置類別 資產配置層次 資產配置方法 資產配置模型
戰略資產配置 全球資產配置 大類資產配置 行業風格配置 收益測度 風險測度 估計方法 馬克維茨 MV 模型 均值 -LPM 模型 VaR 約束模型 Black-Litterman 模型
戰術資產配置 ( 動態資產配置 ) 周期判斷 風格判斷 時機判斷 行業輪動策略 風格輪動策略 Alpha 策略 投資組合保險策略
基本面選股:通過對上市公司財務指標的分析,找出影響股價的重要因子,如:與收益指標相關的盈利能力、與現金流指標相關的獲現能力、與負債率指標相關的償債能力、與凈資產指標相關的成長能力、與周轉率指標相關的資產管理能力等。然後通過建立股價與因子之間的關系模型得出對股票收益的預測。股價與因子的關系模型分為結構模型和統計模型兩類:結構模型給出股票的收益和因子之間的直觀表達,實用性較強,包括價值型(本傑明·格雷厄姆—防禦價值型、查爾斯·布蘭迪—價值型等)、成長型(德伍·切斯—大型成長動能、葛廉·畢克斯達夫—中大型成長股等)、價值成長型(沃倫·巴菲特—優質企業選擇法、彼得·林奇—GARP價值成長法等)三種選股方法;統計模型是用統計方法提取出近似線性無關的因子建立模型,這種建模方法因不需先驗知識且可以檢驗模型的有效性,被眾多經濟學家推崇,包括主成分法、極大似然法等。
多因素選股:通過尋找引起股價共同變動的因素,建立收益與聯動因素間線性相關關系的多因素模型。影響股價的共同因素包括宏觀因子、市場因子和統計因子(通過統計方法得到)三大類,通過逐步回歸和分層回歸的方法對三類因素進行選取,然後通過主成分分析選出解釋度較高的某幾個指標來反映原有的大部分信息。多因素模型對因子的選擇有很高的要求,因子的選擇可依賴統計方法、投資經驗或二者的結合,所選的因子要有統計意義上或市場意義上的顯著性,一般可從動量、波動性、成長性、規模、價值、活躍性及收益性等方面選擇指標來解釋股票的收益率。
動量、反向選股:動量選股策略是指分析股票在過去相對短期的表現,事先對股票收益和交易量設定條件,當條件滿足時買進或賣出股票的投資策略,該投資策略基於投資者對股票中期的反應不足和保守心理,在投資行為上表現為購買過去幾個月表現好的股票而賣出過去幾個月表現差的股票。反向選股策略則基於投資者的錨定和過度自信的心理特徵,認為投資者會對上市公司的業績狀況做出持續過度反應,形成對業績差的公司業績過分低估和業績的好公司業績過分高估的現象,這為投資者利用反向投資策略提供了套利機會,在投資行為上表現為買進過去表現差的股票而賣出過去表現好的股票。反向選股策略是行為金融學理論發展至今最為成熟,也是最受關注的策略之一。
二、資產配置
資產配置指資產類別選擇、投資組合中各類資產的配置比例以及對這些混合資產進行實時管理。資產配置一般包括兩大類別、三大層次,兩大類別為戰略資產配置和戰術/動態資產配置,三大層次為全球資產配置、大類資產配置和行業風格配置。資產配置的主要方法及模型如下:
戰略資產配置針對當前市場條件,在較長的時間周期內控制投資風險,使得長期風險調整後收益最大化。戰術資產配置通常在相對較短的時間周期內,針對某種具體的市場狀態制定最優配置策略,利用市場短期波動機會獲取超額收益。因此,戰術資產配置是在長期戰略配置的過程中針對市場變化制定的短期配置策略,二者相互補充。戰略資產配置為未來較長時間內的投資活動建立業務基準,戰術資產配置通過主動把握投資機會適當偏離戰略資產配置基準,獲取超額收益。
三、股價預測
股價的可預測性與有效市場假說密切相關。如果有效市場假說成立,股價就反映了所有相關的信息,價格變化服從隨機遊走,股價的預測就毫無意義,而我國的股市遠未達到有效市場階段,因此股價時間序列不是序列無關,而是序列相關的,即歷史數據對股價的形成起作用,因此可以通過對歷史信息的分析來預測股價。
主流的股價預測模型有灰色預測模型、神經網路預測模型和支持向量機預測模型(SVM)。灰色預測模型對股價的短期變化有很強的預測能力,近年發展起來的灰色預測模型包括GM(1, 1)模型、灰色新陳代謝模型和灰色馬爾可夫模型。人工神經網路模型具有巨量並行性、存儲分布性、結構可變性、高度非線性和自組織性等特點,且可以逼近任何連續函數,目前在金融分析和預測方面已有廣泛的應用,效果較好。支持向量機模型在解決小樣本、非線性及高維模式識別問題中有許多優勢,且結構簡單,具有全局優化性和較好的泛化能力,比神經網路有更好的擬合度。
四、績效評估
作為集合投資、風險分散、專業化管理、變現性強等特點的投資產品,基金的業績雖然受到投資者的關注,但要對基金有一個全面的評價,則需要考量基金業績變動背後的形成原因、基金回報的來源等因素,績效評估能夠在這方面提供較好的視角與方法,風險調整收益、擇時/股能力、業績歸因分析、業績持續性及Fama的業績分解等指標和方法可從不同的角度對基金的績效進行評估。
績效評估模型 / 指標
績效評估准則
擇時 / 股能力
業績歸因分析
風險調整收益
業績持續性
Fama 業績分解
模型 / 指標
T-M 模型
H-M 模型
GII 模型
C-L 模型
資產配置收益
證券選擇收益
行業選擇收益
行業內個股選擇收益
RAROC
Sharp, Stutzer
Treynor, Jensen
, ,
雙向表分析
時間序列相關性
總風險收益
系統風險收益
分散化投資收益
五、基於行為金融學的投資策略
上世紀50~70年代,隨著馬科維茨組合理論、CAPM模型、MM定理及有效市場假說的提出,現代金融經濟學建立了一套成熟的理論體系,並且在學術界占據了主導地位,也被國際投資機構廣泛應用和推廣,但以上傳統經濟學的理論基石是理性人假設,在理性人假設下,市場是有效率的,但進入80年代以後,關於股票市場的一系列研究和實證發現了與理性人假設不符合的異常現象,如:日歷效應、股權溢價之謎、期權微笑、封閉式基金折溢價之謎、小盤股效應等。面對這些金融市場的異常現象,諸多研究學者從傳統金融理論的基本假設入手,放鬆關於投資者是完全理性的嚴格假設,吸收心理學的研究成果,研究股市投資者行為、價格形成機制與價格表現特徵,取得了一系列有影響的研究成果,形成了具有重要影響力的學術流派-行為金融學。
行為金融學是對傳統金融學理論的革命,也是對傳統投資實踐的挑戰。隨著行為金融理論的發展,理論界和投資界對行為金融理論和相關投資策略作了廣泛的宣傳和應用,好買認為,無論機構投資者還是個人投資者,了解行為金融學的指導意義在於:可以採取針對非理性市場行為的投資策略來實現投資目標。在大多數投資者認識到自己的錯誤以前,投資那些定價錯誤的股票,並在股價正確定位之後獲利。目前國際金融市場中比較常見且相對成熟的行為金融投資策略包括動量投資策略、反向投資策略、小盤股策略和時間分散化策略等。
六、程序化交易與演算法交易策略
根據NYSE的定義,程序化交易指任何含有15隻股票以上或單值為一百萬美元以上的交易。程序化交易強調訂單是如何生成的,即通過某種策略生成交易指令,以便實現某個特定的投資目標。程序化交易主要是大機構的工具,它們同時買進或賣出整個股票組合,而買進和賣出程序可以用來實現不同的目標,目前程序化交易策略主要包括數量化程序交易策略、動態對沖策略、指數套利策略、配對交易策略和久期平均策略等。
演算法交易,也稱自動交易、黑盒交易或無人值守交易,是使用計算機來確定訂單最佳的執行路徑、執行時間、執行價格及執行數量的交易方法,主要針對經紀商。演算法交易廣泛應用於對沖基金、企業年金、共同基金以及其他一些大型的機構投資者,他們使用演算法交易對大額訂單進行分拆,尋找最佳路由和最有利的執行價格,以降低市場的沖擊成本、提高執行效率和訂單執行的隱蔽性。任何投資策略都可以使用演算法交易進行訂單的執行,包括做市、場內價差交易、套利及趨勢跟隨交易。演算法交易在交易中的作用主要體現在智能路由、降低沖擊成本、提高執行效率、減少人力成本和增加投資組合收益等方面。主要的演算法包括:交易量加權平均價格演算法(VWAP)、保證成交量加權平均價格演算法(Guaranteed VWAP)、時間加權平均價格演算法(TWAP)、游擊戰演算法(Guerrilla)、狙擊手演算法(Sniper)、模式識別演算法(Pattern Recognition)等。
綜上所述,數量化投資技術貫穿基金的整個投資流程,從估值選股、資產配置到程序化交易與績效評估等。結合量化投資的特點及我國證券市場的現狀,好買認為量化投資技術在國內基金業中的應用將主要集中在量化選股、資產配置、績效評估與風險管理、行為金融等方面,而隨著包括基金在內的機構投資者佔比的不斷提高、衍生品工具的日漸豐富(股指期貨、融資融券等)以及量化投資技術的進步,基金管理人的投資策略將會越來越復雜,程序化交易(系統)也將有快速的發展。
2. 楊劍波:量化交易應用的三大領域
全球范圍內,量化交易的應用主要分為以下三大領域:
第一、選股、擇時的工具。
傳統的基於基本面的投資方法主要看財務指標及估值指標。研究方法主要是研究上市公司財務報表、實地調研、行業比較並結合宏觀分析。通常的方法是自上而下或自下而上的選股。至於擇時,則更多地依靠宏觀、上市公司基本面、市場情緒,以及基金公司自身的排名等因素的考量。
基於量化的交易,選股和擇時的指標完全不同。以最有名的兩類策略——動量和反轉為例。動量策略是說前一段時間強的股票會繼續強;反轉是指前一段時間表現弱的股票會在一段時間後走強。
這類理論都是基於「行為金融學」。行為金融學是和「有效市場假說」相對應的理論,以金融學、心理學等學科結合而形成的一門新興子學科。它認為交易中的投資者短期有可能是理性的、但長期而言未必是理性的。因此會產生很多和有效市場相對立的「市場異象」。行為金融學正是描述和應用這些「市場異象」的學科。行為金融學在交易中的運用,就是用各種方法,包括但不限於動量和反轉,來對股票的選擇以及交易時機的選擇運行研究和決策。
第二、套利類。
主要的套利策略有十幾種。大概包括:
1)市場中性:即多空投資,凈頭寸為零。最純正的市場中性,同時會力求多因子的凈頭寸為零。例如,行業凈頭寸為零,風格因子為零等等。
2)多空對沖:這是傳統的對沖基金。多空投資,凈頭寸沒有一個固定比率投資股票市場。不過現實中,這類投資風格,大多以凈多頭方式投資。凈多頭比率多數在10%到20%之間。
3)期權策略:以期權為主要投資驅動,捕捉波動率錯估而造成的期權價格錯位,運行交易。
4)統計套利:簡單地說,就是以量化統計方法對市場中的交易產品運行研究,發現市場特性,設計演算法,運行交易。
5)可轉債套利:利用可轉債的價格錯位,特別是對內涵期權的估值不準時,運行套利交易。交易基本上是買入可轉債,根據動態對沖的方法做空股票。如果需要市場動態中性,則要運行動態對沖。
6)信用套利:買入信用評級改善的債券,同時賣出信用評級惡化的債券。利用多空來對沖利率風險和債券市場風險。由於重要企業事件對信用評級的重大影響,信用套利的策略很多時候會和事件驅動策略和收購合並風險套利策略重疊。
7)事件驅動:在發生重要企業事件時,或預測將發生重要企業事件時,對企業的各類金融資產運行投資,包括股票、債券及其衍生物。
8)管理期貨:投資期貨市場,以求獲得絕對收益。由於全球期貨流動性好,品種多,市場容積大,使得這類對沖基金可以做到非常大的規模,例如元富Winton、曼氏Man和BlueCrest。另外,這類基金透明度高,容易被投資者理解。
9)壞賬處理:買入折扣很大,市場不待見,流動性相對較差的資產。利用高風險折扣率造成的價格錯位,運行投資配置,以獲得高收益。
10)只做多:以只做多的單邊方式,投資股票市場。最早期的投資公司,以及國內大多數私募,歸屬此類。
11)偏空策略:多空投資,但是以凈空頭的方式,投資股票市場。這類公司主要是滿足機構投資者完善投資組合的需要。
12)混合策略:以公司為單位,結合公司內部的各種策略而推出的策略。相對於FoF(fund of fund,基金中的基金),這種策略有FoF的一些特點,同時相對來說投資者成本要低。
13)固定收益:以固定收益的債券和利率產品為交易產品,追求絕對收益。包括固定收益方向性交易和固定收益套利。
第三、演算法交易。
演算法交易又稱程序化交易,是指通過程序發出的指令運行交易的方法。演算法交易的產生和交易者將訂單咐漏拆成若干小單以減少沖擊成本、提高盈利率。同旅做時,演算法交易可以達到交易者隱蔽交易、避免把交易目標、交易量暴露給競爭者的目的。
國際上常用的演算法交易包括以成交量加權平均價格運行成交,簡稱VWAP(Volume Weighted Average Price),以及時間加權平均成交,簡稱TWAP(Time Weighted Average Price)。前者主要是指交易者的交易量提交比例要與市場成交比例盡可能吻合,在最小化對市場沖擊的同時,獲得市場成交均價的價格。後者則是根據特定的時間間隔,在每個時間點上平均下單的演算法。
在國際資本市場中,一般是大型投行的大宗經紀部門(Primary Brokerage)對基金公司以及投行內部的自營拆簡衡等部門供應演算法交易的服務,並根據交易量運行收費。這也是大型投行最主要的盈利方式之一。
3. 如果股市裡面有很多智能炒股機器,散戶還有機會賺錢嗎
我看很多朋友還不知道程序化交易在A股已經達到了什麼水平,我就給各位普及一下。
曾經,我認為量化交易離我們很遠,它只存在於書本和美股之中,A股仍是散戶主導,每一個跳動的數字背後都是追漲殺跌的投資者,每一快電腦屏幕前,都是陰險的莊家或無知的散戶,我的每一筆成交單都是在與對方博弈。
但是,越來越多離奇成交單告訴我,你的對手盤,可能根本不是人。
成交明細是股票交易中最重要的數據,所有K線和指標都是根據它製作而成。滬深交易所每3秒推送一次成交信息,我們經常能看到某隻成交量極低的個股,不時就會出現一個整數倍的大額成交單,而這個成交單由幾十筆甚至幾百筆組成,在3s內報送。
這就屬於典型的程序化交易,如果你研究過成交分時走勢,會發現個股的每一個反轉、暴漲、暴跌的背後,都有這類大單的影子,程序化交易一直在引導股價走勢,它早已滲透A股的每一個角落,存在於你的每一支持倉個股之中。
據上海證券交易所統計,2017年滬市程序化交易賬戶共1.26萬戶,與4546萬總活躍賬戶相比,僅佔0.06%,其日均成交量達到706億,占總成交量的15%,成交量遠遠高於普通賬戶,這1.26萬的賬戶持倉市值達到2.8萬億,平均每個賬戶持倉超過2億,還不包括現金余額。
毫無疑問,這些超級賬戶在A股市場中是神一般的存在,它們將從以下三個維度對普通投資者形成降維打擊。
資金量壓制
資金量對於炒股而言具有天然的優勢,每一個超級賬戶都可以拉動任意一支股票漲停,甚至能左右上證指數,這1.26萬程序交易賬戶持有的市值占股市全部活躍賬戶的20.8%,完全可以將上證指數拉到4000點,或者打到2000點。
但錢多也有錢多的煩惱。比如,還沒有完成建倉,股價就已經飛漲;還沒賣出一半,股價就跌回了買點。但當大資金與程序交易相結合的時候,這些超級賬戶會用事實告訴你,悄悄建倉、悄悄出貨根本不是難題。
股票的成交量明顯是分時段的,早上9:30——10:00是交易最活躍的時段,10;00——14:00成交量相對較少,收盤時分成交量再次提升,如果某個人想要購買大盤指數,肯定會將更多的籌碼分布在早盤和尾盤成交量多的時候,其他時間買入量較少,這就是目前市場中最流行的VWAP程序化交易策略。
可以看出,無論牛熊,券商炒股都在賺錢,從來沒有任何一個季度虧損,如果中國股市中存在股神,那一定是券商,而這1.26萬程序化超級賬戶,在其中扮演了重要的角色。
超級賬戶將增多
近期,證監會要放開程序化交易介面給私募,也就是要擴大這1.26萬賬戶的范圍,用來提升A股的成交量。
毫無疑問,增加程序化交易介面,肯定能增加成交量,也能提高券商的傭金收入,還能提升中國的金融科技水平,甚至可能締造下一輪牛市,無論從任何一個宏觀維度對A股都是利好,但是,對現有的五千萬活躍股民是利好嗎?
不一定,當前,每6筆交易之中,就有1筆程序化交易,介面開放之後,可能每兩筆交易就有1筆程序交易,或許比例更高,美國程序化交易比例已經超過80%,當市場中的引導者增多,散戶投資者的力量就會越來越薄弱,市場交易狀況會更加復雜難以預測,一句話可以概括未來的A股,神仙打架,散戶靠邊,想在股市中賺錢,會越來越難。
4. 如何建立自己的演算法交易
一、傳統方法
在某些假設下的顯式最優策略
【Bertsimas, Dimitris, and Andrew W. Lo. "Optimal control of execution costs."Journal of Financial Markets1.1 (1998): 1-50.】這里假設了不同的指啟襪價格沖擊函數,然後求解得到最優的交易執行方案。根據參數的不同,最優的策略要麼是全部開頭賣掉、均勻減倉、或者全部最後賣掉。https://stuff.mit.e/afs/athena.mit.e/user/d/b/dbertsim/www/papers/Finance/Optimal%20control%20of%20execution%20costs.pdf
【Almgren, Robert, and Neil Chriss. "Optimal execution of portfolio transactions." Journal of Risk 3 (2001): 5-40. 】這篇文章我們專欄前面有講過,很著名的 Almgren-Chriss 模型。https://www.smallake.kr/wp-content/uploads/2016/03/optliq.pdf張楚珩:【交易執行】Almgren-Chriss Model
【Guéant O, Lehalle C A, Fernandez-Tapia J. Optimal portfolio liquidation with limit orders[J]. SIAM Journal on Financial Mathematics, 2012, 3(1):740-764.】這篇文章我們專欄前面也有講過;前面的 Almgren-Chriss 其實考慮的是使用市價單,而這里考慮使用限價單進行交易。https://arxiv.org/pdf/1106.3279.pdf張楚珩:【交易執行】限價單交易執行
【Guéant, Olivier, and Charles‐Albert Lehalle. "General intensity shapes in optimal liquidation." Mathematical Finance 25.3 (2015): 457-495.】這里也是考慮限價單進行交易,但是與前面唯激不同的是:前一個假設限價單考慮的成交概率隨著價格指數衰減,而這里考慮了一個更加一般的形式。https://arxiv.org/pdf/1204.0148.pdf
【Cartea A, Jaimungal S. Optimal execution with limit and market orders[J]. Quantitative Finance, 2015, 15(8): 1279-1291.】這里考慮同時使用限價單和市價單進行交易,從而能夠完成 Almgren-Chriss 模型所規定的方案,或者找到一個更有的交易旁攔方案。https://sci-hub.se//https://www.tandfonline.com/doi/abs/10.1080/14697688.2015.1032543
【Bulthuis, Brian, et al. "Optimal execution of limit and market orders with trade director, speed limiter, and fill uncertainty." International Journal of Financial Engineering 4.02n03 (2017): 1750020.】也是考慮使用限價單和市價單一起交易。https://arxiv.org/pdf/1604.04963.pdf張楚珩:【交易執行】市價單+限價單 最優執行
【Cartea A, Jaimungal S. Incorporating order-flow into optimal execution[J]. Mathematics and Financial Economics, 2016, 10(3): 339-364.】這里考慮市場所有交易者的訂單都會產生線性的短期/長期市場沖擊,因此可以估計未來一段時間的訂單流向(買單總量和賣單總量的差),從而能夠在 Almgren-Chriss 模型的基礎上進行一定的調整,使得策略更優。https://sci-hub.se//https://link.springer.com/content/pdf/10.1007/s11579-016-0162-z.pdf
圖書
【Cartea Á, Jaimungal S, Penalva J. Algorithmic and high-frequency trading[M]. Cambridge University Press, 2015.】講交易執行的基礎上,更側重講了一些數學工具。
【Guéant O. The Financial Mathematics of Market Liquidity: From optimal execution to market making[M]. CRC Press, 2016.】從 Almgren-Chriss 模型開始講,一直到相應的拓展和實際的問題,十分推薦。
融合對於市場環境隱變數的估計
【Casgrain P, Jaimungal S. Trading algorithms with learning in latent alpha models[J]. Mathematical Finance, 2019, 29(3): 735-772.】市場交易者會根據不同的市場掛單和價格走勢而採取不同的反映,因此我們也可以根據歷史數據學習到各種情況下的價格後驗分布,從而更好地幫助我們進行交易執行或者套利。最後的結果可以看做在 Almgren-Chriss 模型的基礎上外加了一個調控項,反映我們對於未來的預期。https://arxiv.org/pdf/1806.04472.pdf
如何實現以按量加權平均價格(VWAP)交易
【Kakade, Sham M., et al. "Competitive algorithms for VWAP and limit order trading." Proceedings of the 5th ACM conference on Electronic commerce. 2004.】從在線學習的角度提出了幾個用於使得我們交易到 VWAP 價格的模型。為什麼會關注 VWAP 的交易執行?當大的流通股股東需要減持的時候,為了避免直接出售引起的價格波動,一般是把需要減持的股票賣給券商,然後由券商來拆單出售,而交易價格一般為未來一段時間的 VWAP,因此券商需要盡量以 VWAP 來交易執行。https://sci-hub.se//https://dl.acm.org/doi/abs/10.1145/988772.988801
【Białkowski, Jędrzej, Serge Darolles, and Gaëlle Le Fol. "Improving VWAP strategies: A dynamic volume approach." Journal of Banking & Finance 32.9 (2008): 1709-1722.】改進對於交易量的建模,從而得到更好的 VWAP 交易演算法。把交易量拆分為兩個部分,一部分是市場整體的交易量變動,另一部分是特定股票上的交易量模式。https://sci-hub.se//https://www.sciencedirect.com/science/article/pii/S0378426607003226
以按時間加權平均價格(TWAP)交易
為了對稱,可以介紹一下另一種加權平均的情形 TWAP,這種情形實現起來相對比較簡單;如果不考慮市場沖擊,就拆分到每個時間步上均勻出售即可實現。
可以證明 TWAP 交易在以下兩種情形下最優:市場價格為布朗運動並且價格沖擊為常數;對於晚交易沒有懲罰(其實更晚交易意味著面臨更大的風險),但是對於最後未完成交易的懲罰較大。
二、強化學習方法
基於傳統模型的強化學習方法
【Hendricks D, Wilcox D. A reinforcement learning extension to the Almgren-Chriss framework for optimal trade execution[C]//2014 IEEE Conference on Computational Intelligence for Financial Engineering & Economics (CIFEr). IEEE, 2014: 457-464.】本專欄有講。https://arxiv.org/pdf/1403.2229.pdf
強化學習 + 交易執行(Paper/Article)
【Nevmyvaka Y, Feng Y, Kearns M. Reinforcement learning for optimized trade execution[C]//Proceedings of the 23rd international conference on Machine learning. 2006: 673-680.】比較經典的一篇,發在 ICML 上,本專欄前面有講。使用 DQN 方法,實現形式接近 DP。http://smallake.kr/wp-content/uploads/2019/01/rlexec.pdf
【Dabérius K, Granat E, Karlsson P. Deep Execution-Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks[J]. Available at SSRN 3374766, 2019.】使用了 DDQN 和 PPO 方法,基於生成的價格序列來進行實驗,使用特定的模型考慮短期和長期市場沖擊。https://sci-hub.se//https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3374766
【Ning B, Lin F H T, Jaimungal S. Double deep q-learning for optimal execution[J]. arXiv preprint arXiv:1812.06600, 2018.】DDQN 的強化學習解法,在美股上實驗。https://arxiv.org/pdf/1812.06600.pdf
【Lin S, Beling P A. An End-to-End Optimal Trade Execution Framework based on Proximal Policy Optimization[C]//IJCAI. 2020: 4548-4554.】使用 PPO 的解法,比較有意思的是這裡面的實驗結果顯示,使用 LSTM 和把歷史數據全部堆疊起來用 MLP 效果差距不大。也是在美股上實驗。https://www.ijcai.org/Proceedings/2020/0627.pdf
【Fang Y, Ren K, Liu W, et al. Universal Trading for Order Execution with Oracle Policy Distillation[J]. arXiv preprint arXiv:2103.10860, 2021.】在使用強化學習的基礎上,引入了一個教師網路,教師網路學習一個基於未來數據的策略,並且用於訓練學生網路。本專欄前面有講。https://www.aaai.org/AAAI21Papers/AAAI-3650.FangY.pdf
【Vyetrenko S, Xu S. Risk-sensitive compact decision trees for autonomous execution in presence of simulated market response[J]. arXiv preprint arXiv:1906.02312, 2019.】ICML-19 的文章。構造了一個可以反映市價單市場沖擊的模擬器;使用 tabular Q-learning 來學習基於決策樹的模型;使用特徵選擇的方法來篩選特徵。通過以上方式,能夠學習到一個模型幫助決策什麼時候應該下市價單、什麼時候應該下限價單。https://arxiv.org/pdf/1906.02312.pdf
【Akbarzadeh N, Tekin C, van der Schaar M. Online learning in limit order book trade execution[J]. IEEE Transactions on Signal Processing, 2018, 66(17): 4626-4641.】從 online learning 的視角來解決這個問題,使用 DP 類的方法,分析 regret 。http://repository.bilkent.e.tr/bitstream/handle/11693/50289/Bilkent-research-paper.pdf?sequence=1
【Wei H, Wang Y, Mangu L, et al. Model-based reinforcement learning for predictions and control for limit order books[J]. arXiv preprint arXiv:1910.03743, 2019.】專欄剛剛講了的一篇文章,使用 model-based 類的強化學習演算法,直接學習一個世界模型,然後讓強化學習策略通過和世界模型的交互進行學習。https://arxiv.org/pdf/1910.03743.pdf
【Karpe M, Fang J, Ma Z, et al. Multi-agent reinforcement learning in a realistic limit order book market simulation[J]. arXiv preprint arXiv:2006.05574, 2020.】這里的多智能體似乎適用於結合歷史數據生成其他市場參與者的動作,而最優策略的學習仍然是使用單智能體 DDQN 方法來做。他們開源了一個考慮多智能體的模擬環境 ABIDES。https://arxiv.org/pdf/2006.05574.pdf
【Schnaubelt M. Deep reinforcement learning for the optimal placement of cryptocurrency limit orders[J]. European Journal of Operational Research, 2022, 296(3): 993-1006.】研究數字貨幣上如何下限價單。對比了 PPO 和 DDQN,發現 PPO 更好。探索出了一些重要的因子,比如 current liquidity cost,queue imbalance 等。https://www.econstor.eu/bitstream/10419/216206/1/1696077540.pdf
強化學習 + 交易執行 (Thesis)
【Hu R. Optimal Order Execution using Stochastic Control and Reinforcement Learning[J]. 2016.】KTH (瑞典)工程學院碩士論文。演算法直接是基於價值函數的動態規劃。不過提供了比較詳細的模擬環境和演算法偽代碼。https://www.diva-portal.org/smash/get/diva2:963057/FULLTEXT01.pdf
【Rockwell B. Optimal Order Execution with Deep Reinforcement Learning[J]. 2019.】加拿大蒙特利爾高等商學院碩士論文。使用 TD3 和 DDPG 演算法,不過實驗是基於人工生成的數據的(skew-normal Brownian motion)。https://biblos.hec.ca/biblio/memoires/m2019a628776.pdf
【Reiter M B. An Application of Deep Reinforcement Learning for Order Execution[D]. School of Engineering Science, Osaka University, 2020.】多倫多大學本科畢業論文。在使用 A3C 演算法的基礎上,考慮了使用教師學生網路的方式進行遷移學習,並且考慮了短期市場沖擊。https://mbreiter.github.io/doc/thesis.pdf
強化學習 + 風險偏好
Robust Risk-Sensitive Reinforcement Learning Agents for Trading Markets
Deep equal risk pricing of financial derivatives with non-translation invariant risk measures
強化學習 + 做市策略
Optimal Market Making by Reinforcement Learning
Optimizing Market Making using Multi-Agent Reinforcement Learning
Deep Reinforcement Learning for Market Making
Deep Recurrent Q-Networks for Market Making
Robust Market Making via Adversarial Reinforcement Learning
Market making via reinforcement learning
強化學習 + 資產組合
Deep Stock Trading: A Hierarchical Reinforcement Learning Framework for Portfolio Optimization and Order Execution
Robo-Advising: Enhancing Investment with Inverse Optimization and Deep Reinforcement Learning
Large Scale Continuous-Time Mean-Variance Portfolio Allocation via Reinforcement Learning
5. 求教通達信公式: 前一交易日的成交均價(VWAP),怎麼求得
當日成交總金額÷當日成交總股數=當日成交均價。
抱歉,昨天太晚了。
這是指標公式:
VWAP:AMOUNT/(VOL*100);
副圖疊加就好。
6. 個股走勢圖中黃線和白線的疑問
因為黃線是一天的平均線