‘壹’ 什么是量化交易
量化交易是指以先进的数学模型替代人为的主观判断,利用计算机技术磨氏族从庞大的历史数据中海核燃选能带来超额收益的多种“大概率”事件以制定策略,极大地减少了投资者情绪瞎弊波动的影响,避免在市场极度狂热或悲观的情况下作出非理性的投资决策。
‘贰’ 中远海控半年大赚647亿元,为何股价却迟迟不涨
7月6日晚,中远海控发布2022年上半年的业绩预告,预计上半年实现归母净利润约647.16亿元,同比增长旦橘约74.45%;扣非净利润约644.36亿元,同比增长约74.06%。次日,中远海控早盘高开,一度涨超7%,但随后回落,此后半个月持续走低。业内观点认为,中远海控被深度低估。
自疫情之后,整个航运市场迎来了难得一遇的牛市,中远海控等全球航运巨头也在这两年赚得盆满钵满。今年上半年,中远海控的业绩延续上年的“运数”,归母净利润在去年上半年业绩爆发的基础上实现74.45%的高增长,平均日赚约3.6亿元。
中远海控在公告中称,本期业绩预增的主要原因是2022年上半年,国际集装箱运输供求关系较为紧张,主干航线出口运价保持铅困高位运行。报告期内,中国出口集装箱运价综合指数(CCFI)均值为3286.03点,同比增长59%。
但在股市上,中远海运却并未获得同样的好运。
股价与业绩背离的现象,不仅出现在中远海控一家航运巨头身上。根据丹麦南方银行Sydbank的计算,今年上半年,长荣、赫伯罗特、马士基、阳明、HMM五大航运公司的总市值损失达420亿美元。
对于这一现象,有分析称,一是因为航运行业为周期性行业,目前市场景气度似乎已经见顶;二是中远海控2021年的分红方案存在争议。根据中远海控2021年年度权益分派实施公告,中远海控2021年全年净利润约900亿元,但分红比例却不高,每股分红还不到9毛钱(含税)。
近日中信建投的一份报告也显示,截至2022年7月6日,根据2022年一季度数据,中远海控A股净现金/净资产为1.11,净现金/净市值为0.86,PB仅为1.52;中远海控港股PB已破净至0.88。预计2022年底A股将破净至0.96,港股PB将深度破净至约0.59,港股账面净现金约为市值的2倍,企业价值已经为负,处于深度低估状态。
对于长期跌破净资产的情况,中远海控董秘回答称,从长期来看,市场是有效的,最终决定公司市场价值的是公司所在行业的景气度、竞争格局、公司经营业绩的持续性及核心竞争力。
Sydbank分析称,虽然收益继续增长,但航运公司的股价受到了投资者对于未来时间和航运公司未来收益的紧张情绪的影响。
今年上半年,国际海运运价持续下滑,尽管全球港口仍在拥堵,运价却未能像去年一样一路飞涨。
注册国际投资分析师贾亦真分析称,中远海控股价疲软的最重要原因,是行业预期海运的市场将要见顶,见顶之后会再次步入亏损期。他进一步分析,2021年中远海控的市净率为2.25倍,而根据今年年中业绩的数据,上半年中远海控的市净率是1.19倍,“这一数据充分反映了市场看到了未来海运市场运价回落,包括未来全球经济衰退下滑带来的风险。”
与此同时,市场下滑所带来的焦虑情绪也传导至股民身上。在近期关于中远海控的投资者提问中,有不少投资者就美西航线运价下滑、消费萎靡等提出疑问。
克拉克森在今年6月13日的一份研究也显示,目前已将全球海运集装箱贸易量增长预测下调至1.3%(以TEU计),同时箱海里贸易预测下调至0.5%。全球集运贸易面临的风险和不确定因素持续增多,当前预测仍存在继续下调的可能。
Sydbank高级分析师Mikkel Emil Jensen也表示:“随着利率上升和通胀加剧,消费者的购买力正在被吸走。因此,对商品的需求将减少。与此同时,消费模式也开始从电视、家具和建筑材料转向旅行等服务。”
市场下行的趋势已经十分明显,但需要注意的是,包括中远海运在内的航运公司自去年开始加大了签订长约协议的比重,从而稳定航运公司的收入,缓解即期运价大幅波动造成的影响。
中远海控副总经理陈帅在今年5月27日举行的股东大会上也表示,今年公司的签约目标已经全部完成,签约价格也较往年有了非常大的提升。
贾亦真分析,长约协议的运价同比至少翻番,欧线一年期的合约价格同比增长或达200%-400%。
据悉,中远海控的运价收入包括即期协议运价和长约协议运价两部分,但两种协议的具体占比公司不作披露。参考马士基71%的长约协议,中远海控的长约协议占比应该也不低,有分析认为可能槐迟念超过60%。如此一来,即便即期市场运价下滑,长约协议仍然起到托底作用,维持业绩。
“这就解释了为什么二季度海运费价格高位回落,但中远海控中报的业绩却出现了进一步增长,创出了单季度盈利的一个峰值。”贾亦真说。
‘叁’ 02 隐马尔可夫模型 - HMM的三个问题 - 概率计算问题
01 隐马尔可夫模型 - 马尔可夫链、HMM参数和性质
假设有三个盒子,编号为1,2,3;每个盒子都装有黑白两种颜色的小球,球的比例。如下:
按照下列规则的方式辩姿亏进行有放回的抽取小球,得到球颜色的观测序列:
1、按照π的概率选择一个盒子,从盒子中随机抽取出一个球,记录颜色后放回盒子中;
2、按照某种条件概率选择新的盒子,重复该操作;
3、最终得到观测序列:“白黑白白黑”
例如: 每次抽盒子按一定的概率来抽,也可以理解成随机抽。
第1次抽了1号盒子①,第2次抽了3号盒子③,第3次抽了2号盒子②.... ; 最终如下:
①→③→②→②→③ 状态值
白→黑→白→白→黑 观测值
1、 状态集合: S={盒子1,盒子2,盒子3}
2、 观测集合: O={白,黑}
3、 状态序列和观测序列的长度 T=5 (我抽了5次)
4、 初始概率分布: π 表示初次抽时,抽到1盒子的概率是0.2,抽到2盒子的概率是0.5,抽到3盒子的概率是0.3。
5、 状态转移概率矩阵 A:a11=0.5 表示当前我抽到1盒子,下次还抽到1盒子的概率是0.5;
6、 观测概率矩阵 - 混淆矩阵 - 为了不和之前的混淆矩阵概册猛念冲突,可以称携神之为发射矩阵,即从一个状态发射到另一个状态: B:如最初的图,b11=第一个盒子抽到白球概率0.4,b12=第一个盒子抽到黑球概率0.6;
在给定参数π、A、B的时候,得到观测序列为“白黑白白黑”的概率是多少?
这个时候,我们不知道隐含条件,即不知道状态值:①→③→②→②→③ ;
我们如何根据π、A、B求出测序列为“白黑白白黑”的概率?
下面给出解决方案。
前向-后向算法 给定模型λ=(A,B,π)和观测序列Q={q1,q2,...,qT},计算模型λ下观测到序列Q出现的概率P(Q|λ);
回顾上面的案例 ,λ=(A,B,π)已知。观测到序列 Q=白→黑→白→白→黑,但我们不知道 状态序列 I=①→③→②→②→③;我们要求解 P(Q|λ) ,即Q=白→黑→白→白→黑 这个观测序列发生的概率。 可以用前向-后向算法来实现 。
Baum-Welch算法(状态未知) 已知观测序列Q={q1,q2,...,qT},估计模型λ=(A,B,π)的参数,使得在该模型下观测序列P(Q|λ)最大。
Baum-Welch算法是EM算法的一个特例,专门用来 求解 隐马尔科夫中隐状态参数 λ=(A,B,π) 。即:根据已知的 观测到序列 Q=白→黑→白→白→黑,去寻找整个模型的一组隐状态参数λ=(A,B,π),使得在模型中 观测序列 发生的可能性P(Q|λ)最大。
Viterbi算法 给定模型λ=(A,B,π)和观测序列Q={q1,q2,...,qT},求给定观测序列条件概率P(I|Q,λ)最大的状态序列I。
已知 观测到序列 Q=白→黑→白→白→黑,当我们得到λ=(A,B,π)后,我们用 Viterbi算法 求出在哪一种 状态序列 发生的可能性最大,即,求出 状态序列 I=①→③→②→②→③;即,抽取什么样的盒子顺序,更可能得到白→黑→白→白→黑这种结果。
1、直接计算法(暴力算法)
2、前向算法
3、后向算法
类似KNN计算最近邻时候的算法。《 01 KNN算法 - 概述 》
也就是说, 暴力算法 需要一个个遍历所有的状态去计算当前状态发生的概率。
按照概率公式,列举所有可能的长度为T的状态序列I={i1,i2,...,iT},求各个状态序列I与观测序列Q={q1,q2,...,qT}的联合概率P(Q,I;λ),然后对所有可能的状态序列求和,从而得到最终的概率P(Q;λ);
分析: 先思考这样一个问题:生成“白-黑-白-白-黑”这样的结果,是不是会有很多种盒子组合的序列来抽取,都会生成这样一个结果?我把这些可能出现“白-黑-白-白-黑”结果的盒子序列的联合概率求出来-P(Q,I;λ),即∑P(Q,I) = P(Q) ,P(Q) 是我们观测到“白-黑-白-白-黑”结果时,符合这个结果的所有状态序列I出现的概率。
公式运用:
设状态序列 I=③→②→①→①→②; T=5;
P(I;λ) = π 3 a 32 a 21 a 11 a 12
因为: 在给定状态序列I后,Q中的每个观测值都独立。(贝叶斯网络原理) 贝叶斯网络
所以: P(Q|I;λ)可以用联乘的方式表示 (独立可以使用联合概率)
I = ③→②→①→①→②
Q=白→黑→白→白→黑
P(Q|I;λ) = b 3白 b 2黑 b 1白 b 1白 b 2黑
P(Q,I;λ) = P(Q|I;λ) × P(I;λ)
= b 3白 b 2黑 b 1白 b 1白 b 2黑 × π 3 a 32 a 21 a 11 a 12
若:
I 1 = ③→②→①→①→②
I 2 = ①→②→③→①→②
...
I T = ②→②→①→③→②
都能得出:
Q = 白→黑→白→白→黑
因为我所有的盒子都能取出黑球和白球,所以T的值=3 5 ;
∑P(Q,I;λ) 计算的是 I 1 ~ I T 这些状态序列情况下,求出的P(Q,I;λ)的和。
前向 和 后向 算法是运用某种递归(递推)的方式,帮助我们尽快得求解最终结果。
解析: 如果 t 这一时刻观察到的状态是 q t = 雨天;其中y={干,湿,湿... 湿}共t个状态。
先不考虑λ。
α t 是 1时刻~t时刻 所有观测值y1,y2,...yt ,qt 出现的联合概率。
β t 是 t+1时刻~T时刻 所有观测值y t+1 ,y t+2 ,...y T 出现的联合概率。
前向概率-后向概率 指的其实是在一个观测序列中,时刻t对应的状态为si的概率值转换过来的信息。
分析2~3步的推导: 因为q 1 ~ q t 这些条件对 q t+1 ~ q T 的产生没有影响 (理由:贝叶斯网络),所以这些条件可以去掉。
定义:给定λ,定义到时刻t部分观测序列为q1,q2,...,qt且状态为si的概率为 前向概率 。
记做:
在给定参数π、A、B的时候,得到观测序列为“白黑白白黑”的概率是多少?
定义:给定λ,定义到时刻t状态为si的前提下,从t+1到T部分观测序列为qt+1,qt+2,...,qT的概率为 后向概率 。
记做:
分析上面的公式:
如果一共只有t个时间点,t+1的时刻不存在。那么t+1以后发生的是必然事件。
所以 β t (i) = P(q t+1 ,q t+2 ,...,q T ) = 1;
如果实在不理解也没关系,我们姑且认为认为定义了一个初始值,即 β T (i) = 1 ;
从T-1时刻,倒推到1时刻。
首先,β t+1 (j)是什么?是t+1时刻,在状态sj的前提下,下图中圈起来这部分的联合概率。
β t (j)是什么?是t时刻,在状态sj的前提下,下图中圈起来这部分的联合概率。
求给定模型λ和观测序列Q的情况下,在时刻t处于状态si的概率,记做:
单个状态概率的意义主要是用于判断在每个时刻最可能存在的状态,从而可以得到一个状态序列作为最终的预测结果。
求给定模型λ和观测序列Q的情况下,在时刻t处于状态si并时刻t+1处于状态sj概率,记做:
03 隐马尔可夫模型 - HMM的三个问题 - 学习问题
‘肆’ 关于入行AI的几个常见问题
这个问题经常被问其。有不少朋友,工作了几年之后,想转向AI技术岗位。但感觉自己年纪比较大了,或者有生活压力,考全日制的研究生不太现实。
偏偏大多数公司招AI工程师的时候,要求应聘者有相关专业硕士学位等学术背书。作为转行者,应该怎样提高专业背景?
针对这种情况,笔者的建议是: 从自己原来的专业领域入手 。
比如,一位原本制造业的自动化工程师,肯定对各种工业生产设备比较熟悉,了解各种各样的电机、传感器,知道这些设备御庆樱输出信号的物理含义。
那么,当工业领域运用机器学习方法时,自动化工程师在特征工程方面就具备了相当的优势,这些领域知识,不是纯粹搞机器学习的人能比的。
至少在现阶段,机器学习、深度学习的实际落地都以数据为主——能够把实际问题转化成数值拿去运算,比把运算本身(算法)做得精巧要来的重要。
因此,转行的人员如果能够充分利用之前的专业背景,而不是抛弃它,以前的专业就会成为加分项。以此为突破转向AI,反而可能比去读一个学位更容易。
另外,现在许多行业都在尝试AI+,把AI技术应用于传统业务。这种大背景之下,如果想 转向AI岗位,不妨先在自己本行业内寻找机会 。
也许自己现在的单位就在做或者准备做AI+的项目,那么可以先争取加入进去。毕竟,在单位内部谋求一份新的工作内容,一般都比跳槽容易。
很多企业在尝试AI转型时,会聘用一些有AI背景的咨询人员,为他们做规划和解决方案。
外聘人员有机器学习方面的知识和技能,但是他们对业务领域不熟悉,需要本行业的人协助——在这个时候看看能不能成为他们的协助者,通过和专业人员合作来学习AI在实际领域的应用。
假设能够有这种经历,或者至少对自己行业的数据有足够深入的了解,对于业务应用有思考和尝试,就拥有了XX行业AI实践经验。而不必非要通过读书或者打比赛来提升背景。
这个问题也是蛮典型的。
客观的来讲,一个人去报考一个人工智能相关专业的研究生,或者自己在家安安心心的学两三年,之后再去求职,是不是的真的竞争能力就会提高?
虽然学术背景确实是加分项,但是笔者并不推荐“等两年再入职”这种做法。
首先,当一个人有这个想法的时候,其实是畏难情绪的体现。说白了“等两年”是一差胡种逃避,而非计划。
现在不动手,往往并不是真的去学习了,而是从此就放弃了。
另外,就算有些人没有放弃,真的是去埋头学了,也不要忘了, 任何行业的高速上升都是有窗口期的 。
目前,人工智能正处在这样的一个窗口期。因为需求远大于供给,因此给大量没有学术背景的人提供了入行机会。
然而,这样的窗口稍纵即逝。很可能短则一两年,长则也不过三四年后就会关闭。等到那个时候,想入职AI,就不是光自学就可以,而是真的必须要有毕业证了。
想入行而不去抢时间点,趁着窗口期赶紧进去,反而说要在那里等,那么大概率的结果是将机会错过。
应该说,在行业内部逆难度而上逐步达到职位升级的概率不是零,但是实际上可能性很小的。
对一个个人而言,以“做数据”的岗位入行,就已经给自己打上了一个标签,而别人也会以此来对TA进行归类。
难度不同的岗位,原本门槛不同,人们自然会为它们划定界限。要从做数据的岗位晋升到做工程,就要冲破一层天花板。
现实当中,真的能够冲破天花板的人极少。更何况这种原本已经很小的可能性,还受制于行业大势的。
当行业的岗位缺口开得很大的时候,进去相对还容易一点。
如果是在几年前,一个镇丛人从做数据标注工作入行,能接触到很多算法专家、机器学习工程师,一边借着做项目的过程拼命学习,一边等待机会——像机器学习工程师这类岗位,在一个时期内会非常急需人才——一旦遇到做工程的岗位空缺,就赶紧冲上去。
老板了解这是一个靠谱的人,愿意学习,有学习能力,又做过数据方面的工作,也许确实会给TA一个进阶的机会。
但随着时间的推移,越往后,行业缺口越小,这种职位跃迁的可能性也就随之加倍缩小。
所以,笔者建议:想做机器学习工程师,就应该以此为目标努力学习,不要犹豫,不要等待,更不要逃避,从现在开始赶紧去学!
大家首先要区分开研究和工程实践这两件事。
如果你是想去做研究——在高校、科研院所,或者大公司的研究院里做算法科学家,那么可以把重点放在某一项具体的技术上面,比如强化学习。
假设你就是想研究强化学习,那你可以去大学、研究所,还有一些这方面走在比较前沿的公司,诸如Facebook,DeepMind等等,到那里去求职,做算法研究。当然,一般走到这一步都至少要有个博士学位才行。
但是如果你想做的是工程,准备求职的是工程类技术岗位,就不是用某一种技术来做区分的了。
在工业界,领域的区分是产品导向的,对标的是一个个应用方向,比如人脸识别、语音识别等。
在应用方向之下,具体用什么样的技术则要看当时的需求。并不是说要去做计算机视觉,就只会用cnn就行了。要解决实际问题,往往会将各种学术界的成果结合起来使用,并根据具体的限制与要求进行改进。
在这个过程中,会不会用到某一种技术,决定因素非常多样,要看该技术能否支持需求解决;客观的设备、人员、时间是否允许采用这种技术;你的老板是否有动力做这方面的尝试等……
做工程的过程中要用到的工具有很多,而无论做工程还是做研究,都要具备最基础的知识!
经典的机器学习模型,常见的深度学习网络,以及模型训练和推断(预测)的整个流程,都必须掌握。
如果你就是对某一种应用特别感兴趣,比如就是想要预测股票,那你完全可以自己先试一试,毕竟股票数据到处都有。
虽然早就已经有许多人才和机构尝试用机器学习的办法解决投资股票的问题,但直到现在,就长期的股票预测而言,机器还是完败给人类的。
你要做互联网金融,或者想去金融企业做机器学习,都还有对应岗位可找,但好像并没有某一类工业界的职位是让你一天到晚坐在那儿只预测股票价格的。
至于AI在医疗方面的落地,更多不是技术问题,而是体制壁垒和数据获取的问题。
要做医疗AI,首先得能和医院对接上。就算有渠道做到这一步,大量的病例都是手写的,而且大夫的那种手写体,有什么办法把它电子化,用计算机管理起来?
这获取数据的第一步,就是目前AI+医疗都还没有解决的问题。连最基础的数据管理和统计都没有,还谈什么数据分析,谈什么AI?
说到笔试和面试,所有的笔试和面试一定会从基础的知识问起。
比如,面试时面试官往往会选定一种经典模型(早些年是线性回归,前两年是逻辑回归,现在可能已经到了SVM了),问你它的模型函数是什么?目标函数是什么?最优化算法有哪些?然后看你能否把函数公式写清楚,能否把过程一步步说清楚。
大家不必太功利。有具体的职业目标是好的,但在这个目标之前, 先要把基础掌握好 。
先学会那些最经典的模型,例如:Linear Regression,Logistic Regression,Naive Bayes,Decision Tree, SVM,HMM,CRF,Clustering,GMM,PCA等。
沉下心来把基础打牢,到了面试的时候,自然就能对答如流了 。
‘伍’ 怎样理解fama french三因子模型
Fama 和French 1993年指出可以建立一个三因子模型来解释股票回报率。模型认为,一个投资组合(包括单个股票)的超额回报率可由它对三个因子的暴露来解释,这三个因子是:市场资产组合(Rm− Rf)、市值因子(SMB)、账面市值比因子(HML)。这个多因子均衡定价模型可以表示为:
E(Rit) − Rft= βi[E(Rmt− Rft] + siE(SMBt) + hiE(HMIt)
其中Rft表示时间t的无风险收益率;Rmt表示时间t的市场收益率;Rit表示资产i在时间t的收益率;E(Rmt) − Rft是市场风险溢价,SMBt为时间t的市值(Size)因子的模拟组合收益率(Small minus Big),HMIt为时间t的账面市值比(book—to—market)因子的模拟组合收益率(High minus Low)。
β、si和hi分别是三个因子的系数,回归模型表示如下:
Rit− Rft= ai+ βi(Rmt− Rft) + SiSMBt+ hiHMIt+ εit
但是,我们应该看到,三因子模型并不代表资本定价模型的完结,在最近的研究发现,三因子模型中还有很多未被解释的部分,如短期反转、中期动量、波动、偏度、赌博等因素。
‘陆’ RSI选股策略详解
(1)RSI金叉:股票的多头力量开始强于空头力量,股价将大幅扬升,这是RSI指标指示的中线买入信号。(2)突破均线,放量:当股票同时带量向上突破中长期均线时出现的买入信号比较准确,投资者可逢低买入。
‘柒’ 01 隐马尔可夫模型 - 马尔可夫链、HMM参数和性质
先直白得讲性质: 当前的状态只和上一时刻有关,在上一时刻之前的任何状态都和我无关。我们称其 符合 马尔可夫性质。
下面是理论化的阐述:
设{X(t), t ∈ T}是一个 随机过程 ,E为其状态空间,若对于任意的t1<t2< ...<tn<t,任意的x1,x2,...,xn,x∈E,随机变量X(t)在已知变量X(t1)=x1,...,X(tn)=xn之下的条件分布函数只与X(tn)=xn有关,而与X(t1)=x1,...,X(tn-1)=xn-1无关,即条件分布函数 满足 下列等式,此性质称为 马尔可夫性 ;如果随机过程 满足 马尔可夫性,则该过程称为马尔可夫过程。
马尔可夫链 是指具有马尔可夫性质的随机过程。在过程中,在给定当前信息的情况下,过去的信息状态对于预测将来 状态 是无关的。
例子: 在今天这个时间点而言,过去的股价走势对我预测未来的股价是毫无帮助的。
PS:上面马尔可夫链中提到的 状态 ,在本例指的是 股价 。
在马尔可夫链的每一步,系统根据 概率分布 ,可以从一个状态变成另外一个状态,也可以保持当前状态不变。状态的改变叫做 转移 ,状态改变的相关概率叫做 转移概率 。
例子: 当前时间状态下的股价,可以转变成下一时刻的股价,股价的转变即 状态的改变 。这个状态现在可以上升(股价提高),状态也可以下降。我可以根据当前股票的价格去决定下一刻股价上升、下降、不变的概率。这种股价变动的概率称为 状态转移概率 。
马尔可夫链中的 三元素是 :状态空间S、转移概率矩阵P、初始概率分布π。
1、状态空间S - 例: S是一个集合,包含所有的状态 S 股价 ={高,中,低} ;
2、初始概率分布π - 例:
股价刚发行的时候有一个初始价格,我们认为初始价格为高的概率为50%,初始价格为中的概率是30%,初始价格为低的概率是20%。我们记股票价格的初始概率分布为:π=(0.5,0.3,0.2);对应状态:(高、中、低); 初始概率分布是一个向量 ,如果有n个状态,π是n维向量。
3、转移概率矩阵P - 例:
现在有个股价为中,下一个时刻状态转变的可能性有三种,中→高、中→低、中→中;将三种转变的概率。此外当前时刻也有股票的价格属于低,对应的转变可能包括低→高、低→低、低→中;即每种状态都有可能转变成其他的状态,若一共有n个状态,形成的 转移概率矩阵 应该是n×n阶矩阵。这里需要注意的是,股价从高→低,和低→高的概率是不同的。
设将天气状态分为晴、阴、雨三种状态,假定某天的天气状态只和上一天的天气状态有关,状态使用1(晴)、2(阴)、3(雨)表示,转移概率矩阵P如下:
第n+1天天气状态为j的概率为:
因此,矩阵P即为条件概率转移矩阵。矩阵P的第i行元素表示,在上一个状态为i的时候的分布概率,即每行元素的和必须为1。
隐马尔可夫模型(Hidden Markov Model, HMM)是一种统计模型,在语音识别、行为识别、NLP、故障诊断等领域具有高效的性能。
HMM是关于时序的概率模型,描述一个含有未知参数的马尔可夫链所生成的不可观测的状态随机序列,再由各个状态生成观测随机序列的过程。
HMM是一个双重随机过程---具有一定状态的隐马尔可夫链和随机的观测序列。
HMM随机生成的状态随机序列被称为状态序列;每个状态生成一个观测,由此产生的观测随机序列,被称为观测序列。
思考: z1,z2...,zn是 不可观测的状态,x1,x2,...xn是 可观测到的序列 ;不可观测的状态觉得可观测序列的值(z的取值决定x的取值);
1、在 z1、z2 不可观测 的情况下,x1和z2独立吗?x1和x2独立吗?
回答: 这个问题可以回顾之前的 贝叶斯网络 来理解。
首先z1,z2都是离散的值,但x1的值可能是离散的也可能是连续的。比如z是天气情况,每天天气的改变是离散的。x是因为天气而改变的一些其他状态,比如x=(地面是否潮湿、路上行人数量、雨伞销售数量...);
在z1和z2不可观测的情况下,x1和z2不独立,x1和x2也是不独立的。
2、 在 z1、z2可观测 的情况下,x1和z2独立吗?x1和x2独立吗?
回答: 在z1和z2可观测的情况下,因为x1和z2的取值只和z1有关,所以就独立了。同样在给定了z1和z2的情况下,x1和x2也独立。
请回顾贝叶斯网络中的独立性问题来思考这个问题。
04 贝叶斯算法 - 贝叶斯网络
回顾:
一般而言,贝叶斯网络的有向无环图中的节点表示随机变量,可以是可观察到的变量,或隐变量,未知参数等等。连接两个节点之间的箭头代表两个随机变量之间的因果关系(也就是这两个随机变量之间非条件独立);如果两个节点间以一个单箭头连接在一起,表示其中一个节点是“因”,另外一个节点是“果”,从而两节点之间就会产生一个条件概率值。
PS:每个节点在给定其直接前驱的时候,条件独立于其非后继。
HMM 由隐含状态S、可观测状态O、初始状态概率矩阵π、隐含状态转移概率矩阵A、可观测值转移矩阵B(又称为混淆矩阵,Confusion Matrix);
π和A决定了状态序列,B决定观测序列,因此HMM可以使用三元符号表示,称为HMM的三元素:
S可以统计历史出现的所有状态;
初始概率分布π,统计S中各个状态各自出现的概率作为我们的初始概率分布π向量值;
S是所有可能的状态集合,O是所有可能的观测集合:
I是长度为T的状态序列,Q是对应的观测序列:
S={下雨,阴天,晴天};O={地上干,地上湿}
I = {晴,雨,雨,阴,晴,阴}
Q={干,湿,湿,湿,干,干}
A是隐含状态转移概率矩阵:
其中aij是在时刻t处于状态si的条件下时刻t+1转移到状态sj的概率。
a 晴雨 = 某天是晴天条件下,下一天是雨天的概率。 (某一时刻→下一时刻)
B是可观测值转移概率矩阵:
其中bij是在时刻t处于状态si的条件下生成观测值oj的概率。
b 晴干 = 某天是晴天条件下,某天是地是干的的概率。 (同一时刻)
π是初始状态概率向量:
其中πi是在时刻t=1处于状态si的概率。
π 晴 = 初始第一天是晴天的概率;
π 雨 = 初始第一天是雨天的概率;
p(i t | .....) 表示在从 t-1时刻的观测值q t-1 ,一直到第1时刻观测值q1 的条件下,在第t时刻发生状态的概率。
性质1: 最终分析结果发现,在第t时刻发生状态的概率it只和t-1时刻有关。
性质2: 第t时刻的观测值qt只和第t时刻的状态it有关。
假设有三个盒子,编号为1,2,3;每个盒子都装有黑白两种颜色的小球,球的比例。如下:
按照下列规则的方式进行有放回的抽取小球,得到球颜色的观测序列:
1、按照π的概率选择一个盒子,从盒子中随机抽取出一个球,记录颜色后放回盒子中;
2、按照某种条件概率选择新的盒子,重复该操作;
3、最终得到观测序列:“白黑白白黑”
例如: 每次抽盒子按一定的概率来抽,也可以理解成随机抽。
第1次抽了1号盒子①,第2次抽了3号盒子③,第3次抽了2号盒子②.... ; 最终如下:
①→③→②→②→③ 状态值
白→黑→白→白→黑 观测值
1、 状态集合: S={盒子1,盒子2,盒子3}
2、 观测集合: O={白,黑}
3、 状态序列和观测序列的长度 T=5 (我抽了5次)
4、 初始概率分布: π 表示初次抽时,抽到1盒子的概率是0.2,抽到2盒子的概率是0.5,抽到3盒子的概率是0.3。
5、 状态转移概率矩阵 A:a11=0.5 表示当前我抽到1盒子,下次还抽到1盒子的概率是0.5;
6、 观测概率矩阵 B:如最初的图,b11=第一个盒子抽到白球概率0.4,b12=第一个盒子抽到黑球概率0.6;
在给定参数π、A、B的时候,得到观测序列为“白黑白白黑”的概率是多少?
这个时候,我们不知道隐含条件,即不知道状态值:①→③→②→②→③ ;
我们如何根据π、A、B求出测序列为“白黑白白黑”的概率?
02 隐马尔可夫模型 - HMM的三个问题 - 概率计算、学习、预测
‘捌’ 隐性马尔科夫模型简介,只聊原理, (保证没有数学)
隐马尔科夫模型(Hidden Markov Model,HMM)通常用于处理时间序列数据,即样本之间有时间序列关系的数据。学生的作答信息是天然的、有时间属性的序列,非常适合用HMM进行建模。其他的场景还有股票时长,天气,等等
为了更好地理解HMM,我们可以先从"一阶马尔科夫模型"说起 [1] 一阶马尔科夫模型的基本思想是,一系列事件会相继发生,后一个事件发生的概率仅仅取决于前一个事件的状态。这一系列事件就像串起来的珠子。下图表示一个简单的马尔科夫模型,x1 是第一个事件,第二个事件x2 是否发生,以及如何发生,都依赖于x1。依次类推,x3的情况仅仅依赖于x2,x4的情况仅仅依赖于x3 ... ...
然而很多实际问题的依赖关系往往没有这么简单,x4的情况可能不仅依赖于x3,还与x2有关。为了表达当前状态与更早的状态之间的关系(例如 x4 和 x2),可以引入高阶马尔科夫。概括来说,M阶马尔科夫性是指当前状态取决于之相邻的前M个状态,但是与更早的状态无关。高阶马尔科夫性虽然达到了关联当前状态与更早的状态的目的,但是因为模型参数呈指数性爆炸,计算复杂度大大增加。
那么,有没有一种方法即能将当前状态与更早的状态关联起来,又不需要那么多参数呢?当然,这里有一种非常强猛销大的手段,即引入隐变量。这里如果假设隐变量构成一阶马尔科夫模型 (z1, z2, z3, z4, ... ),而在每一吵扰个时间点上我们所观测到的情况仅仅和当前的隐变量有关 (x1 和 z1 相关,x2 和 z2 相关 .... )。这个就是HMM模型。这里隐变量 (z)就是我们无法观测的,比如学生对知识点的掌握情况: 不会,不熟练 等等。 而可见变量(x)就是我们从学生作答中看到的,比如 作答正确,选择错误选项B,选择错误答案C,等等。
HMM模型有三个非常重要的参数: 初始概率分布 (start probability)、 转移概率模型 (transition matrix)和 发射概率矩阵 (emission matrix)。对状态空间模型建模实际就是对这三者进行建模。而且此时观测变量(x)之间不再具有任何马尔科夫性。
我有两个色子,一个是正常的包含1,2,3,4,5,6 这六个个点 (A),一个是特殊的,有1,2,3,4,四个点(B),下图展示了各种色子:
一个完整的可用的HMM模型就是需要知道上边的三个参数比如:
初始概率分布 : 初始选择A色子的概率是 0.45 ,那么选择B色子的概率是0.55 即 , 需要满足
转移概率 : 如果前一个是A色子,那么接下来40%的概率还是A 60% 的概率是B, 如果前一个是B色子,50% 的概率是A,50% 的概率是B,这个是一个矩阵
结合上边的数字就是:
发射概率矩阵 : 也是一个矩阵,表示从色子的类别,到观察到的点数的概率,针对我们这个情况,他的形式如下
因为色子是均匀的,我们可以得到
那么模型的完整工作流程是下边这样的:
已知上述三个参数,和当前观测序列,求解隐藏状态的变化
所有参数未知,只有数据,如何获得三个参数
python 提供了hmmlearn包,可以非常方便的实现以上两个问题,我们会在下一个文章中介绍如何实现
上述升知旦案例的实现,具体看这个文章
https://www.jianshu.com/p/deb71e926ccc
[1] . farewell (2018.4.22), 隐马尔科夫模型, 知乎 [blog post]. Retrieved from https://zhuanlan.hu.com/p/27907806