国外经典教材
课程视频:
感谢公开课视频创作者和翻译组!
概率图模型有很多种功能,其中一种是先验分布+样本信息→后验分布。
参考博文:先验信息与后验信息。先验概率是指根据以往经验和分析得到的概率;后验概率是基于新的信息,修正原来的先验概率后所获得的更接近实际情况的概率估计。
本文结合下图给出了一个例子。在缺乏样本信息时,对于目标块的来源有2种推断:斑马或衣服。若样本信息是上图,那么黑白条纹衣服出现在野外草原的概率比较小、而斑马出现的概率比较大,那么目标块大概率取自斑马身体;相反,目标块大概率取自黑白条纹衣服。注:这里仅是一种推断而已。
概率图模型里的BP算法是信念传播(Belief Propagation)算法,区别于深度学习的后向传播(Back Propagation)算法。这里推荐三篇通俗易懂的博文。
BP算法其实就是“和-积”思想,用于加速计算。举一个例子,x1y1+x2y1=(x1+x2)y2x_1 y_1 + x_2 y_1 = (x_1 + x_2) y_2x1y1+x2y1=(x1+x2)y2,左边2次乘法、1次加法,而右边仅有1次乘法、1次加法。
最近的ChatGPT很火。想比智能文字问答,更近一步的是智能图文问答。想象一下,你在开车,不方便查看手机屏幕,这时询问机器人,家里监控画面是否拍到猫咪。
对于有监督学习,为实现上述智能图文问答,可以考虑采取如下图所示的策略。缺点:①语义分割图库标注十分困难;②自然语言处理口语对话特性导致主题开放化(Open-world),即话题有很多种,难以预先确定所有话题,万一在标注时忽略了“猫咪”这个主题,就没有对应的语义分割标记,此时下图中的语义分割网络难以运行。
对于概率图模型,这个问题就简单很多。回想人脸识别,它是一个开放世界(Open-World)分类问题,人脸识别用到了k-近邻的思想,而k-近邻是一种图搜索算法。受此启发,可以考虑采取如下图所示的策略,用概率图模型完成语义分割,而不借助语义分割网络。
这里推荐一篇ICML 2019的论文,Probabilistic Neural-symbolic Models for Interpretable Visual Question Answering,作者用符号网络和推断网络实现智能图文问答。目前,图文问答是一个很不错的新兴研究方向,仅供参考!