LDA作为概率模型、概率近似算法的Case Study

Series: algo January 05, 2018

在看完LDA的资料后,留在脑海中的印象是:

LDA可以看作是一个使用概率模型对语料库进行建模,并使用相关后验概率近似方法进行推断的一个case study。

其中概率模型的建立主要包括:

  • 基于对数据产生过程的假设写出依赖关系及概率分布
  • 获取数据
  • 获得模型参数的后验概率
  • 对现有数据进行探索或对新数据进行预测

后验概率近似方法主要包括:

  • MCMC (Markov chain Monte Carlo)
  • Variational Inference

它们在整个流程中扮演的角色是:

LDA作为该流程的一个case study,具体做的事情是:

  • 对一篇文章的产生过程进行假设(文章是关于主题的分布,主题是关于词汇的分布,每个单词对应于某个主题assignment),并写出联合概率分布
  • 获得语料库
  • 获得各隐变量的后验概率分布
  • 探索各文章关于主题的分布,探索每个主题内单词的分布

Todo: 并行化的MCMC/VI?


基于JekyllGitHub Pages搭建