短文本的几点思考

1. 为什么lda在短文本上效果不好?

LDA是生成模型的一种,生成模型的参数分布都是从观测值中统计而来,短文本,也就意味着观测变量少,观测变量少,自然统计出来的概率分布不够准确。

2. 为什么短文本做分类经常效果不好?

在文本分类中,真正起关键作用的往往是那一两个关键词,而短文本中往往缺乏相应的一些关键词,以及足够的上下文信息造成分类效果欠佳

3. 如何提升短文本上的分类效果?

  • 特征扩展:
    使用外部的一些知识扩展特征,比如使用在wiki上训练的LDA模型向量化当前的短文本,然后将此向量加入到文本分类的特征中,也可以使用一些attention机制去扩展外部的一些特征

  • 标签传播
    利用搜索引擎如es,在有标签数据中,找最相近的满足条件的数据,做标签的简单voting,或加入权重做voting。