序列标注进化史

HMM -> MEMM -> CRF -> RNN -> LSTM -> Attention

序列标注算法主体上经历了从隐马尔可夫,最大熵马尔可夫, 条件随机场, RNN, LSTM 到 transformer的一个演进过程,这是一个递进发展的过程。

HMM

  • 两个假设
    状态独立假设: 当前状态只依赖于上一个状态
    观测独立假设: 当前观测变量只依赖于对应的状态变量

  • 两个问题
    标签偏置问题: 即算法倾向于选择分支较少的状态,这是由于状态独立假设使得在计算标签转移概率时在局部归一化状态转移概率
    特征缺失: 由于观测独立假设,HMM无法将上下文信息融入,所以会有较大的局限性

MEMM

MEMM 取消了HMM的观测独立假设,它是判别模型的一种,引入了特征,可以方便的把上下文信息设计到特征中,解决了上下文信息缺失的问题,但MEMM没有取消HMM的状态独立假设,所以依然存在标签偏置的问题

CRF

CRF 在MEMM的基础上进一步取消了HMM的状态独立假设,将标签转移也作为全局特征之一,在全局进行优化,所以crf解决了标签偏置以及上下文信息缺失的问题

RNN

RNN是经典的深度学习序列模型,相比于CRF, RNN在词向量的基础上做特征抽象,比CRF的特征模板的方式能够更好的避免过拟合,此外,RNN在序列上下文特征上相比crf会更加有效

LSTM

LSTM是RNN的改进模型之一, LSTM加入了门控单元,使得门控单元的阈值可以随上下文以及当前输入动态改变,从而改善RNN由于梯度传播过程中参数连乘造成的梯度消失的问题,能够处理更长的上下文依赖

Attention

attention 使用一种更加直接的方式处理当前词与上下文的关系,相比于LSTM, attention避免了梯度在序列间的传到,可以并行的计算,也能够处理更长的上下文依赖。