Single

词形还原(lemmatization)与词干提取(stemming)的区别

词形还原和词干提取均是自然语言处理过程中的预处理阶段,它们通常在英文语系中使用,而在中文中一般不用这两种处理。

使用词形还原和词干提取的目的通常是为了减少词语因为时态,单复数和变形等对于处理精度的影响

以词形还原为例,英语中,good, better, best是三个词,但是better和best可以通过good得到,在一些应用领域可以将better和best转换为good。通过词形还原后,形成的结果通常是一些基本的单词。

词干提取比较复杂,以英语为例,很多单词是以相同的词干加上后缀形成的,例如“ailiner”的词干为“airlin”,但是以“airlin”为词干的单词还有其他。而通过词干提取获取的词干通常不能形成具体的单词。
使用词形还原与词干提取预处理后的语料通常可以减少单词因时态,单复数,变形等造成噪音干扰,但是却并不是一定需要进行这样的处理,有的应用中即便是通过这样的处理对于精度提升几乎没有效果,反而还增加了系统的复杂度。

暂无评论

发表评论