译自Matthew的《A Good Part-of-Speech Tagger in about 200 Lines of Python》,本文用最精简的代码演示了如何写一个基于感知机的高性能词性标注器。如下是正文:天然语言处理的最新技术大部分都停留在学术界,但学术界每每很是谨慎、不肯意把话说满以避免做茧自缚。但太谦虚也没有意义,本文就展现了如何写一个高性能的词性标注器。如今有成千上万种所谓的“最好的词性标注技术”,但它们都没有卵用,你用Averaged Perceptron就好了。(译注:术语Average...