中文分词工具之基于字标注法的分词


基于字标注法的分词python

中文分词字标注一般有2-tag,4-tag6-tag这几种方法,其中4-tag方法最为经常使用。标注集是依据汉字(其中也有少许的非汉字字符)在汉语词中的位置设计的。ide

1. 2-tagspa

2-tag是一种最简单的标注方法,标注集合为{B,I},其将词首标记设计为B,而将词的其余位置标记设计为I。例如词语“重庆”的标注结果是“重/B /I”,而“大学生”的标注结果为“大/B /I /I设计

对于如下句子 博客

迈向 充满 但愿 世纪 —— 一九九八年 新年 讲话 it

使用2-tagBI)的标注结果为 class

/B/I /B/I /B/I /B /B /B/I /B/I /B/I/I/I/I /B/I /B/I方法

 

2.4-tagim

 

4-tag标注集合为{S,B,M,E}S表示单字为词,B表示词的首字,M表示词的中间字,E表示词的结尾字。对于如下句子 img

迈向 充满 但愿 世纪 —— 一九九八年 新年 讲话

使用4-tagS,B,M,E)的标注结果为

/B/E /B/E /B/E /S /S /B/E /B/E /B/M/M/M/E /B/E /B/E

参考我爱天然语言处理博客, python实现方法为

图1.png


本文使用 pku语料库,其原始格式为

 

图2.png

 

标注后的结果为

 图3.png

 

3.6-tag

6-tag标注集合为{S,B,M1,M2,M,E}S表示单字为词,B表示词的首字,M1/M2/M表示词的中间字,E表示词的结尾字。例如“大学生”能够标注为“大/B /M /E” 。