pyhanlp 繁简转换之拼音转换与字符正则化


繁简转换git

HanLP几乎实现了全部咱们须要的繁简转换方式,而且已经封装到了HanLP中,使得咱们能够轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里咱们再也不作过多描述。github

 

·说明算法

· HanLP可以识别简繁分歧词,好比打印机=印表機。许多简繁转换工具不能区分“之后”“皇后”中的两个“后”字,HanLP能够。缓存

·算法详解数据结构

· 《汉字转拼音与简繁转换的Java实现》ide

 图1.jpg

图2.jpg

 

汉字转拼音工具

 

HanLP中的汉字转拼音功能也十分的强大。性能

 

·说明spa

· HanLP不只支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。orm

· HanLP可以识别多音字,也能给繁体中文注拼音。

· 最重要的是,HanLP采用的模式匹配升级到AhoCorasickDoubleArrayTrie,性能大幅提高,可以提供毫秒级的响应速度!

·算法详解

· 《汉字转拼音与简繁转换的Java实现》

 图3.jpg

图4.jpg

 

拼音转中文

 

HanLP中的数据结构和接口是灵活的,组合这些接口,能够本身创造新功能,咱们可使用AhoCorasickDoubleArrayTrie实现的最长分词器,须要用户调用setTrie()提供一个AhoCorasickDoubleArrayTrie

 图5.jpg

 

字符正则化

 

演示正规化字符配置项的效果(繁体->简体,全角->半角,大写->小写)。

该配置项位于hanlp.properties中,经过Normalization=true来开启(如今直接经过HanLP.Config.Normalization开启便可)。

 

切换配置后必须删除CustomDictionary.txt.bin缓存,不然只影响动态插入的新词。

在我动笔前一个星期,已经有同窗添加了,添加自定义词典以后,自动删除缓存的功能。地址请点击https://github.com/hankcs/HanLP/pull/954,如今只须要开启正则化便可

图6.jpg

 

1| HanLP.Config.Normalization = False

2|

3| [爱听4g]

4| [爱听4G]

5| [, , , G]

6| [, , , ]

7| [, , , ]

8| [喜欢, , ]

9| [hankcs, , , 灣寫, , ]

10|

11| HanLP.Config.Normalization = True

12|

13| [爱听4g]

14| [爱听4g]

15| [爱听4g]

16| [爱听4g]

17| [爱听4g]

18| [喜欢, 4, g]

19 |[hankcs, , 台湾, , 代码]

20| 現在的HanLP已經新增了新增自定義詞典之後,自動刪除快取的功能,現在只须要開啟正則化便可

21| [如今, , hanlp, 已经, 新增, , 新增, 自定义, 词典, 以后, ,, 自动, 删除, , , , 功能, ,, 如今, , 须要, 开启, , , , 便可]

相关文章
相关标签/搜索