最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了不少繁体字,这就很尴尬了。这时候就知道OpenCC的强大了。步骤以下:git
1.下载源码:git clone https://github.com/BYVoid/OpenCCgithub
2.安装cmake:brew install cmakejson
3.安装Doxygen:brew install Doxygen测试
4.开始安装:(1)cd OpenCC ,(2)make PREFIX=/usr/local ,(3)sudo make PREFIX=/usr/local install
code
5.测试是否顺利安装:OpenCC --versionget
6.进入实战:OpenCC -i [源文件] -o [输出文件] -c t2s.json源码