最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了不少繁体字,这就很尴尬了。这时候就知道OpenCC的强大了。哈哈,原本打算直接使用python里面的opencc模块的,可是在安装,编译opencc时遇到了各类错误。花费了很长时间,终于安装成功,可是文本处理起来效率很低。最终选择了直接在linux下安装OpenCC,处理的效率着实安慰了我受伤的心 -- 很快,特别快。
好啦,接下来总结下OpenCC的安装方法,万一之后又用到它了呢?主要参考这篇博客:html
检查下linux环境下是否已经安装cmake以及git,若是没有,那就经过yum安装好。python
$ yum install cmake $ yum install git
克隆下OpennCC开源项目OpennCC开源项目。linux
$ git clone https://github.com/BYVoid/OpenCC
编译OpenCCgit
$ cd OpenCC $ make $ make install
建立libopencc.so.2连接github
若是不知道libopencc.so.2的路径,能够经过find / -name libopencc.so.2查找。json
$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
经过查看 OpenCC 版本,检查OpenCC是否已经安装成功测试
$ opencc --version
测试用例.net
# 繁体转简体 $ echo '歐幾里得 西元前三世紀的希臘數學家' | opencc -c t2s 欧几里得 西元前三世纪的希腊数学家 # 简体转繁体 $ echo '欧几里得 西元前三世纪的希腊数学家' | opencc -c s2t 歐幾里得 西元前三世紀的希臘數學家 # 能够经过如下方式直接对文件进行繁简转换 $ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json