KAKASI(Kanji Kana Simple Inverter)是语言处理过滤器,能够将 日文汉字 转换成 平假名,片假名或Romaji ,能够 方便阅读日文文本 以及 给日语学习者提供便利。html
好比把漢字
转换成かんじ
/kanji
。segmentfault
在命令行中( 我用的是mac的terminal win的不太肯定 )api
# input.txt # 漢字 # % ls input.txt % kakasi -JH <input.txt -i utf8 -o utf8 かんじ
? 英文主页网络
? 日文主页工具
把下载到的压缩包(.tar.gx
或.tar.xz
)解压学习
% gzip -dc kakasi-2.3.6.tar.gz | tar xvf -
进入到解压出来的文件夹中编码
% cd kakasi-2.3.6
你能够看到文件夹中有如下内容spa
% ls AUTHORS NEWS config.guess* install-sh* ltmain.sh COPYING ONEWS config.h.in itaijidict magic-kakasi ChangeLog README config.rpath* kakasi-config.in maintMakefile INSTALL README-ja config.sub* kakasi.spec man/ INSTALL-ja THANKS configure* kakasi.spec.in missing* Makefile.am TODO configure.in kakasidict src/ Makefile.in aclocal.m4 doc/ lib/ tests/
依次输出如下命令就能够完成安装命令行
% ./configure % make % su # make install
若是没有意外,到这里你已经成功安装kakasi
!code
你能够经过如下命令来确认是否安装完毕。
# kakasi -help
它会返回以下一个命令提示
KAKASI - Kanji Kana Simple Inverter Version 2.3.6 Copyright (C) 1992-1999 Hironobu Takahashi. All rights reserved. Usage: kakasi -a[jE] -j[aE] -g[ajE] -k[ajKH] -E[aj] -K[ajkH] -H[ajkKH] -J[ajkKH] -i{oldjis,newjis,dec,euc,sjis,utf8} -o{oldjis,newjis,dec,euc,sjis,utf8} -r{hepburn,kunrei} -p -s -f -c"chars" [jisyo1, jisyo2,,,] Character Sets: a: ascii j: jisroman g: graphic k: kana (j,k defined in jisx0201) E: kigou K: katakana H: hiragana J: kanji(E,K,H,J defined in jisx0208) Options: -i: input coding system -o: output coding system -r: romaji conversion system -p: list all readings (with -J option) -s: insert separate characters (with -J option) -S"chars": set separator -f: furigana mode (with -J option) -F[rl]"chars": set parentheses around furigana -c: skip chars within jukugo (with -J option: default TAB CR LF BLANK) -C: romaji Capitalize (with -Ja or -Jj option) -U: romaji Upcase (with -Ja or -Jj option) -u: call fflush() after 1 character output -t: use old romaji table -w: wakatigaki mode -{l,L}: level {hiragana,furigana} mode (-{l,L}[123456jn]) -y: display yomi of each kanji characters Report bugs to <bug-kakasi@namazu.org>.
使用kakasi
的一个问题是,它没有提供官方文档,网络上提供连接也基本失效,不过花了一番功夫仍是找到了一个能用的文档,你们若想了解更多能够阅读。
? 我也只是刚刚接触kakasi
,更多使用方法,欢迎你们评论留言交流。
kakasi 转换格式 <入口文件 >出口文件 输入输出编码设置
例子
kakasi -Ja <input.txt -i utf8 -o utf8 # 将会在命令行中返回转换结果 kakasi -JH <input.txt >output.txt -i utf8 -o utf8 # 转换结果会保持到output.txt中
-a[jE] -j[aE] -g[ajE] -k[ajKH] -E[aj] -K[ajkH] -H[ajkKH] -J[ajkKH] Character Sets: a: ascii j: jisroman g: graphic k: kana (j,k defined in jisx0201) E: kigou K: katakana H: hiragana J: kanji(E,K,H,J defined in jisx0208)
经常使用的设置
-JH
汉字转平假名( kanji -> hiragana ) || 漢字
转换成かんじ
-Ja
汉字转罗马音( kanji -> ascii(roman) ) || 漢字
转换成kanji
-JK
汉字转片假名( kanji -> katakana ) || 漢字
转换成カンジ
-HK
平假名转片假名(hiragana -> katakana) || かんじ
转换成カンジ
<input.txt
将"input.txt"做为输入文件
>output.txt
以"output.txt"为输出文件
-i{oldjis,newjis,dec,euc,sjis,utf8} -o{oldjis,newjis,dec,euc,sjis,utf8}
其余工具:
日文文本分析最强王者——Kuromoji