去除文件中

最近生成的文件中出现了<feff>乱码,并且单个文件中出现不止一次,在vim中打该文件显示<feff>,而在idea中则显示一个“-”,对数据处理形成了极大的困扰,经过使用其它编辑器打开发现,Windows记事本不出现乱码,notepad++不出现乱码,那么极有多是该乱码位置写了一些不可见的标志字符。html

在Windows下使用winhex打开该文件查看乱码位置的十六进制格式数据为EF BB BF,经过百度了解到是UTF8的bom信息正则表达式

尝试过用notepad++转换格式去除bom信息,无果,我生成的文件自己编码就是utf8 without bom,那么只好经过shell来去除这个烦人的字符:shell

sed -i 's/\xEF\xBB\xBF//g' filename

不过这个命令偶尔失效,在我一开始用它就无论用的状况下,我试了如下命令vim

sed -i 's/<feff>//g' filename

 成了!bash

不过命令2只成功了1次,以后再用命令1就彻底o**k了。玄学问题。。。编辑器

命令详解:ide

        sed的命令格式: sed [-nefri] [动做]编码

             选项与参数:idea

                     -n:使用安静(silent)模式。在通常sed的动做中,全部来自stdin的数据通常都会被列出到终端上,但若是加上-n参数后,则只有通过sed特殊                           处理的那一行(或动做)才会被列出来。命令行

                     -e:直接在命令行模式上进行sed的动做编辑

                     -f:直接将sed的动做写在一个文件内, -f  filename则能够运行filename内的sed动做

                     -r:sed的动做支持的是延伸型正则表达式语法(默认是基础正则表达式语法)

                     -i:直接修改读取的文件内容,而不是输出到终端

             function:

                     a:新增

                     c:取代

                     d:删除

                     i:插入

                     p:列印

                     s:取代   直接进行取代的工做,一般搭配正则表达式

       sed -i 就是直接对文本文件进行操做

                 

sed -i 's/原字符串/新字符串'  /home/1.md   #只替换一个
sed -i 's/原字符串/新字符串/g' /home/1.md   #所有替换

参考资料:

sed -i命令详解

UTF8最好不带BOM,附许多经典评论

相关文章
相关标签/搜索