【C# 代码小知识】多此一举的编码前缀

时间 2020-02-11

原文原文链接

咱们都知道，文件有不一样的编码，例如咱们经常使用的中文编码有：UTF八、GK2312 等。函数

Windows 操做系统中，新建的文件会在起始部分加入几个字符的前缀，来识别编码。编码

例如，新建文本文件，写入单词 Hello，另存为 UTF8。Hello 占 5 个字节，但文本大小倒是 8 个字节。（win7 系统下仍是这样的，win10 已经去掉了编码前缀，因此 win10 下文件大小依然是 5 个字节。看来微软本身也改变了。）操作系统

咱们用 StreamWriter 来生成文件。code

using (StreamWriter sw = new StreamWriter("a.txt"))
{
    sw.Write("Hello");  // 5 字节
}

using (StreamWriter sw = new StreamWriter("b.txt", false, Encoding.UTF8))
{
    sw.Write("Hello");  // 8 字节
}

诡异的事情发生了，StreamWriter 的默认编码是 UTF8，都是用的 UTF8 编码，怎么文件的大小会不同呢？get

UTF8Encoding 有两个私有属性：emitUTF8Identifier 和 isThrowException，初始化时由构造函数传入。it

emitUTF8Identifier 表示是否添加编码前缀
isThrowException 表示遇到编码错误时是否报错

因而可知，是否添加编码前缀，是能够控制的。io

Encoding 中 UTF8 定义以下，添加编码前缀。class

public static Encoding UTF8 {
    get {
        if (utf8Encoding == null) utf8Encoding = new UTF8Encoding(true);
        return utf8Encoding;
    }
}

而 StreamWriter 中使用的默认编码，emitUTF8Identifier=false：coding

internal static Encoding UTF8NoBOM {
    get { 
        if (_UTF8NoBOM == null) {
            UTF8Encoding noBOM = new UTF8Encoding(false, true);
            _UTF8NoBOM = noBOM;
        }
        return _UTF8NoBOM;
    }
}

这就是开头的代码中两个文件大小不同的缘由了。构造函数