咱们都知道,文件有不一样的编码,例如咱们经常使用的中文编码有:UTF八、GK2312 等。函数
Windows 操做系统中,新建的文件会在起始部分加入几个字符的前缀,来识别编码。编码
例如,新建文本文件,写入单词 Hello
,另存为 UTF8。Hello
占 5 个字节,但文本大小倒是 8 个字节。(win7 系统下仍是这样的,win10 已经去掉了编码前缀,因此 win10 下文件大小依然是 5 个字节。看来微软本身也改变了。)操作系统
咱们用 StreamWriter
来生成文件。code
using (StreamWriter sw = new StreamWriter("a.txt")) { sw.Write("Hello"); // 5 字节 } using (StreamWriter sw = new StreamWriter("b.txt", false, Encoding.UTF8)) { sw.Write("Hello"); // 8 字节 }
诡异的事情发生了,StreamWriter
的默认编码是 UTF8,都是用的 UTF8 编码,怎么文件的大小会不同呢?get
UTF8Encoding
有两个私有属性:emitUTF8Identifier
和 isThrowException
,初始化时由构造函数传入。it
emitUTF8Identifier
表示是否添加编码前缀isThrowException
表示遇到编码错误时是否报错因而可知,是否添加编码前缀,是能够控制的。io
Encoding
中 UTF8
定义以下,添加编码前缀。class
public static Encoding UTF8 { get { if (utf8Encoding == null) utf8Encoding = new UTF8Encoding(true); return utf8Encoding; } }
而 StreamWriter
中使用的默认编码,emitUTF8Identifier=false
:coding
internal static Encoding UTF8NoBOM { get { if (_UTF8NoBOM == null) { UTF8Encoding noBOM = new UTF8Encoding(false, true); _UTF8NoBOM = noBOM; } return _UTF8NoBOM; } }
这就是开头的代码中两个文件大小不同的缘由了。构造函数