Encoding问题

时间 2019-11-24

标签 encoding 问题繁體版

原文原文链接

当咱们要把一个字符串转化为byte[]时，习惯性的会用到Encoding.Default.GetBytes(string s)这静态方法。html

把一个byte[]数组转化为字符串时，也会习惯性的用到Encoding.Default.GetString(byte[] byte)这个方法。数组

ok，若是你的客户端（C/S）和服务端用的是相同的操做系统语言，这样是不会用问题。编码

若是不一样呢，不一样就出问题，不管用什么编码解析都会出问题，好比utf-8,Unicode解析都是乱码。spa

下面就是要说的内容了：操作系统

首先咱们看Encoding.Default返回的是什么东西，MSDN给出的是：3d

获取操做系统的当前 ANSI 代码页的编码。code

那么什么是ANSI代码页编码：百度查吧htm

不一样的操做系统可能使用不一样的编码做为默认编码。所以，从一个操做系统流入另外一个操做系统的数据可能不会被正确转换。若要确保编码后的字节可以正确解码，应用程序应当使用带前导码的 Unicode 编码（即 UTF8Encoding、UnicodeEncoding 或 UTF32Encoding）。另外一选择是使用较高级别的协议以确保使用同一格式进行编码和解码。utf-8

由 Default 定义的系统 ANSI 代码页包含 ASCII 字符集，可是其编码不一样于 ASCII 的编码。因为全部的 Default 编码会丢失数据，所以应用程序能够改用 UTF8 或 Encoding。在 U+00 到 U+7F 的范围内，UTF-8 一般是相同的，可是能够在不丢失数据的状况下对其余字符进行编码。ci

这时候就要使用Encoding.的GetEncoding 方法 (String)，此方法

返回与指定代码页名称关联的编码；

例如 string str = Encoding.GetEncoding("Korean").GetString(Data);

这样解决了，代码页编码不相同的问题。