java汉字乱码解决办法

时间 2019-11-29

原文原文链接

自从接触Java和JSP以来，就不断与Java的中文乱码问题打交道，如今终于获得了完全的解决，现将咱们的解决心得与你们共享。
1、Java中文问题的由来
Java的内核和class文件是基于unicode的，这使Java程序具备良好的跨平台性，但也带来了一些中文乱码问题的麻烦。缘由主要有两方面，Java和JSP文件自己编译时产生的乱码问题和Java程序于其余媒介交互产生的乱码问题。
首先Java（包括JSP）源文件中极可能包含有中文，而Java和JSP源文件的保存方式是基于字节流的，若是Java和JSP编译成class文件过程当中，使用的编码方式与源文件的编码不一致，就会出现乱码。基于这种乱码，建议在Java文件中尽可能不要写中文（注释部分不参与编译，写中文不要紧），若是必须写的话，尽可能手动带参数－ecoding GBK或－ecoding gb2312编译；对于JSP，在文件头加上 <%@ page contentType= "text/html;charset=GBK "%> 或 <%@ page contentType= "text/html;charset=gb2312 "%> 基本上就能解决这类乱码问题。
本文要重点讨论的是第二类乱码，即Java程序与其余存储媒介交互时产生的乱码。不少存储媒介，如数据库，文件，流等的存储方式都是基于字节流的，Java程序与这些媒介交互时就会发生字符(char)与字节(byte)之间的转换，具体状况以下：
从页面form提交数据到java程序 byte－> char 从java程序到页面显示 char—> byte
从数据库到java程序 byte—> char 从java程序到数据库 char—> byte
从文件到java程序 byte－> char 从java程序到文件 char－> byte
从流到java程序 byte－> char 从java程序到流 char－> byte
若是在以上转换过程当中使用的编码方式与字节原有的编码不一致，极可能就会出现乱码。
2、解决方法
前面已经提到了Java程序与其余媒介交互时字符和字节的转换过程，若是这些转换过程当中容易产生乱码。解决这些乱码问题的关键在于确保转换时使用的编码方式与字节原有的编码方式保持一致，下面分别论述（Java或JSP自身产生的乱码请参看第一部分）。
一、JSP与页面参数之间的乱码 JSP获取页面参数时通常采用系统默认的编码方式，若是页面参数的编码类型和系统默认的编码类型不一致，极可能就会出现乱码。解决这类乱码问题的基本方法是在页面获取参数以前，强制指定request获取参数的编码方式：request.setCharacterEncoding( "GBK ")或request.setCharacterEncoding( "gb2312 ")。若是在JSP将变量输出到页面时出现了乱码，能够经过设置response.setContentType( "text/html;charset=GBK ")或response.setContentType( "text/html;charset=gb2312 ")解决。若是不想在每一个文件里都写这样两句话，更简洁的办法是使用Servlet规范中的过虑器指定编码，过滤器的在web.xml中的典型配置和主要代码以下： web.xml:
<filter> <filter-name> CharacterEncodingFilter </filter-name> <filter-class> net.vschool.web.CharacterEncodingFilter </filter-class> <init-param> <param-name> encoding </param-name> <param-value> GBK </param-value> </init-param> </filter> <filter-mapping> <filter-name> CharacterEncodingFilter </filter-name> <url-pattern> /* </url-pattern> </filter-mapping>
CharacterEncodingFilter.java:
public class CharacterEncodingFilter implements Filter    {
protected String encoding = null;
public void init(FilterConfig filterConfig) throws ServletException    { this.encoding = filterConfig.getInitParameter( "encoding "); }
public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain) throws IOException, ServletException    { request.setCharacterEncoding(encoding); response.setContentType( "text/html;charset= "+encoding); chain.doFilter(request, response); }
}
二、Java与数据库之间的乱码大部分数据库都支持以unicode编码方式，因此解决Java与数据库之间的乱码问题比较明智的方式是直接使用unicode编码与数据库交互。不少数据库驱动自动支持unicode，如Microsoft的SQLServer驱动。其余大部分数据库驱动，能够在驱动的url参数中指定，如如mm的mysql驱动：jdbc:mysql://localhost/WEBCLDB?useUnicode=true&characterEncoding=GBK。
三、Java与文件/流之间的乱码 Java读写文件最经常使用的类是FileInputStream/FileOutputStream和FileReader/FileWriter。其中FileInputStream和FileOutputStream是基于字节流的，经常使用于读写二进制文件。读写字符文件建议使用基于字符的FileReader和FileWriter，省去了字节与字符之间的转换。但这两个类的构造函数默认使用系统的编码方式，若是文件内容与系统编码方式不一致，可能会出现乱码。在这种状况下，建议使用FileReader和FileWriter的父类：InputStreamReader/OutputStreamWriter，它们也是基于字符的，但在构造函数中能够指定编码类型：InputStreamReader(InputStream in, Charset cs) 和OutputStreamWriter(OutputStream out, Charset cs)。
四、其余上面提到的方法应该能解决大部分乱码问题，若是在其余地方还出现乱码，可能须要手动修改代码。解决Java乱码问题的关键在于在字节与字符的转换过程当中，你必须知道原来字节或转换后的字节的编码方式，转换时采用的编码必须与这个编码方式保持一致。咱们之前使用Resin服务器，使用smartUpload组件上传文件，上传文件同时传递的中文参数获取没有乱码问题。当在Linux中把Resin设置成服务后，上传文件同时的中文参数获取出现了乱码。这个问题困扰了咱们好久，后来咱们分析smartUpload组件的源文件，由于文件上传采用的是字节流的方式，里面包含的参数名称和值也是字节流的方式传递的。smartUpload组件读取字节流后再将参数名称和值从字节流中解析出来，问题就出如今smartUpload将字节流转换成字符串时采用了系统默认的编码，而将Resin设置成服务后，系统默认的编码可能发生了改变，所以出现了乱码。后来，咱们更改了smartUpload的源文件，增长了一个属性charset和setCharset(String)方法，将upload()方法中提取参数语句： String value = new String(m_binArray, m_startData, (m_endData - m_startData) + 1 ); 改为了 String value = new String(m_binArray, m_startData, (m_endData - m_startData) + 1, charset ); 终于解决了这个乱码问题。

自从接触Java和JSP以来，就不断与Java的中文乱码问题打交道，如今终于获得了完全的解决，现将咱们的解决心得与你们共享。
1、Java中文问题的由来
Java的内核和class文件是基于unicode的，这使Java程序具备良好的跨平台性，但也带来了一些中文乱码问题的麻烦。缘由主要有两方面，Java和JSP文件自己编译时产生的乱码问题和Java程序于其余媒介交互产生的乱码问题。
首先Java（包括JSP）源文件中极可能包含有中文，而Java和JSP源文件的保存方式是基于字节流的，若是Java和JSP编译成class文件过程当中，使用的编码方式与源文件的编码不一致，就会出现乱码。基于这种乱码，建议在Java文件中尽可能不要写中文（注释部分不参与编译，写中文不要紧），若是必须写的话，尽可能手动带参数－ecoding GBK或－ecoding gb2312编译；对于JSP，在文件头加上 <%@ page contentType= "text/html;charset=GBK "%> 或 <%@ page contentType= "text/html;charset=gb2312 "%> 基本上就能解决这类乱码问题。
本文要重点讨论的是第二类乱码，即Java程序与其余存储媒介交互时产生的乱码。不少存储媒介，如数据库，文件，流等的存储方式都是基于字节流的，Java程序与这些媒介交互时就会发生字符(char)与字节(byte)之间的转换，具体状况以下：
从页面form提交数据到java程序   byte－> char 从java程序到页面显示   char—> byte
从数据库到java程序   byte—> char 从java程序到数据库   char—> byte
从文件到java程序   byte－> char 从java程序到文件   char－> byte
从流到java程序   byte－> char 从java程序到流   char－> byte
若是在以上转换过程当中使用的编码方式与字节原有的编码不一致，极可能就会出现乱码。
2、解决方法
前面已经提到了Java程序与其余媒介交互时字符和字节的转换过程，若是这些转换过程当中容易产生乱码。解决这些乱码问题的关键在于确保转换时使用的编码方式与字节原有的编码方式保持一致，下面分别论述（Java或JSP自身产生的乱码请参看第一部分）。
一、JSP与页面参数之间的乱码 JSP获取页面参数时通常采用系统默认的编码方式，若是页面参数的编码类型和系统默认的编码类型不一致，极可能就会出现乱码。解决这类乱码问题的基本方法是在页面获取参数以前，强制指定request获取参数的编码方式：request.setCharacterEncoding( "GBK ")或request.setCharacterEncoding( "gb2312 ")。若是在JSP将变量输出到页面时出现了乱码，能够经过设置response.setContentType( "text/html;charset=GBK ")或response.setContentType( "text/html;charset=gb2312 ")解决。若是不想在每一个文件里都写这样两句话，更简洁的办法是使用Servlet规范中的过虑器指定编码，过滤器的在web.xml中的典型配置和主要代码以下： web.xml:
<filter> <filter-name> CharacterEncodingFilter </filter-name> <filter-class> net.vschool.web.CharacterEncodingFilter </filter-class> <init-param> <param-name> encoding </param-name> <param-value> GBK </param-value> </init-param> </filter> <filter-mapping> <filter-name> CharacterEncodingFilter </filter-name> <url-pattern> /* </url-pattern> </filter-mapping>
CharacterEncodingFilter.java:
public class CharacterEncodingFilter implements Filter    {
protected String encoding = null;
public void init(FilterConfig filterConfig) throws ServletException    { this.encoding = filterConfig.getInitParameter( "encoding "); }
public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain) throws IOException, ServletException    { request.setCharacterEncoding(encoding); response.setContentType( "text/html;charset= "+encoding); chain.doFilter(request, response); }
}
二、Java与数据库之间的乱码大部分数据库都支持以unicode编码方式，因此解决Java与数据库之间的乱码问题比较明智的方式是直接使用unicode编码与数据库交互。不少数据库驱动自动支持unicode，如Microsoft的SQLServer驱动。其余大部分数据库驱动，能够在驱动的url参数中指定，如如mm的mysql驱动：jdbc:mysql://localhost/WEBCLDB?useUnicode=true&characterEncoding=GBK。
三、Java与文件/流之间的乱码 Java读写文件最经常使用的类是FileInputStream/FileOutputStream和FileReader/FileWriter。其中FileInputStream和FileOutputStream是基于字节流的，经常使用于读写二进制文件。读写字符文件建议使用基于字符的FileReader和FileWriter，省去了字节与字符之间的转换。但这两个类的构造函数默认使用系统的编码方式，若是文件内容与系统编码方式不一致，可能会出现乱码。在这种状况下，建议使用FileReader和FileWriter的父类：InputStreamReader/OutputStreamWriter，它们也是基于字符的，但在构造函数中能够指定编码类型：InputStreamReader(InputStream in, Charset cs)   和OutputStreamWriter(OutputStream out, Charset cs)。
四、其余上面提到的方法应该能解决大部分乱码问题，若是在其余地方还出现乱码，可能须要手动修改代码。解决Java乱码问题的关键在于在字节与字符的转换过程当中，你必须知道原来字节或转换后的字节的编码方式，转换时采用的编码必须与这个编码方式保持一致。咱们之前使用Resin服务器，使用smartUpload组件上传文件，上传文件同时传递的中文参数获取没有乱码问题。当在Linux中把Resin设置成服务后，上传文件同时的中文参数获取出现了乱码。这个问题困扰了咱们好久，后来咱们分析smartUpload组件的源文件，由于文件上传采用的是字节流的方式，里面包含的参数名称和值也是字节流的方式传递的。smartUpload组件读取字节流后再将参数名称和值从字节流中解析出来，问题就出如今smartUpload将字节流转换成字符串时采用了系统默认的编码，而将Resin设置成服务后，系统默认的编码可能发生了改变，所以出现了乱码。后来，咱们更改了smartUpload的源文件，增长了一个属性charset和setCharset(String)方法，将upload()方法中提取参数语句： String value = new String(m_binArray, m_startData, (m_endData - m_startData) + 1 ); 改为了 String value = new String(m_binArray, m_startData, (m_endData - m_startData) + 1, charset ); 终于解决了这个乱码问题。html