其实,解决办法比较简单,即:编译时指定编码为UTF-8,如:php
1 javac -encoding utf-8 HelloJava.java
这样,再运行时就不会出现乱码。html
1、中文问题的来源java
计算机最初的操做系统支持的编码是单字节的字符编码,因而,在计算机中一切处理程序最初都是以单字节编码的英文为准进行处理。随着计算机的发展,为了适应世界其它民族的语言(固然包括咱们的汉字),人们提出了UNICODE编码,它采用双字节编码,兼容英文字符和其它民族的双字节字符编码,因此,目前,大多数国际性的软件内部均采用UNICODE编码,在软件运行时,它得到本地支持系统(多数时间是操做系统)默认支持的编码格式,而后再将软件内部的UNICODE转化为本地系统默认支持的格式显示出来。Java的JDK和JVM便是如此,我这里说的JDK是指国际版的JDK,咱们大多数程序员使用的是国际化的JDK版本,如下全部的JDK均指国际化的JDK版本。咱们的汉字是双字节编码语言,为了能让计算机处理中文,咱们本身制定的gb2312、GBK、GBK2K等标准以适应计算机处理的需求。因此,大部分的操做系统为了适应咱们处理中文的需求,均定制有中文操做系统,它们采用的是GBK,GB2312编码格式以正确显示咱们的汉字。如:中文Win2K默认采用的是GBK编码显示,在中文WIN2k中保存文件时默认采用的保存文件的编码格式也是GBK的,即,全部在中文WIN2K中保存的文件它的内部编码默认均采用GBK编码,注意:GBK是在GB2312基础上扩充来的。程序员
因为Java语言内部采用UNICODE编码,因此在JAVA程序运行时,就存在着一个从UNICODE编码和对应的操做系统及浏览器支持的编码格式转换输入、输出的问题,这个转换过程有着一系列的步骤,若是其中任何一步出错,则显示出来的汉字就会出是乱码,这就是咱们常见的JAVA中文问题。web
同时,Java是一个跨平台的编程语言,也即咱们编写的程序不只能在中文windows上运行,也能在中文Linux等系统上运行,同时也要求能在英文等系统上运行(咱们常常看到有人把在中文win2k上编写的JAVA程序,移植到英文Linux上运行)。这种移植操做也会带来中文问题。数据库
还有,有人使用英文的操做系统和英文的IE等浏览器,来运行带中文字符的程序和浏览中文网页,它们自己就不支持中文,也会带来中文问题。编程
有,几乎全部的浏览器默认在传递参数时都是以UTF-8编码格式来传递,而不是按中文编码传递,因此,传递中文参数时也会有问题,从而带来乱码现象。windows
总之,以上几个方面是JAVA中的中文问题的主要来源,咱们把以上缘由形成的程序不能正确运行而产生的问题称做:JAVA中文问题。数组
2、JAVA编码转换的详细过程浏览器
咱们常见的JAVA程序包括如下类别:
*直接在console上运行的类(包括可视化界面的类)
*JSP代码类(注:JSP是Servlets类的变型)
*Servelets类
*EJB类
*其它不能够直接运行的支持类
这些类文件中,都有可能含有中文字符串,而且咱们经常使用前三类JAVA程序和用户直接交互,用于输出和输入字符,如:咱们在JSP和Servlet中获得客户端送来的字符,这些字符也包括中文字符。不管这些JAVA类的做用如何,这些JAVA程序的生命周期都是这样的:
*编程人员在必定的操做系统上选择一个合适的编辑软件来实现源程序代码并以.java扩展名保存在操做系统中,例如咱们在中文win2k中用记事本编辑一个java源程序;
*编程人员用JDK中的javac.exe来编译这些源代码,造成.class类(JSP文件是由容器调用JDK来编译的);
*直接运行这些类或将这些类布署到WEB容器中去运行,并输出结果。
那么,在这些过程当中,JDK和JVM是如何将这些文件如何编码和解码并运行的呢?
这里,咱们以中文win2k操做系统为例说明JAVA类是如何来编码和被解码的。
第一步,咱们在中文win2k中用编辑软件如记事本编写一个Java源程序文件(包括以上五类JAVA程序),程序文件在保存时默认采用了操做系统默认支持GBK编码格式(操做系统默认支持的格式为file.encoding格式)造成了一个.java文件,也即,java程序在被编译前,咱们的JAVA源程序文件是采用操做系统默认支持的file.encoding编码格式保存的,java源程序中含有中文信息字符和英文程序代码;要查看系统的file.encoding参数,能够用如下代码:
public class ShowSystemDefaultEncoding {
public static void main(String[] args) {
String encoding = System.getProperty("file.encoding");
System.out.println(encoding);
}}
第二步,咱们用JDK的javac.exe文件编译咱们的Java源程序,因为JDK是国际版的,在编译的时候,若是咱们没有用-encoding参数指定咱们的JAVA源程序的编码格式,则javac.exe首先得到咱们操做系统默认采用的编码格式,也即在编译java程序时,若咱们不指定源程序文件的编码格式,JDK首先得到操做系统的file.encoding参数(它保存的就是操做系统默认的编码格式,如WIN2k,它的值为GBK),而后JDK就把咱们的java源程序从file.encoding编码格式转化为JAVA内部默认的UNICODE格式放入内存中。而后,javac把转换后的unicode格式的文件进行编译成.class类文件,此时.class文件是UNICODE编码的,它暂放在内存中,紧接着,JDK将此以UNICODE编码的编译后的class文件保存到咱们的操做系统中造成咱们见到的.class文件。对咱们来讲,咱们最终得到的.class文件是内容以UNICODE编码格式保存的类文件,它内部包含咱们源程序中的中文字符串,只不过此时它己经由file.encoding格式转化为UNICODE格式了。
这一步中,对于JSP源程序文件是不一样的,对于JSP,这个过程是这样的:即WEB容器调用JSP编译器,JSP编译器先查看JSP文件中是否设置有文件编码格式,若是JSP文件中没有设置JSP文件的编码格式,则JSP编译器调用JDK先把JSP文件用JVM默认的字符编码格式(也即WEB容器所在的操做系统的默认的file.encoding)转化为临时的Servlet类,而后再把它编译成UNICODE格式的class类,并保存在临时文件夹中。如:在中文win2k上,WEB容器就把JSP文件从GBK编码格式转化为UNICODE格式,而后编译成临时保存的Servlet类,以响应用户的请求。
第三步,运行第二步编译出来的类,分为三种状况:
A、 直接在console上运行的类
B、 EJB类和不能够直接运行的支持类(如JavaBean类)
C、 JSP代码和Servlet类
D、 JAVA程序和数据库之间
下面咱们分这四种状况来看。
A、直接在console上运行的类
这种状况,运行该类首先须要JVM支持,即操做系统中必须安装有JRE。运行过程是这样的:首先java启动JVM,此时JVM读出操做系统中保存的class文件并把内容读入内存中,此时内存中为UNICODE格式的class类,而后JVM运行它,若是此时此类须要接收用户输入,则类会默认用file.encoding编码格式对用户输入的串进行编码并转化为unicode保存入内存(用户能够设置输入流的编码格式)。程序运行后,产生的字符串(UNICODE编码的)再回交给JVM,最后JRE把此字符串再转化为file.encoding格式(用户能够设置输出流的编码格式)传递给操做系统显示接口并输出到界面上。
以上每一步的转化都须要正确的编码格式转化,才能最终不出现乱码现象。
B、EJB类和不能够直接运行的支持类(如JavaBean类)
因为EJB类和不能够直接运行的支持类,它们通常不与用户直接交互输入和输出,它们经常与其它的类进行交互输入和输出,因此它们在第二步被编译后,就造成了内容是UNICODE编码的类保存在操做系统中了,之后只要它与其它的类之间的交互在参数传递过程当中没有丢失,则它就会正确的运行。
C、JSP代码和Servlet类
通过第二步后,JSP文件也被转化为Servlets类文件,只不过它不像标准的Servlets一校存在于classes目录中,它存在于WEB容器的临时目录中,故这一步中咱们也把它作为Servlets来看。
对于Servlets,客户端请求它时,WEB容器调用它的JVM来运行Servlet,首先,JVM把Servlet的class类从系统中读出并装入内存中,内存中是以UNICODE编码的Servlet类的代码,而后JVM在内存中运行该Servlet类,若是Servlet在运行的过程当中,须要接受从客户端传来的字符如:表单输入的值和URL中传入的值,此时若是程序中没有设定接受参数时采用的编码格式,则WEB容器会默认采用ISO-8859-1编码格式来接受传入的值并在JVM中转化为UNICODE格式的保存在WEB容器的内存中。Servlet运行后生成输出,输出的字符串是UNICODE格式的,紧接着,容器将Servlet运行产生的UNICODE格式的串(如html语法,用户输出的串等)直接发送到客户端浏览器上并输出给用户,若是此时指定了发送时输出的编码格式,则按指定的编码格式输出到浏览器上,若是没有指定,则默认按ISO-8859-1编码发送到客户的浏览器上。
D、Java程序和数据库之间
对于几乎全部数据库的JDBC驱动程序,默认的在JAVA程序和数据库之间传递数据都是以ISO-8859-1为默认编码格式的,因此,咱们的程序在向数据库内存储包含中文的数据时,JDBC首先是把程序内部的UNICODE编码格式的数据转化为ISO-8859-1的格式,而后传递到数据库中,在数据库保存数据时,它默认即以ISO-8859-1保存,因此,这是为何咱们经常在数据库中读出的中文数据是乱码。
3、分析常见的JAVA中文问题几个必须清楚的原则
首先,通过上面的详细分析,咱们能够清晰地看到,任何JAVA程序的生命期中,其编码转换的关键过程是在于:最初编译成class文件的转码和最终向用户输出的转码过程。
其次,咱们必须了解JAVA在编译时支持的、经常使用的编码格式有如下几种:
*ISO-8859-1,8-bit, 同8859_1,ISO-8859-1,ISO_8859_1等编码
*Cp1252,美国英语编码,同ANSI标准编码
*UTF-8,同unicode编码
*GB2312,同gb2312-80,gb2312-1980等编码
*GBK , 同MS936,它是gb2312的扩充
及其它的编码,如韩文、日文、繁体中文等。同时,咱们要注意这些编码间的兼容关体系以下:
unicode和UTF-8编码是一一对应的关系。GB2312能够认为是GBK的子集,即GBK编码是在gb2312上扩展来的。同时,GBK编码包含了20902个汉字,编码范围为:0x8140-0xfefe,全部的字符能够一一对应到UNICODE2.0中来。
再次,对于放在操做系统中的.java源程序文件,在编译时,咱们能够指定它内容的编码格式,具体来讲用-encoding来指定。注意:若是源程序中含有中文字符,而你用-encoding指定为其它的编码字符,显然是要出错的。用-encoding指定源文件的编码方式为GBK或gb2312,不管咱们在什么系统上编译含有中文字符的JAVA源程序都不会有问题,它都会正确地将中文转化为UNICODE存储在class文件中。
而后,咱们必须清楚,几乎全部的WEB容器在其内部默认的字符编码格式都是以ISO-8859-1为默认值的,同时,几乎全部的浏览器在传递参数时都是默认以UTF-8的方式来传递参数的。因此,虽然咱们的Java源文件在出入口的地方指定了正确的编码方式,但其在容器内部运行时仍是以ISO-8859-1来处理的。
四、中文问题的分类及其建议最优解决办法
了解以上JAVA处理文件的原理以后,咱们就能够提出了一套建议最优的解决汉字问题的办法。
咱们的目标是:咱们在中文系统中编辑的含有中文字符串或进行中文处理的JAVA源程序经编译后能够移值到任何其它的操做系统中正确运行,或拿到其它操做系统中编译后能正确运行,能正确地传递中文和英文参数,能正确地和数据库交流中英文字符串。
咱们的具体思路是:在JAVA程序转码的入口和出口及JAVA程序同用户有输入输出转换的地方限制编码方法使之正确便可。
具体解决办法以下:
1、 针对直接在console上运行的类
对于这种状况,咱们建议在程序编写时,若是须要从用户端接收用户的可能含有中文的输入或含有中文的输出,程序中应该采用字符流来处理输入和输出,具体来讲,应用如下面向字符型节点流类型:
对文件:FileReader,FileWrieter
其字节型节点流类型为:FileInputStream,FileOutputStream
对内存(数组):CharArrayReader,CharArrayWriter
其字节型节点流类型为:ByteArrayInputStream,ByteArrayOutputStream
对内存(字符串):StringReader,StringWriter
对管道:PipedReader,PipedWriter
其字节型节点流类型为:PipedInputStream,PipedOutputStream
同时,应该用如下面向字符型处理流来处理输入和输出:
BufferedWriter,BufferedReader
其字节型的处理流为:BufferedInputeStream,BufferedOutputStream
InputStreamReader,OutputStreamWriter
其字节型的处理流为:DataInputStream,DataOutputStream
其中InputStreamReader和InputStreamWriter用于将字节流按照指定的字符编码集转换到字符流,如:
InputStreamReader in = new InputStreamReader(System.in,"GB2312");
OutputStreamWriter out = new OutputStreamWriter (System.out,"GB2312");
例如:采用以下的示例JAVA编码就达到了要求:
//Read.java
import java.io.*;
public class Read {
public static void main(String[] args) throws IOException {
String str = " 中文测试,这是内部硬编码的串"+" test english character";
String strin= "";
BufferedReader stdin = new BufferedReader(new InputStreamReader(System.in,"gb2312")); //设置输入接口按中文编码
BufferedWriter stdout = new BufferedWriter(new OutputStreamWriter(System.out,"gb2312")); //设置输出接口按中文编码
stdout.write("请输入:");
stdout.flush();
strin = stdin.readLine();
stdout.write("这是从用户输入的串:"+strin);
stdout.write(str);
stdout.flush();
}}
同时,在编译程序时,咱们用如下方式来进行:
javac -encoding gb2312 Read.java
2、 针对EJB类和不能够直接运行的支持类(如JavaBean类)
因为这种类它们自己被其它的类调用,不直接与用户交互,故对这种类来讲,咱们的建议的处理方式是内部程序中应该采用字符流来处理程序内部的中文字符串(具体如上面一节中同样),同时,在编译类时用-encoding gb2312参数指示源文件是中文格式编码的便可。
3、 针对Servlet类
针对Servlet,咱们建议用如下方法:
在编译Servlet类的源程序时,用-encoding指定编码为GBK或GB2312,且在向用户输出时的编码部分用response对象的setContentType("text/html;charset=GBK");或gb2312来设置输出编码格式,一样在接收用户输入时,咱们用request.setCharacterEncoding("GB2312");这样不管咱们的servlet类移植到什么操做系统中,只有客户端的浏览器支持中文显示,就能够正确显示。以下是一个正确的示例:
//HelloWorld.java
package hello;
import java.io.*;
import javax.servlet.*;
import javax.servlet.http.*;
public class HelloWorld extends HttpServlet
{
public void init() throws ServletException { }
public void doGet(HttpServletRequest request, HttpServletResponse response) throws IOException, ServletException
{
request.setCharacterEncoding("GB2312"); //设置输入编码格式
response.setContentType("text/html;charset=GB2312"); //设置输出编码格式
PrintWriter out = response.getWriter(); //建议使用PrintWriter输出
out.println("<hr>");
out.println("Hello World! This is created by Servlet!测试中文!");
out.println("<hr>");
}
public void doPost(HttpServletRequest request, HttpServletResponse response) throws IOException, ServletException
{
request.setCharacterEncoding("GB2312"); //设置输入编码格式
response.setContentType("text/html;charset=GB2312"); //设置输出编码格式
String name = request.getParameter("name");
String id = request.getParameter("id");
if(name==null) name="";
if(id==null) id="";
PrintWriter out = response.getWriter(); //建议使用PrintWriter输出
out.println("<hr>");
out.println("你传入的中文字串是:" + name);
out.println("<hr>你输入的id是:" + id);
out.println("<hr>");
}
public void destroy() { }
}
请用javac -encoding gb2312 HelloWorld.java来编译此程序。
测试此Servlet的程序以下所示:
<%@page contentType="text/html; charset=gb2312"%>
<%request.setCharacterEncoding("GB2312");%>
<html><head><title></title>
<Script language="JavaScript">
function Submit() {
//经过URL传递中文字符串值给Servlet
document.base.action = "./HelloWorld?name=中文";
document.base.method = "POST";
document.base.submit();
}
</Script>
</head>
<body bgcolor="#FFFFFF" text="#000000" topmargin="5">
<form name="base" method = "POST" target="_self">
<input name="id" type="text" value="" size="30">
<a href = "JavaScript:Submit()">传给Servlet</a>
</form></body></html>
//testchinese.jsp
<%@page pageEncoding="GB2312"%>
<%@page contentType="text/html; charset=gb2312"%>
<%request.setCharacterEncoding("GB2312");%>
<%
String action = request.getParameter("ACTION");
String name = "";
String str = "";
if(action!=null && action.equals("SENT"))
{
name = request.getParameter("name");
str = request.getParameter("str");
}
%>
<html>
<head>
<title></title>
<Script language="JavaScript">
function Submit()
{
document.base.action = "?ACTION=SENT&str=传入的中文";
document.base.method = "POST";
document.base.submit();
}
</Script>
</head>
<body bgcolor="#FFFFFF" text="#000000" topmargin="5">
<form name="base" method = "POST" target="_self">
<input type="text" name="name" value="" size="30">
<a href = "JavaScript:Submit()">提交</a>
</form>
<%
if(action!=null && action.equals("SENT"))
{
out.println("<br>你输入的字符为:"+name);
out.println("<br>你经过URL传入的字符为:"+str);
}
%>
</body>
</html>
因为大多数本地测试环境是TOMCAT,现也将其中文问题一并附上。
Tomcat中文问题- -
在tomcat5中发现了之前处理tomcat4的方法不能适用于处理直接经过url提交的请求,上网找资料终于发现了最完美的解决办法,不用每一个地方都转换了,并且不管get,和post都正常。写了个文档,贴出来但愿跟我有一样问题的人再也不像我同样痛苦一次:-)
问题描述:
1 表单提交的数据,用request.getParameter(“xxx”)返回的字符串为乱码或者??
2 直接经过url如http://localhost/a.jsp?name=中国,这样的get请求在服务端用request. getParameter(“name”)时返回的是乱码;按tomcat4的作法设置Filter也没有用或者用request.setCharacterEncoding("GBK");也无论用
缘由:
1 tomcat的j2ee实现对表单提交即post方式提示时处理参数采用缺省的iso-8859-1来处理
2 tomcat对get方式提交的请求对query-string 处理时采用了和post方法不同的处理方式。(与tomcat4不同,因此设置setCharacterEncoding(“gbk”))不起做用。
解决办法:
首先全部的jsp文件都加上:
1 实现一个Filter.设置处理字符集为GBK。(在tomcat的webapps/servlet-examples目录有一个完整的例子。请参考web.xml和SetCharacterEncodingFilter的配置。)
1)只要把%TOMCAT安装目录%/ webappsservlets-examplesWEB-INFclassesfiltersSetCharacterEncodingFilter.class文件拷到你的webapp目录/filters下,若是没有filters目录,就建立一个。
2)在你的web.xml里加入以下几行: <filter>
<filter-name>Set Character Encoding</filter-name>
<filter-class>filters.SetCharacterEncodingFilter</filter-class>
<init-param>
<param-name>encoding</param-name>
<param-value>GBK</param-value>
</init-param>
</filter>
<filter-mapping>
<filter-name>Set Character Encoding</filter-name>
<url-pattern>/*</url-pattern>
</filter-mapping>
3)完成.
2 get方式的解决办法
1) 打开tomcat的server.xml文件,找到区块,加入以下一行:
URIEncoding=”GBK”
完整的应以下:
<Connector
port="80" maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
debug="0" connectionTimeout="20000"
disableUploadTimeout="true"
URIEncoding="GBK"
/>
2)重启tomcat,一切OK。
执行以下jsp页页测试是否成功
<%@ page contentType="text/html;charset=gb2312"%>
<%@ page import="java.util.*"%>
<%
String q=request.getParameter("q");
q = q == null? "没有值" : q;
%>
<HTML>
<HEAD><TITLE>新闻列表显示</TITLE>
<META http-equiv=Content-Type content="text/html; charset=gb2312">
<META http-equiv=pragma content=no-cache>
<body>
你提交了:
<%=q%>
<br>
<form action="tcnchar.jsp" method="post">
输入中文:<input type="text" name="q"><input type="submit" value="肯定">
<br>
<a href="tcnchar.jsp?q=中国">经过get方式提交</a>
</form>
</BODY></HTML>
测试结果若是你输入文本框或者点超链都会显示:你提交了”中国”,说明成功!!!!!