[TOC]html
原文:Character Encoding Issuesjava
若是没有指定具体的字符编码,servlet会使用ISO-8859-1
来对请求进行编码。(响应和请求的)HTTP消息体的字符编码在Content-Type头字段中指定,好比: Content-Type: text/html; charset=ISO-8859-1
web
When no explicit charset parameter is provided by the sender, media subtypes of the "text" type are defined to have a default charset value of "ISO-8859-1" when received via HTTP. Data in character sets other than "ISO-8859-1" or its subsets MUST be labeled with an appropriate charset value.apache
对使用标准语法的jsp页面来讲,默认的响应字符集一般是ISO-8859-1
,可是在XML语法中是UTF-8
。浏览器
###URI编码规范 URI语法规范规定任何US-ASCII字符以外的字符必须使用%转义序列进行编码:每一个字符编码成一个%和两个表示该字符码的十六进制码,好比:US-ASCII character code 97 = 0x61
,URI没有具体的默认编码。tomcat
####关于URI字符编码:app
ISO-8859-1
和ASCII
对字符码0x20 ~ 0x7E是相互兼容的,大部分网站使用ISO-8859-1做为默认的查询字符串(query string);UTF-8
来编码查询字符串(query string);####关于POST请求编码:webapp
Content-Type
头中指定的编码方式进行编码(前提是接收方支持该编码)。###修改GET请求参数的编码jsp
ISO-8859-1
做为整个URL,包括查询字符串(query string),的默认字符编码。server.xml
文件下的<Connector>
元素,设置URIEncoding属性为具体值,好比:URIEncoding="UTF-8"
;server.xml
文件下的<Connector>
元素,设置useBodyEncodingForURI 属性的值为true
,这将致使Connector对GET请求的参数使用请求体的编码。###修改POST请求参数的编码 经过使用javax.servlet.Filter设置请求编码 5.xide
webapps/servlets-examples/WEB-INF/classes/filters/SetCharacterEncodingFilter.java webapps/jsp-examples/WEB-INF/classes/filters/SetCharacterEncodingFilter.java
6.x
webapps/examples/WEB-INF/classes/filters/SetCharacterEncodingFilter.java
5.5.36+, 6.0.36+, 7.x 从7.0.20开始,过滤器开始变成一等公民而且从examples移到了core,任何web应用再也不须要单独编译和绑定便可使用。此方法能够移植到较旧的版本5.5.36和6.0.36。
org.apache.catalina.filters.SetCharacterEncodingFilter
请求编码设置必须在参数被解析以前完成才有效,一旦解析开始,就没法逆转。当第一个获取参数名或参数值的函数被调用参数解析即被触发,确保将这个过滤器配置在全部获取参数名或值的过滤器以前。
###在全部地方使用UTF-8 为了彻底转换到UTF-8编码,须要确保如下的改动:
设置server.mxl中<Connector>元素的URIEncoding="UTF-8";
使用字符编码过滤器设置默认编码为UTF-8;
修改全部JSP页面的Content-Type的包含字符集名:
通常的JSP页面: <%@page contentType="text/html; charset=UTF-8" %> XML语法的页面(aka JSP Documents): <jsp:directive.page contentType="text/html; charset=UTF-8" />
修改全部的servlet设置响应的content type和在content type中include的字符集都设置为UTF-8
response.setContentType("text/html; charset=UTF-8") or response.setCharacterEncoding("UTF-8").
修改内容生成模板库(Velocity, Freemarker, etc.)使用UTF-8,并指定它们生成的响应的content type为UTF-8;
禁用全部可能在编码设置过滤器或JSP页面设置Content type 为UTF-8以前访问请求参数的过滤器
###CASE 当在JSP页面使用<%@ page contentType="text/html; charset=UTF-8" %>
时,页面GET请求的参数在地址栏以UTF-8编码;
当使用<%@ page contentType="text/html; charset=GBK" %>
时,页面GET请求的参数在地址栏以GBK编码。
当不加这一句时,浏览器地址栏将以&#Unicode编码显示;
- 以上JSP文件以UTF-8编码格式在磁盘存储
JSP页面中使用<%@ page pageEncoding="UTF-8"%>
,JSP文件按照指定编码格式保存文件,若是没有这句,则使用ContentType中指定的编码格式。