JavaScript/js中,有三个能够对字符串编码的函数,分别是: escape,encodeURI,encodeURIComponent,相应3个解码函数:unescape,decodeURI,decodeURIComponent 。web
escape()函数数据库
定义和用法 :escape() 函数可对字符串进行编码,这样就能够在全部的计算机上读取该字符串。浏览器
语法 :escape(string)函数
参数 描述 :string 必需。要被转义或编码的字符串。 编码
返回值 :已编码的 string 的副本。其中某些字符被替换成了十六进制的转义序列。url
说明 :1.该方法不会对 ASCII 字母和数字进行编码,也不会对下面这些 ASCII 标点符号进行编码: - _ . ! ~ * ' ( )spa
2.escape不编码字符有69个:*,+,-,.,/,@,_,0-9,a-z,A-Z。code
3.其余全部的字符都会被转义序列替换。orm
4.目前已经不多使用,建议不用此方式编码htm
encodeURI()函数
定义和用法 :encodeURI() 函数可把字符串做为 URI 进行编码。
语法 :encodeURI(URIstring)
参数 描述 :URIstring 必需。一个字符串,含有 URI 或其余要编码的文本。
返回值 :URIstring 的副本,其中的某些字符将被十六进制的转义序列进行替换。
说明 :该方法不会对 ASCII 字母和数字进行编码,也不会对这些 ASCII 标点符号进行编码: - _ . ! ~ * ' ( ) 。
该方法的目的是对 URI 进行完整的编码,所以对如下在 URI 中具备特殊含义的 ASCII 标点符号,encodeURI() 函数是不会进行转义的:;/?:@&=+$,#
encodeURI不编码字符有82个:!,#,$,&,',(,),*,+,,,-,.,/,:,;,=,?,@,_,~,0-9,a-z,A-Z
encodeURIComponent() 函数
定义和用法 :encodeURIComponent() 函数可把字符串做为 URI 组件进行编码。
语法 :encodeURIComponent(URIstring)
参数 描述 :URIstring 必需。一个字符串,含有 URI 组件或其余要编码的文本。
返回值 :URIstring 的副本,其中的某些字符将被十六进制的转义序列进行替换。
说明 :该方法不会对 ASCII 字母和数字进行编码,也不会对这些 ASCII 标点符号进行编码: - _ . ! ~ * ' ( ) 。
其余字符(好比 :;/?:@&=+$,# 这些用于分隔 URI 组件的标点符号),都是由一个或多个十六进制的转义序列替换的。
encodeURIComponent不编码字符有71个:!, ',(,),*,-,.,_,~,0-9,a-z,A-Z
注:escape对0-255之外的unicode值进行编码时输出%u****格式,其它状况下escape,encodeURI,encodeURIComponent编码结果相同
提示:请注意 encodeURIComponent() 函数 与 encodeURI() 函数的区别之处,前者假定它的参数是 URI 的一部分(好比协议、主机名、路径或查询字符串)。
所以 ,encodeURIComponent() 函数将转义用于分隔 URI 各个部分的标点符号。
这三个函数,escape()除了 ASCII 字母、数字和特定的符号外,对传进来的字符串所有进行转义编码,所以若是想对URL编码,最好不要使用此方法。
encodeURI() 用于编码整个URI,由于URI中的合法字符都不会被编码转换。
encodeURIComponent方法在编码单个URIComponent(指请求参数)应当是最经常使用的,它能够讲参数中的中文、特殊字符进行转义,而不会影响整个URL。
最经常使用的应为encodeURIComponent,它是将中文、韩文等特殊字符转换成utf-8格式的url编码,因此若是给后台传递参数须要使用encodeURIComponent时须要后台解码对utf-8支持(form中的编码方式和当前页面编码方式相同)
GBK:全名为汉字内码扩展规范,英文名Chinese Internal Code Specification,是GB2312的扩充,仍然用两个字节表示汉字。采用双字节表示,整体编码范围为8140-FEFE,首字节在81-FE 之间,尾字节在40-FE 之间,剔除 xx7F一条线。总计23940 个码位,共收入21886个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号883 个。
UTF-8:(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。UTF-8用1到6个字节编码UNICODE字符。用在网页上能够同一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。
UTF-8和GBK,字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。GBK包含所有中文字符;UTF-8则包含全世界全部国家须要用到的字符。GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准(好像还不是国家标准)UTF-8编码的文字能够在各国各类支持UTF8字符集的浏览器上显示。好比,若是是UTF8编码,则在外国人的英文IE上也能显示中文,而无需他们下载IE的中文语言支持包。 因此,对于英文比较多的论坛 ,使用GBK则每一个字符占用2个字节,而使用UTF-8英文却只占一个字节。UTF8是国际编码,它的通用性比较好,外国人也能够浏览论坛,GBK是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBK大。
待续!
字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。GBK包含所有中文字符;UTF-8则包含全世界全部国家须要用到的字符。GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准(好像还不是国家标准)UTF-8编码的文字能够在各国各类支持UTF8字符集的浏览器上显示。好比,若是是UTF8编码,则在外国人的英文IE上也能显示中文,而无需他们下载IE的中文语言支持包。 因此,对于英文比较多的论坛 ,使用GBK则每一个字符占用2个字节,而使用UTF-8英文却只占一个字节。UTF8是国际编码,它的通用性比较好,外国人也能够浏览论坛,GBK是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBK大 字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。
至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。
GBK包含所有中文字符;UTF-8则包含全世界全部国家须要用到的字符。
GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准(好像还不是国家标准) UTF-8编码的文字能够在各国各类支持UTF8字符集的浏览器上显示。 好比,若是是UTF8编码,则在外国人的英文IE上也能显示中文,而无需他们下载IE的中文语言支持包。 因此,对于英文比较多的论坛 ,使用GBK则每一个字符占用2个字节,而使用UTF-8英文却只占一个字节。
UTF8是国际编码,它的通用性比较好,外国人也能够浏览论坛,GBK是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBK大UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。UTF-8用1到6个字节编码UNICODE字符。用在网页上能够同一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。
UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。 UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。 UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。