制做表单时,为了追求更好的用户交互体验,经常会有提示性的内容,好比提醒用户字符的限制。因为英文,中文字符的问题,涉及到编码的转换调整。html
计算机的早期使用者大多使用英文,而计算机则以二进制来储存;ASCII规定128个英文字符与二进制的对应关系,一般占据一个字节。ASCII编码包括大写英文,小写英文,英文符号等256个字符。浏览器
随着计算机的普及,各个国家都使用,原来的只限于英文的ASCII码不够用,90年代从新制定Unicode编码,也称为统一码,万国码。Unicode字符集 覆盖了全部的字符,为每一个字符进行统一编号,分配惟一的字符码服务器
UTF-8是一种编码方式,其余的编码方式譬如:UTF-16等等,用UTF-8为了将Unicode里面的英文字符为1个字节,其余不常见的字符(中日韩文等)用2-4个字节,主要为了减小文件大小,方便文件的传输。编码
总的来讲,ASCII码是英文专属;Unicode码是ASCII码的拓展,即任何语言通用;UTF-8则是对Unicode码的编码方式。spa
ASCII码和Unicode码都是字符集,不一样的是ASCII码和具体的编码方案绑定一块儿,而Unicode码则与具体的编码方法隔离开,即UTF-8是最为广泛的Unicode编码方案。这样,所谓ASCII码也就成为UTF-8的一部分了。code
虽然每一个字符在Unicode字符集中都能找到惟一肯定的编号,但决定最终字节流的是具体的字符编码(即编码方案是怎么样的)。htm
字符集 (charset set):字符的集合,已编号的字符有序的集合blog
字符码 (code point):字符集中每一个字符的数字编码,好比:GBK字符集使用区位码的方式为每一个字符编号,定义94*94的矩形,每一个汉字放入矩形中,‘中’字放在54区第48位。字符码就是5448内存
编码 :将字符串转换为字节流字符串
解码 :将字节流解析为字符
字符编码 (character encoding):将字符集中的字符码映射为字节流的一种具体实现方案
计算机内存中,统一使用Unicode编码,当保存到硬盘或传输时,就转换为UTF-8编码
记事本编辑时候,从文件读取UTF-8字符被转换为Unicode字符到内存,保存时则将Unicode转为UTF-8保存到文件
浏览网页时候,服务器把动态生成的Unicode内容转换为UTF-8再传输到浏览器
function getLength(str){ //利用字符串replace方法和正则解决非英文长度问题 return str.replace(/[^\x00-\xff]/g,'xx').length //匹配超过ASCII码的字符,用16进制表示的 } function length(){ var len=0; for(var i=0;i<text.value.length;i++){ //str.charCodeAt()返回的是ASCII码 if(text.value[i].charCodeAt()<0||text.value[i].charCodeAt()>255){ len+=2 }else{ len++ } } }