Emoji保存到数据库问题【小程序入坑系列】

目前使用的数据库是mysql而且默认的数据字符集是“utf-8”,当小程序用户的昵称中含有emoji图片的时候保存到数据库就会有问题。使用mysql数据库的时候,如果字符集是UTF-8并且在java服务器上,当存储emoji表情的时候,会抛出以上异常(比如微信开发获取用户昵称,有的用户的昵称用的是emoji的图像)这是由于字符集不支持的异常,因为utf-8编码有可能是两个,三个,四个字节,其中Emoji表情是四个字节,而mysql的utf-8编码最多三个字节,所以导致数据插不进去。

典型的sql错误日志如下

处理这种方式主要有2中方案,第一种方案是从数据库入手,第二种方案从项目应用入手。

     由于大多数人都属于开发者并非正在的后期维护,所有第一种方案虽然从本质上解决了问题,但是如果涉及到其他数据库的影响,开发者一般也不会太在意而导致意外的事件发生,再其次,一个正在的大公司不会轻易因为你的一个项目而修改整个数据库的字符集,同时你也没有这个权限私自修改。

     从项目应用入手对每个开发者来说都是最直接的表现方式,在代码里改动既直观又可以后期维护。

     先介绍第一种方案:从数据库层面进行解决(mysql支持utf8mb4的版本是5.5.3+,必须升级到较新版本)

     1.修改database,table,column字符集

    

[javascript]  view plain  copy
  1. ALTER DATABASE database_name CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci;  
  2. ALTER TABLE table_name CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;  
  3. ALTER TABLE table_name CHANGE column_name VARCHAR(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;  
    
     2.修改mysql配置文件my.cnf(window为my.ini)

    

[javascript]  view plain  copy
  1. [client]  
  2. default-character-set = utf8mb4  
  3. [mysql]  
  4. default-character-set = utf8mb4  
  5. [mysqld]  
  6. character-set-client-handshake = FALSE  
  7. character-set-server = utf8mb4  
  8. collation-server = utf8mb4_unicode_ci  
  9. init_connect='SET NAMES utf8mb4'  

     3.用的是java服务器,升级或者确保mysql connection版本高于5.1.13否则仍然不能试用utf8mb4)
     4.服务器端的db配置文件

    

[javascript]  view plain  copy
  1. jdbc.driverClassName=com.mysql.jdbc.Driver  
  2. jdbc.url=jdbc:mysql://localhost:3306/database?useUnicode=true&characterEncoding=utf8&autoReconnect=true&rewriteBatchedStatements=TRUE  
  3. jdbc.username=root  
  4. jdbc.password=password  
    如果升级了mysql-connector,其中的characterEncoding=utf8可以自动被识别为utf8mb4(兼容原来的utf8),而
autoReconnection(当数据库连接异常中断时,是否自动重新连接?默认为false)强烈建议配上,忽略这个属性,可能导致缓存缘故 ,没有读取到DB最新的配置,导致一直无法试用utf8mb4字符集;
详细可见 : http://segmentfault.com/a/1190000000616820



二.从应用层的方面进行解决
在获得数据之后往数据库存之前先进行编码: 

        URLEncoder.encode(nickName, "utf-8");

当从数据库中取出准备显示的时候进行解码, 

       URLDecoder.decode(nickname, "utf-8");

       从应用层进行解决的时候建议不要在对象getter,setter方法中直接编码,因为放入对象的时候setter方法将nickname进行编码,当插入数据库的时候相当于从对象中调用getter方法将你参考取出这就将之前setter编码过的nickname又重新解码了,等于未对Nickname进行任何操作。依然会出现以上问题。

        最终展示效果如下:

        



           而数据实体类可以参照如下,不要在getNickName方法中调用编码解码,因为这样做是完全没有效果的,当插入数据库的时候相当于从对象中调用getter方法将你参考取出这就将之前setter编码过的nickname又重新解码了,等于未对Nickname进行任何操作

 


     本文参考:http://www.cnblogs.com/dashuai01/p/4601204.html