先着重介绍一下mysql的字符集,这样能对产生mysql的根源有一个了解。
mysql 的字符集支持有两个方面:字符集(Character set)和排序方式(Collation)。另外对于字符集的支持细化到四个层次: 服务器(server),数据库(database),数据表(table)和链接(connection)。mysql
连上mysql 后使用status 命令,能够看到相似以下输出:sql
>mysql status Connection id: 305 Current database: Current user: root@localhost SSL: Not in use Current pager: stdout Using outfile: '' Using delimiter: ; Server version: 5.6.23 MySQL Community Server (GPL) Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: utf8 Db characterset: utf8 Client characterset: utf8 Conn. characterset: utf8
Server characterset 就是mysql默认字符集,当建立数据库没有指定字符集时数据库就采用此默认值。能够在mysql的配置文件中的 mysqld 段中对此值进行修改数据库
[mysqld] port = 3306 socket = /tmp/mysql.sock character-set-server = utf8 collation-server = utf8_general_ci
Db characterset:是当前数据库默认的字符集,当建立表时没有指定字符集,此表就使用当前默认值。例如建立一个 db_test 数据库,字符集使用 latin1服务器
CREATE DATABASE `db_test` CHARACTER SET 'latin1' COLLATE 'latin1_swedish_ci'; use db_test;
而后再使用 status 命令,能够看到这个时候 Db characterset 变为 latin1 了app
>mysql status Connection id: 305 Current database: db_test Current user: root@localhost SSL: Not in use Current pager: stdout Using outfile: '' Using delimiter: ; Server version: 5.6.23 MySQL Community Server (GPL) Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: utf8 Db characterset: latin1 Client characterset: utf8 Conn. characterset: utf8
在数据库中分别建立两种表 test1 和 test2,其中 test1 使用默认字符集, test2 指定字符集为GBKsocket
create table test1 (name varchar(20)); create table test2 (name varchar(20)) default charset=GBK;
使用 show create table 命令查看上述两张表,能够看到 test1 使用了当前数据库的默认字符集latin1,而test2使用的字符集是GBK。测试
mysql> show create table test1; +-------+-------------------------------------------------------------------------------------------------+ | Table | Create Table | +-------+-------------------------------------------------------------------------------------------------+ | test1 | CREATE TABLE `test1` ( `name` varchar(20) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=latin1 | +-------+-------------------------------------------------------------------------------------------------+ mysql> show create table test2; +-------+----------------------------------------------------------------------------------------------+ | Table | Create Table | +-------+----------------------------------------------------------------------------------------------+ | test2 | CREATE TABLE `test2` ( `name` varchar(20) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=gbk | +-------+----------------------------------------------------------------------------------------------+
mysql 存储信息最终是已二进制的形式来存储的。因此在存储以前就须要对信息进行编码,同时从数据库读取信息后须要解码。具体使用那种编码、解码方式就是根据Client characterset以及表对应的字符集,若是没有显示的指定,那么会有一个默认值。当使用命令行的方式链接mysql,能够在mysql 配置中 mysql 段来指定默认Client characterset。例如:编码
[client] port = 3306 socket = /tmp/mysql.sock default-character-set = utf8
也能够使用在链接时候指定spa
mysql -uroot -p --default-character-set=utf8
另外在登陆mysql 后也能够使用 set names 来指定命令行
set names utf8
关于优先级,set names utf8 最高,mysql -uroot -p --default-character-set=utf8 其次、my.cnf 最后。
上面对字符集作了一个简单的介绍,建议你们也把上面的mysql 命令试一下,这样理解或更加深入。如今再来讲一下乱码的状况,通常出现乱码就是由于字符集(编码)不一样,换句话说就是当字符集(编码)一致时就不会出现乱码。前面介绍了一下字符集,因此知道了好几种,那究竟是须要什么字符集一致呢?答案是:Client characterset 与 数据库表的字符集。 下面仍是经过例子来讲明,使用上面建立的表 test1。
因为test1使用的字符集是 latin1,那么使用下面的方式连上mysql
mysql -uroot -p db_test --default-character-set=latin1
再次确认一下Client characterset 与 数据库表的字符集
mysql> status -------------- mysql Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using EditLine wrapper Connection id: 310 Current database: db_test Current user: root@localhost SSL: Not in use Current pager: stdout Using outfile: '' Using delimiter: ; Server version: 5.6.23 MySQL Community Server (GPL) Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: utf8 Db characterset: latin1 Client characterset: latin1 Conn. characterset: latin1 ------------------------- mysql> show create table test1; +-------+-------------------------------------------------------------------------------------------------+ | Table | Create Table | +-------+-------------------------------------------------------------------------------------------------+ | test1 | CREATE TABLE `test1` ( `name` varchar(20) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=latin1 | +-------+-------------------------------------------------------------------------------------------------+
能够看到Client characterset与表的字符集是一致的,而后插入一条含有中文的记录,同时查询看看。
mysql> insert into test1(name) values('中test文1234测试'); mysql> select * from test1; +----------------------+ | name | +----------------------+ | 中test文1234测试 | +----------------------+
如今证实当Client characterset与表的字符集一致时,没有出现乱码。那如今使用set names 来修改一下 Client characterset 看看效果。
mysql> set names utf8; Query OK, 0 rows affected (0.00 sec) mysql> status -------------- mysql Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using EditLine wrapper Connection id: 310 Current database: db_test Current user: root@localhost SSL: Not in use Current pager: stdout Using outfile: '' Using delimiter: ; Server version: 5.6.23 MySQL Community Server (GPL) Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: utf8 Db characterset: latin1 Client characterset: utf8 Conn. characterset: utf8 mysql> select * from test1; +--------------------------------------+ | name | +--------------------------------------+ | ä¸testæ–‡1234测试 | +--------------------------------------+
utf8 出现乱码,再试试gbk
mysql> set names gbk; Query OK, 0 rows affected (0.00 sec) mysql> status -------------- mysql Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using EditLine wrapper Connection id: 310 Current database: db_test Current user: root@localhost SSL: Not in use Current pager: stdout Using outfile: '' Using delimiter: ; Server version: 5.6.23 MySQL Community Server (GPL) Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: utf8 Db characterset: latin1 Client characterset: gbk Conn. characterset: gbk mysql> select * from test1; +------------------------+ | name | +------------------------+ | ???test?1234???? | +------------------------+
上面把Client characterset 设置分别设置为 utf8 或 GBK 后,而后查询都出现了乱码,并且乱码显示还不同。下面再测试同样不一样Client characterset字符集先插入在读取的状况。
mysql -uroot -p db_test --default-character-set=utf8 mysql> status -------------- mysql Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using EditLine wrapper Connection id: 312 Current database: db_test Current user: root@localhost SSL: Not in use Current pager: stdout Using outfile: '' Using delimiter: ; Server version: 5.6.23 MySQL Community Server (GPL) Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: utf8 Db characterset: latin1 Client characterset: utf8 Conn. characterset: utf8 mysql> truncate table test1; Query OK, 0 rows affected (0.01 sec) mysql> select * from test1; Empty set (0.00 sec) mysql> insert into test1(name) values('中test文1234测试'); Query OK, 1 row affected, 1 warning (0.00 sec) mysql> select * from test1; +--------------+ | name | +--------------+ | ?test?1234?? | +--------------+
上面的例子说明当字符集不一致出现乱码了。 若是再把Client characterset 修改成和数据库表一致,而后看看刚刚插入的记录是否仍是显示乱码
mysql> set names latin1; Query OK, 0 rows affected (0.00 sec) mysql> select * from test1; +--------------+ | name | +--------------+ | ?test?1234?? | +--------------+ 1 row in set (0.00 sec)
仍是乱码,也就是经过字符集设置也没法把乱码还原了。
经过上面这些例子能够得出结论,只有当Client characterset与表的字符集一致才不会出现乱码。