MySQL中utf8字符集、排序规则及utf8mb4_bin列大小写不敏感方法

时间 2019-12-10

标签 mysql utf8 utf 字符集排序规则 utf8mb4 bin 大小写敏感方法栏目 MySQL 繁體版

原文原文链接

utf8mb4 和 utf8 比较

utf8mb4: A UTF-8 encoding of the Unicode character set using one to four bytes per character.

utf8mb3: A UTF-8 encoding of the Unicode character set using one to three bytes per character.

utf8: An alias for utfmb3.
(https://dev.mysql.com/doc/ref...html

UTF-8是使用1~4个字节，一种变长的编码格式。（字符编码）mysql

mb4即 most bytes 4，使用4个字节来表示完整的UTF-8。而MySQL中的utf8是utfmb3，只有三个字节，节省空间但不能表达所有的UTF-8，只能支持“基本多文种平面”（Basic Multilingual Plane，BMP）。git

推荐使用utf8mb4。github

utf8mb4_unicode_ci 和 utf8mb4_general_ci 比较

general_ci 更快，unicode_ci 更准确web

in German and some other languages ß is equal to ss.

这种状况unicode_ci能准确判断。算法

具体有什么差异呢？参见下面的链接。sql

http://mysql.rjweb.org/utf8mb...函数

utf8mb4_general_ci           P=p  Q=q  R=r=Ř=ř   S=s=ß=Ś=ś=Ş=ş=Š=š  sh  ss    sz
utf8mb4_unicode_ci           P=p  Q=q  R=r=Ř=ř   S=s=Ś=ś=Ş=ş=Š=š    sh  ss=ß  sz

能够看到utf8mb4_general_ci中S=ß，而utf8mb4_unicode_ci中ss=ß 。编码

使用utf8mb4_bin能够将上面的字符区分开来。spa

貌似general_ci 也快不了多少，因此更推荐unicode_ci。

大小写敏感

utf8mb4_general_cs 大小写敏感

utf8mb4_bin 大小写敏感

但貌似不存在utf8_unicode_cs ，多是算法决定的吧？

utf8mb4_bin 列大小写不敏感方法

需求

插入的时候Uman 和Umān和uman 看作不一样的单词。
查询的时候Uman 和Umān和uman 都能同时查出来。

解决方案

使用MySQL虚拟生成列。MYSQL UTF8_bin case insensitive unique index

create table test_utf8_bin_ci
( u8 varchar(50) charset utf8mb4 collate utf8mb4_unicode_ci,
  u8_bin_ci varchar(50) charset utf8mb4 collate utf8mb4_bin as (lower(u8)) unique
);

insert into test_utf8_bin_ci (u8)
values ('A'),('Ä'),('Å'),('Â'),('Á'),('À');

根据需求，插入数据时：

Uman 和Umān 看作不一样的单词，因此要utf8_bin.
Uman 和 uman看作相同的单词，因此添加unique约束，在utf8_bin区分大小写的状况下，使用low() 函数使其不区分大小写。

查询时：

查询u8列，utf8mb4_unicode_ci不区分大小写、不区分a和ā。都能查出来。