MySQL的文本(varchar,text),对emoji表情符号不是很好的支持,在5.5之前的版本,varchar和text都是不支持存储emoji表情符号的(即使是utf8)的编码模式。原因在于mysql的utf8是规定了每一个utf8字符按照3个字节来存储,而一个emoji(最初来自苹果系统,现在流行于各种移动操作系统)却需要4个字节来存储。这就导致了如果强制将emoji存储到varchar,text等字段上的时候,mysql会抛出异常,认为emoji是个不正确的文本。
1 | ERROR 1366 (HY000): Incorrect string value: ‘\xF0\x9F\x91\xBD\xF0\x9F…’ for column ‘name’ at row 31 |
其原因是utf8是不定长的,根据左侧位来决定占用了几个字节。emoji表情是4个字节,而MySQL的utf8编码最多支持3个字节,所以插入会出错。
为了解决这个问题,MySQL 5.5开始支持utf8mb4,utf8mb4可支持4个字节utf编码,从而支持更大的字符集,并且兼容utf8。简单来说,utf8mb4是utf8的超集。
要让MySQL开启utf8mb4支持,需要一些额外的设置。
检查MySQL Server版本
utf8mb4 支持需要MySQL Server v5.5.3+
设置
设置表的CHARSET
创建表的时候指定CHARSET为utf8mb4
1 | CREATE TABLE IF NOT EXISTS table_name ( |
修改数据库字符集
1 | ALTER DATABASE database_name CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci; |
修改表的字符集
1 | ALTER TABLE table_name CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; #将TABLE_NAME替换成你的表名 |
修改字段的字符集
1 | ALTER TABLE table_name CHANGE column_name column_name VARCHAR(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; |
修改MySQL配置文件
修改my.cnf的内容
1 | [client] |
检查是否生效
正常情况下的结果应该如下所示
1 | mysql> SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%'; |
如果修改以上都不行请查询
1 | mysql> show variables like '%sql_mode%'; |
如果是以上结果恭喜你是存储不了的
去设置这个sql_mod模式(注意这里修改看之后要退出控制台要不然还是看不到效果的,而且这个配置写my.cnf重启服务器是不生效的)
1 | mysql> show variables like '%sql_mode%'; |
指定MySQL连接时的charset
以mysql-python为例
MySQLdb.connect(
host=config.DB_HOST,
port=config.DB_PORT,
user=config.DB_USR,
passwd=config.DB_PSW,
db=config.DB_NAME,
use_unicode=True,
charset="utf8mb4")
参考文档
http://en.wikipedia.org/wiki/Mapping_of_Unicode_characters
http://dev.mysql.com/doc/refman/5.5/en/charset-unicode-utf8mb4.html
https://mathiasbynens.be/notes/mysql-utf8mb4#utf8-to-utf8mb4
http://blog.caoyue.me/post/support-emoji-in-mysql