网站建设 >

查看其它板块

php将表情存入数据库,php将表情存入数据库中

php调用微信用户信息接口昵称里面的emoji表情怎么存储到mysql中

emoji表情是四字节的需要utf-8mb4来存储，mysql5.6以上才支持utf-8mb4

浦口网站制作公司哪家好，找创新互联！从网页设计、网站建设、微信开发、APP开发、成都响应式网站建设等网站项目制作，到程序开发，运营维护。创新互联自2013年起到现在10年的时间，我们拥有了丰富的建站经验和运维经验，来保证我们的工作的顺利进行。专注于网站建设就选创新互联。

如何转义emoji表情，让它可以存入utf8的数据库

1. Unicode是什么

Unicode（中文：万国码、国际码、统一码、单一码）是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码，使得电脑可以用更为简单的方式来呈现和处理文字。

简单说来，就是把世界上所有语言的字，加上所有能找到的符号（如高音谱号、麻将、emoji）用同一套编码表示出来。

2. UTF-8是什么

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码。可变长度的意思在于，如果能使用1字节编码，UTF-8绝对不会使用2字节去表示。举个例子，UTF-8的1字节部分和ASCII码是相同的。所以表示'A'这个字符的时候，UTF-8与ASCII码不仅编码相同，而且都是只使用1字节。

3. Character Set和Collation是什么

Character Set是一套符号以及编码。Collation是character set的排序方法。在中文版的MySQL中，character set被翻译为“字符集”，collation被翻译为“整理”。

举个例子，UTF-8是character set，utf8_unicode_ci和utf8mb4_unicode_ci就是collation。

Collation的作用主要有二：字符排序与查找字符。

字符排序的作用是显而易见的，不过还是要用几个例子加以说明。比如要比较a和b的大小，因为在26个英文字母里面，a在b前，所以在编码的时候，也把a放在b前面。这样就产生了第一种排序方式，通过字符编码的大小来排序。而在中文里面，“年”和“日”的排序，除了按照字符编码大小，还可以有另外一些标准。比如可以按照笔画序，“年”的第一笔是丿，“日”的第一笔是丨，而丨是排在丿前的，所以就将“日”排在前面；也可以按拼音序，“年”是n开头，“日”是r开头，于是把“年”排在前面。除此以外，还可以定义部首序、笔画数序等等，而不同的排序方法会有不同的结果。英文也有大小写敏感与不敏感的排序方式。种种不同的排序方式，就形成了不同的collations。

Collation的第二个作用则是查找字符是否在一个字符集里面。既然是一个有序的集合，则可以快速地通过一个编码值确定一个字符是否在集合内。这个特性是我们在不知不觉中使用的。比如使用中文输入法，就是通过输入法找到一个编码，通过collation把它查找出来的。

4. Unicode再深入：Plane和中日韩越统一表意文字

utf8_unicode_ci和utf8mb4_unicode_ci这两个collations都是基于UTF-8编码的，但排序方面或多或少会有差别。可是更大的差别是它查找字符的集合。这需要提到一个Unicode的概念：Plane。

4.1. Plane

Plane中文译作“Unicode平面字符映射”，不过我们还是叫它plane好啦。目前的Unicode字符分为17个planes，而每个plane拥有65536（即2^16）个代码点。可以认为一个plane就是一个范围的编码。

Plane 0也叫做BMP（Basic Multilingual Plane，基本多文种平面），存放着世界上各种语言与标记中最常用的字符。

Plane 1也叫做SMP（Supplementary Multilingual Plane，多文种补充平面），放着表情符号（emoji）、字母与数学符号、音乐符号、太玄经（太极符号）、装饰符号、扑克牌、麻将符号、箭头扩展和一些世界上各种语言不太常用的文字等等。

Plane 2也叫做SIP（Supplementary Ideographic Plane，表意文字补充平面），用于存放统一汉字（见4.2）的一些罕用字与汉藏语系其他语言的用字（如粤语用字）。

4.2. 统一汉字的分布

对于统一汉字（中日韩越统一表意文字，CJKV Unified Ideographs）来说，BMP存放着最初的版本（也是最常用字）与扩展A区的汉字。扩展B区到即将到来的扩展E区都放在SIP中。

在这些区中，除了独立字源的字，还有同一个字源或部首不同的变体或写法。比如“户”的第一笔，中国大陆与香港写作“户”，台湾写作“户”，日本则写作“戸”。这些差异也会在Unicode中用三个不同的编码去表示。所以B区到E区有不少此种字体。

举些B区的例子。网络上之前流行的“不会功夫不要艹我”被写成““xx巭嫑莪”，其中“xx”这个字就是在B区。而粤语“x鸡”（阉鸡）、“x完松”（和一个人发生关系后弃之而去）两个词的首字也是在B区。

5. utf8_unicode_ci和utf8mb4_unicode_ci的异同

这两种collations所对应的字符都是UTF-8编码的一个子集。utf8_unicode_ci最多能找到3个字节的Unicode编码，而utf8mb4_unicode_ci则能找到4个字节的编码。由于调整后的UTF-8编码格式规定最多使用4字节（原来是6字节）编码，所以utf8mb4系列可以说是覆盖了整个Unicode编码。

由于utf8_unicode_ci最多能找到3个字节的编码，意味着它只支持BMP中的字符，对于SMP与SIP以及其他头一字节不为0x00、需要4字节编码的planes来说，utf8_unicode_ci这种collation是无法支持。当使用4字节的字符（如emoji与B区以后的统一汉字）对使用此种collation的字段进行增删查改时，数据库会报一个非法字符的异常。而utf8mb4则没有此问题。由此也看出，utf8mb4_unicode_ci是utf8_unicode_ci的超集。

6. utf8mb4_unicode_ci的优缺点

utf8mb4系列的Collation在MySQL 5.5以上开始支持。相比起utf8_unicode_ci，它有如下的特性：

1) 在数据表中，对于BMP中的字符（最多使用3字节的字符，最常用的字符），两种collations具有完全相同的存储特性：相同的码值，相同的编码方式，相同的存储长度。不会增加任何的存储开销。

2) 在数据表中，对于其他plains的字符，utf8系列的collation根本不能存储，而utf8mb4系列的collations则可以存储。

3) 在数据表中，对于变长的字段（如VARCHAR2，TEXT），utf8mb4最大可存储的字符可能少于utf8系列的collation。

4) 在索引中，对于文本类型的字段，utf8mb4可索引的字符少于utf8系列的collations。如InnoDB的索引最多使用767字节。如果使用utf8mb4，每一个字符都会预留4字节做索引，而utf8则预留3字节。故此前者是191个字符，后者是255个字符。

5) 由于4)的原因，加上字符集大，utf8mb4的性能可能比utf8系列的collations低。

6) 若升级前的字段做了索引，需要把索引字符限制在191字符或以内。

7. 当前系统用哪个好

在当前的系统，全部都使用utf8_unicode_ci这种collation。但是在存储网页标题时，标题带有SMP或者SIP的字符，如emoji、粤语字，会引发数据库写入异常。于是，就有两种解决方向：

1) 扔掉。

1.1) 扔掉或截断引发异常的字。采取此种方法，需要对每一个标题进行扫描。

1.2) 扔掉整条记录。可以采取扫描法，或者扔掉引发异常的记录。

2) 升级到utf8mb4。会略为降低数据库性能。

7.1. 性能考虑

首先对于写入性能，查找字体的性能损耗由于在写入前字符都已经变成编码，基本可以忽略。对于网络传输的性能，则需要继续查找相关资料继续查证。但初步估计由于目前数据库在本地，故此这部分开销的增长不太明显。

而对于索引的性能，由于网页标题这一字段没有做索引，在可预见的将来也未有此计划，故此没有性能的损耗，也没有升级兼容性的担心。

况且，倘若走扔掉数据的方向，若采取扫描法，则需要付出扫描的开销。若采取扔掉记录法，则会先触发事务回滚，其他记录需要下次重新写入。而且当一批记录写入时有k个记录引发异常，则需要回滚与重试k次，除非使用扫描法预先扫描出这些异常的记录。但这也会引入额外的程序与数据库开销。若不使用事务，则数据库总体写入性能会大为降低。

虽然没有实测过，但从感觉上来定性判断，似乎扔掉记录比升级collation带来的性能退化要大。

7.2. 存储空间考虑

当前的网页标题是使用VARCHAR2存储。对于现在可用的、常见的BMP字符，不会引入额外的存储开销。BMP字符在VARCHAR的类型下不会为每一字符引入额外33%的空间开销。反之，定长的CHAR就会引入这种额外开销。

7.3. 目标数据考虑

网页标题作为以后特征分析的数据源。在分析需求完全没有确定的情况下，我认为扔掉任何数据都是不宜采取的办法，特别是整条记录扔掉更是不推荐。因为现阶段我们没有一套标准去判定何为有效数据、何为无效数据。有可能引发异常的那部分数据确实是没用的数据，也有可能那部分人群更倾向于在我们平台上活跃使用。既然各种可能性都存在，我们主动放弃一部分可能性，似乎不太恰当。

7.4. API设计与兼容性考虑

由于utf8_unicode_ci与utf8mb4_unicode_ci都是使用UTF-8编码，所以对于JAVA，使用MyBatis生成的代码是一样的，都是使用String类型。这点已经实测过。加上这两种collations在BMP中的编码完全一致，所以使用3字节与4字节的系统，对于BMP中的字符都是完全兼容、正常显示的。而对于3字节的系统，4字节的字符一般会显示成一个方框，或者在一个方框中有几个小数字，不会引发系统异常。

8. 总结

诚然，emoji对分词分析目前来说还没有什么效果，粤语词而且在SIP中也只是其中一部分，也不知道有多少日本动漫或者爱情动作片的网页会遇到这些生僻字，音乐符号也少人用，太极符号也不是每次都出现，一些数学增补的字符与箭头增补图案也不是每个人都会用。这些加起来可能不知够不够全部的千分之一。

但是倘若每一两个小时就会由于字符不能写入，引发数据库的异常。通过上面的分析，我认为增加这种兼容性带来的成本是可以接受的。

故此，我建议使用升级的方法，兼容所有Unicode字符。

php图片保存到数据库

1.图片转换将上传的图片读取到一个字符串中,再用base64对数据进行编码 $img =base64_encode(file_get_contents($_FILES['file_head']['tmp...

2.显示图片 imgsrc="{$base64String}" 这样就能把图片显示出来了

php 怎么处理 emoji表情

1、使用utf8mb4字符集

如果你的mysql版本=5.5.3，你大可直接将utf8直接升级为utf8mb4字符集

这种4字节的utf8编码可完美兼容旧的3字节utf8字符集，并且可以直接存储emoji表情，是最好的解决方案

至于字节增大带来的性能损耗，我看过一些评测，几乎是可以忽略不计的

2、使用base64编码

如果你因为某些原因无法使用utf8mb4的话，你还可以使用base64来曲线救国

使用例如base64_encode之类的函数编码过后的emoji可以直接存储在utf8字节集的数据表中，取出时decode一下即可

3、干掉emoji表情

emoji表情是个麻烦的东西，即使你能存储，也不一定能完美显示。在iOS以外的平台上，例如PC或者Android。如果你需要显示emoji，就得准备一大堆emoji图片并使用第三方前端类库才行。即便如此，还是可能因为emoji图片不够全而出现无法显示的情况在大多数业务场景下，emoji也不是非要不可的。我们可以适当地考虑干掉它，节约各种成本

经过一番苦苦的google，终于找到靠谱能用的代码：

php存入emoji表情出现乱码，数据库已经改为utf8mb4编码了？

你插入数据的时候写的insert中字段数据的编码不对。你要转换成相应的字符编码才可以的。

新闻标题：php将表情存入数据库,php将表情存入数据库中
当前路径：http://cdkjz.cn/article/hsodje.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

网站维护成都网站建设四川鸿达成都做网站分类目录网站成都网站建设公司四川瑞杰高端网站建设成都网站建设成都机柜租用

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

php将表情存入数据库,php将表情存入数据库中

php调用微信用户信息接口昵称里面的emoji表情怎么存储到mysql中

如何转义emoji表情，让它可以存入utf8的数据库

php图片保存到数据库

php 怎么处理 emoji表情

php存入emoji表情出现乱码，数据库已经改为utf8mb4编码了？

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

php将表情存入数据库,php将表情存入数据库中

php调用微信用户信息接口昵称里面的emoji表情怎么存储到mysql中

如何转义emoji表情，让它可以存入utf8的数据库

php图片保存到数据库

php 怎么处理 emoji表情

php存入emoji表情出现乱码，数据库已经改为utf8mb4编码了？

相关资讯

腾讯云轻量服务器搭建工具 腾讯云轻量服务器 安装win10

zblog导航主题 zblog导航栏怎么添加子栏目

帝国cms多重导航 帝国cms多重导航下载

mysql引擎怎么看 查看mysql引擎

vb6.0vb点虐 的简单介绍

linux编辑输入命令 linux怎么输入命令行

网站编好代码怎么添加域名 网站编好代码怎么添加域名和密码

腾讯云轻量化服务器在哪 腾讯轻量级云服务器

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

腾讯云轻量服务器搭建工具腾讯云轻量服务器安装win10

帝国cms多重导航帝国cms多重导航下载

mysql引擎怎么看查看mysql引擎

vb6.0vb点虐的简单介绍

网站编好代码怎么添加域名网站编好代码怎么添加域名和密码

腾讯云轻量化服务器在哪腾讯轻量级云服务器

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接