0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自建MySQL迁移到云上RDS的故障起因及优化

我快闭嘴 来源:云服务飞行团 作者:翟振兴 2022-09-07 09:41 次阅读

长假某日,阳光明媚,春暖花开,恰逢冬奥会开幕,想着一定是一个黄道吉日,必能顺风顺水。没想到却遇到一个有点小波折 的客户报障。

01 故障起因

故障起因是客户前一天从自建MySQL迁移到云上RDS,在执行某个并发较高的业务时出现了大量锁等待,客户当时升级了实例到最高规格,但故障依旧。客户反馈升级后的实例规格比自建实例高了一倍,自建实例上从未发生过类似情况。后客户根据当时的业务故障模拟了现场,主要是并发执行如下存储过程的时候性能很差:

fbf9d518-2deb-11ed-ba43-dac502259ad0.png

02 初步诊断

从存储过程的逻辑看,比较简单,主要涉及两个SQL,一个从表t(隐藏了真实表名)中meeting_id根据传入参数值查询,具体的入参由字符型变量p_meeting_id带入;另外一个根据meeting_id和刚查出的phone_id去更新t中的phone_id为phone_id+3。表t数据量约40w左右。

第一感觉这是个简单问题,估计两个SQL的meeting_id索引没有生效,查询表上索引后果然发现meeting_id和phone_id上没有索引,建议客户在两个字段上分别创建了索引,且meeting_id为主键。此时用户执行模拟的并发脚本反馈速度有了明显提升,200个并发最高执行时间40s左右,但模拟500个并发的时候,超过了8分钟还没有执行完。用户反馈在自建MySQL上并发500执行都是秒级完成。此时在控制台看,这个存储过程在慢查询日志中批量出现,且扫描行数巨大,客户端已经完全hang住:

fc2da532-2deb-11ed-ba43-dac502259ad0.png

03 进一步优化

虽然优化有了初步的效果, 但距离客户自建环境性能描述还差距很大,由于并发高, 从监控看测试期间CPU到了100%,怀疑参数innodb_thread_concurrency的设置可能不当。此参数的作用是控制 InnoDB 的并发线程上限。也就是说,一旦并发线程数达到这个值,InnoDB 在接收到新请求的时候,就会进入等待状态,直到有线程退出。RDS默认值为0,也就是没有限制上限,在高并发的场景下可能会产生较多的上下文切换,导致CPU升高。和客户咨询了一下,他们自建环境的值设置为32,建议他们将RDS的值也改为32再看看效果。客户很快反馈,修改后的确有效果,500个并发在3分钟内完成,没有再发生hang住不动的情况,性能有了进一步的提升。但参数innodb_thread_concurrency进一步调整效果不明显。

04 加trace诊断

客户看到性能不断提升也很有信心,但和自建环境差距还是很大,还有哪里可能有问题?突然想到,创建索引后,在控制台的慢查询列表中看到很多存储过程的调用sql,且扫描记录数巨大,如果是走meeting_id唯一索引,应该扫描很少的记录数才对,难道没有走索引?或者没有走meeting_id主键索引?联系客户,希望提供测试环境登陆测试。

在测试环境,首先希望验证一下两个SQL的执行计划到底是怎么样的。登陆实例后,分别对两个存储过程中的SQL执行explain,发现走的确实是主键(meeting_id):

fc56cc28-2deb-11ed-ba43-dac502259ad0.png

为了进一步确认SQL在存储过程中的实际执行计划,修改了一下测试的存储过程逻辑,加入了SQL执行的explain结果和实际执行的trace,过程中主要增加的代码如下:

fc98aea4-2deb-11ed-ba43-dac502259ad0.png

执行计划结果如下:

fceb925e-2deb-11ed-ba43-dac502259ad0.png

从结果看,两个SQL居然真的没有走主键meeting_id索引,而是都走了phone_id这个普通的二级索引,其中第一个查询SQL走的索引全扫描,扫描记录数rows为397399,和表的记录数一致,显然走了全索引扫描,虽然比全表扫描好一些,但效率仍然低下;另外一个update的SQL走了正常的索引扫描,rows只有2,性能高效。为什么两个SQL没有走meeting_id这个主键索引呢?看trace打印的部分内容:

fd27f596-2deb-11ed-ba43-dac502259ad0.png

trace显示两个SQL在优化器分析时,将meeting_id做了隐式转换,转换函数为convert('meeting_id' using utf8mb4),也就是将meeting_id做了字符集的转换,熟悉索引机制的同学都清楚,这种情况下优化器是不会走meeting_id索引的。这也可以解释了客户第一次创建索引的时候为啥有性能提升,但效果并不明显,原因就是只有update语句真正用到了索引带来的性能提升,而且是phone_id索引带来的提升,不是性能更高的主键meeting_id。

05 真相大白

现在聚焦到最关键的问题,meeting_id为啥要做字符集的隐式转换?查看了一下实例相关字符集的设置:

  1. 表和列的字符集都为utf8;

  2. 表所在库的字符集为utf8mb4;

  3. server字符集((character_set_server))为utf8

  4. character_set_client/character_set_connection/character_set_results为utf8mb4

果然,server、database、table的字符集不完全一致,猜想一下实际流程应该是这样的:存储过程中传入的字符参数字符集为utf8mb4,和表中字符集为utf8的字段meeting_id比较时,meeting_id做了字符集的隐式转换,转换为utf8mb4后再和输入参数比较,从而导致meeting_id上的索引无法使用。

根据这个猜测,建议用户将表的字符集更改为utf8mb4,这样应该可以避免字符集的转换。由于这个功能还未上线,用户直接对 表做了字符集的修改:

alter table zm_meeting convert to character set utf8mb4;

修改后让用户再次测试,预期效果终于出现,并发500测试在秒级完成,trace查看执行计划,都走了meeting_id的主键索引,隐式转换也随之消失,性能问题得到了彻底解决。

06

后续思考

存储过程的入参为啥使用了utf8mb4?这是本次案例的核心,查阅mysql文档,存储过程介绍里面有一段描述:

fd5b763c-2deb-11ed-ba43-dac502259ad0.png

简单说,就是存储过程的字符型参数,如果没有显式指定字符集,默认将会使用所在数据库的字符集,而本案例中表所在的数据库字符集为utf8mb4,所以参数默认使用了utf8mb4,导致了匹配过程的隐式转换。存储过程外直接写SQL为什么没有这种情况发生,我猜测比较的字符串应该会自动匹配‘=’左边表字段的字符集。

既然这样,理论上直接修改参数的字符集应该也可以达到同样结果,简单测试下,将存储过程参数加上表上的字符集属性:

CREATE  PROCEDURE `zm_sp_next_phone_id`(IN `p_meeting_id` VARCHAR(36) character set utf8)

测试结果如我们预期,不会产生隐式转换,执行计划正确。

问题虽然解决了,原因也找到了,但反思一下整个过程,如果用户的server、库、表字符集能够保持一致,将完全可以避免这个故障。与字符集相关的类似故障也可以大概率避免,所以客户侧还是要有一定的设计规范;产品侧如果有一定的检查规则可以帮客户发现类似的隐患,对提升客户体验也是一种很有价值的服务。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 故障
    +关注

    关注

    6

    文章

    386

    浏览量

    29363
  • MySQL
    +关注

    关注

    1

    文章

    800

    浏览量

    26413
  • RDS
    RDS
    +关注

    关注

    0

    文章

    101

    浏览量

    16816

原文标题:一次较波折的MySQL调优

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    阿里大数据利器之-RDS迁移到Maxcompute实现动态分区

    摘要: 当前,很多用户的业务数据存放在传统关系型数据库,例如阿里RDS,做业务读写操作。当数据量非常大的时候,此时传系关系型数据库会显得有些吃力,那么会经常有将mysql数据库的
    发表于 01-23 18:40

    如此简单 】 教你如何实施迁移之中小企业篇

    /document_detail/62394.html神器二:数据迁移工具DTS,是一个可以帮助企业一键完成本地自建数据库或者数据库迁移到
    发表于 03-09 17:19

    全球唯一:MySQL社区2018年度公司贡献奖颁给阿里

    ,或者正在阿里RDS上解决着你的业务需求:1. 多源复制(Multiple Source Replication)多源复制是在 MySQL 基于 Binary Log 单向一对多复制的基础
    发表于 04-25 11:51

    阿里如何打破Oracle迁移的壁垒

    数据库迁移到,我们可以继续在ECS中运行Oracle,也可以迁移到MySQL。当然也可以将应用及数据库系统
    发表于 05-29 20:03

    兑吧:从自建HBase迁移到阿里HBase实战经验

    物理HBase迁移到阿里HBase最开始我们是物理机房自建HBase,选择阿里HBase主要出于以下几个考虑:HBase服务基本免运维
    发表于 06-19 17:32

    请问一下mysql怎么快速迁移到oceanBase啊?

    mysql怎么快速迁移到oceanBase啊
    发表于 05-30 17:04

    Uber为什么从Postgres迁移到MySQL

    。特别是在之前一些使用Postgres的案例中,现在则改用Schemaless(一个基于MySQL的全新数据库分片)。本文将探索Postgres的缺陷,解释迁移到MySQL的基础构建
    发表于 09-30 14:45 4次下载
    Uber为什么从Postgres<b class='flag-5'>迁移到</b><b class='flag-5'>MySQL</b>

    轻松云系列之一:本地数据迁移

    在线迁移服务HTTP/HTTPS源迁移教程RDS使用SSMS和BCP迁移SQL Server数据库使用 DTS 迁移
    发表于 12-18 17:15 411次阅读

    轻松云系列之二:其他数据迁移至阿里

    本文档围绕如何将您其他厂商的数据迁移到阿里,提供了多个场景的实践方案。文档合集AWS 数据迁移至阿里
    发表于 12-19 16:16 418次阅读

    计算中迁移到和建设私有

    对于互联网公司而言,迁移到是一个明智的决定。它减少了总的成本支出,同时最大限度地提高了工作效率和生产率,本文将指出迁移到或者建设私有
    的头像 发表于 04-02 09:16 2398次阅读

    组织如何有效地将业务迁移到平台

    调研机构Gartner公司指出,如果不采取正确的策略,组织迁移到平台将会导致成本增加、安全漏洞以及对迁移结果的失望。
    的头像 发表于 01-03 14:32 2042次阅读

    让用户聚焦核心业务,华为数据库RDS for MySQL表现给力!

    。那么,华为数据库RDS for MySQL在为企业数字化转型服务中,究竟有何优势呢? 据了解,相比自建数据库,华为数据库
    的头像 发表于 10-21 14:35 668次阅读

    华为数据库 RDS for MySQL,用心保障企业数字化发展

    。为此,华为依托于自身技术水平能力,专门推出了华为数据库 RDS for MySQL,一一解决这些痛点,助推企业业务快速发展。 华为
    的头像 发表于 10-23 18:24 1109次阅读
    华为<b class='flag-5'>云</b>数据库 <b class='flag-5'>RDS</b> for <b class='flag-5'>MySQL</b>,用心保障企业数字化发展

    华为数据库-RDS for MySQL数据库

    华为数据库-RDS for MySQL数据库 华为数据库作为华为的一款数据库产品,它主要是以MyS
    的头像 发表于 10-27 11:06 1464次阅读

    如何将数据从MySQL迁移到Influxdb中

    如果以前是将时序数据存放在MySQL,现在为了获取更好的性能和使用可视化工具,我们需要将数据从MySQL迁移到Influxdb中。 这看起来是一个常见场景,经过一番查阅,发现了
    的头像 发表于 11-02 10:54 1185次阅读