0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

弹幕系统设计实践

jf_ro2CN3Fa 来源:芋道源码 2023-01-15 11:42 次阅读


背景

为了更好的支持东南亚直播业务,产品设计为直播业务增加了弹幕。第一期弹幕使用腾讯云支持,效果并不理想,经常出现卡顿、弹幕偏少等问题。最终促使我们开发自己的弹幕系统。性能要求是需要支持,单房间百万用户同时在线。

基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

  • 项目地址:https://github.com/YunaiV/ruoyi-vue-pro
  • 视频教程:https://doc.iocoder.cn/video/

问题分析

按照背景来分析,系统将主要面临以下问题:

  1. 带宽压力

    假如说每3秒促达用户一次,那么每次内容至少需要有15条才能做到视觉无卡顿。15条弹幕+http包头的大小将超过3k,那么每秒的数据大小约为8Gbps,而运维同学通知我们所有服务的可用带宽仅为10Gbps。

  2. 弱网导致的弹幕卡顿、丢失

    该问题已在线上环境

  3. 性能与可靠性

    百万用户同时在线,按照上文的推算,具体QPS将超过30w QPS。如何保证在双十一等重要活动中不出问题,至关重要。性能也是另外一个需要着重考虑的点。

基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

  • 项目地址:https://github.com/YunaiV/yudao-cloud
  • 视频教程:https://doc.iocoder.cn/video/

带宽优化

为了降低带宽压力,我们主要采用了以下方案:

  1. 启用Http压缩

    通过查阅资料,http gzip压缩比率可以达到40%以上(gzip比deflate要高出4%~5%)。

  2. Response结构简化0454f32e-947f-11ed-bfe3-dac502259ad0.jpg

  3. 内容排列顺序优化

    根据gzip的压缩的压缩原理可以知道,重复度越高,压缩比越高,因此可以将字符串和数字内容放在一起摆放

  4. 频率控制

  • 带宽控制:通过添加请求间隔参数(下次请求时间),保证客户端的请求频率服务端可控。以应对突发的流量增长问题,提供有损的服务。
  • 稀疏控制:在弹幕稀疏和空洞的时间段,通过控制下次请求时间,避免客户端的无效请求。

弹幕卡顿、丢失分析

在开发弹幕系统的的时候,最常见的问题是该怎么选择促达机制,推送 vs 拉取 ?

Long Polling via AJAX

客户端打开一个到服务器端的 AJAX 请求,然后等待响应,服务器端需要一些特定的功能来允许请求被挂起,只要一有事件发生,服务器端就会在挂起的请求中送回响应。如果打开Http的Keepalived开关,还可以节约握手的时间。

047123aa-947f-11ed-bfe3-dac502259ad0.jpg

优点: 减少轮询次数,低延迟,浏览器兼容性较好。缺点: 服务器需要保持大量连接。

WebSockets

长轮询虽然省去了大量无效请求,减少了服务器压力和一定的网络带宽的占用,但是还是需要保持大量的连接。那么人们就在考虑了,有没有这样一个完美的方案,即能双向通信,又可以节约请求的 header 网络开销,并且有更强的扩展性,最好还可以支持二进制帧,压缩等特性呢?于是人们就发明了这样一个目前看似“完美”的解决方案 —— WebSocket。它的最大特点就是,服务器可以主动向客户端推送信息,客户端也可以主动向服务器发送信息,是真正的双向平等对话。

049730f4-947f-11ed-bfe3-dac502259ad0.jpg

优点:较少的控制开销,在连接创建后,服务器和客户端之间交换数据时,用于协议控制的数据包头部相对较小。在不包含扩展的情况下,对于服务器到客户端的内容,此头部大小只有2至10字节(和数据包长度有关);对于客户端到服务器的内容,此头部还需要加上额外的4字节的掩码。相对于 HTTP 请求每次都要携带完整的头部,此项开销显著减少了。更强的实时性,由于协议是全双工的,所以服务器可以随时主动给客户端下发数据。相对于HTTP请求需要等待客户端发起请求服务端才能响应,延迟明显更少;即使是和Comet等类似的长轮询比较,其也能在短时间内更多次地传递数据。长连接,保持连接状态。

Long Polling vs Websockets

无论是以上哪种方式,都使用到TCP长连接,那么TCP的长连接是如何发现连接已经断开了呢?

TCP Keepalived会进行连接状态探测,探测间隔主要由三个配置控制。

keepalive_probes:探测次数(默认:7次)

keepalive_time 探测的超时(默认:2小时)

keepalive_intvl 探测间隔(默认:75s)

但是由于在东南亚的弱网情况下,TCP长连接会经常性的断开:

Long Polling 能发现连接异常的最短间隔为:min(keepalive_intvl, polling_interval)

Websockets能发现连接异常的最短间隔为:Websockets: min(keepalive_intvl, client_sending_interval)

如果下次发送数据包的时候可能连接已经断开了,所以使用TCP长连接对于两者均意义不大。并且弱网情况下Websockets其实已经不能作为一个候选项了

  • 即使Websockets服务端已经发现连接断开,仍然没有办法推送数据,只能被动等待客户端重新建立好连接才能推送,在此之前数据将可能会被采取丢弃的措施处理掉。
  • 在每次断开后均需要再次发送应用层的协议进行连接建立。

根据了解腾讯云的弹幕系统,在300人以下使用的是推送模式,300人以上则是采用的轮训模式。但是考虑到资源消耗情况,他们可能使用的是Websocket来实现的弹幕系统,所以才会出现弹幕卡顿、丢失的情况。综上所述,Long Polling和Websockets都不适用我们面临的环境,所以我们最终采取了短轮训 的方案来实现弹幕促达

04b59d32-947f-11ed-bfe3-dac502259ad0.jpg

可靠与性能

为了保证服务的稳定性我们对服务进行了拆分,将复杂的逻辑收拢到发送弹幕的一端。同时,将逻辑较为复杂、调用较少的发送弹幕业务与逻辑简单、调用量高的弹幕拉取服务拆分开来。服务拆分主要考虑因素是为了不让服务间相互影响,对于这种系统服务,不同服务的QPS往往是不对等的,例如像拉取弹幕的服务的请求频率和负载通常会比发送弹幕服务高1到2个数量级,在这种情况下不能让拉弹幕服务把发弹幕服务搞垮,反之亦然,最⼤度地保证系统的可用性,同时也更更加方便对各个服务做Scale-Up和Scale-Out。服务拆分也划清了业务边界,方便协同开发。

在拉取弹幕服务的一端 ,引入了本地缓存。数据更新的策略是服务会定期发起RPC调⽤从弹幕服务拉取数据,拉取到的弹幕缓存到内存中,这样后续的请求过来时便能直接⾛走本地内存的读取,⼤大幅降低了调用时延。这样做还有另外一个好处就是缩短调⽤链路,把数据放到离⽤户最近的地⽅,同时还能降低外部依赖的服务故障对业务的影响,

04d698b6-947f-11ed-bfe3-dac502259ad0.jpg

为了数据拉取方便,我们将数据按照时间进行分片,将时间作为数据切割的单位,按照时间存储、拉取、缓存数据(RingBuffer),简化了数据处理流程。与传统的Ring Buffer不一样的是,我们只保留了尾指针,它随着时间向前移动,每⼀秒向前移动一格,把时间戳和对应弹幕列表并写到一个区块当中,因此最多保留60秒的数据。同时,如果此时来了一个读请求,那么缓冲环会根据客户端传入的时间戳计算出指针的索引位置,并从尾指针的副本区域往回遍历直至跟索引重叠,收集到一定数量的弹幕列表返回,这种机制保证了缓冲区的区块是整体有序的,因此在读取的时候只需要简单地遍历一遍即可,加上使用的是数组作为存储结构,带来的读效率是相当高的。

再来考虑可能出现数据竞争的情况。先来说写操作,由于在这个场景下,写操作是单线程的,因此⼤可不必关心并发写带来的数据一致性问题。再来说读操作,由图可知写的方向是从尾指针以顺时针⽅向移动,⽽读⽅向是从尾指针以逆时针方向移动,⽽决定读和写的位置是否出现重叠取决于index的位置,由于我们保证了读操作最多只能读到30秒内的数据,因此缓冲环完全可以做到无锁读写

在发送弹幕的一端 ,因为用户一定时间能看得过来弹幕总量是有限的,所以可以对弹幕进行限流,有选择的丢弃多余的弹幕。同时,采用柔性的处理方式,拉取用户头像、敏感词过滤等分支在调用失败的情况下,仍然能保证服务的核心流程不受影响,即弹幕能够正常发送和接收,提供有损的服务。

总结

04fb4be8-947f-11ed-bfe3-dac502259ad0.jpg

最终该服务在双十二活动中,在Redis出现短暂故障的背景下,高效且稳定的支撑了70w用户在线,成功完成了既定的目标



审核编辑 :李倩


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7085

    浏览量

    89204
  • 管理系统
    +关注

    关注

    1

    文章

    2539

    浏览量

    35970

原文标题:弹幕系统设计实践

文章出处:【微信号:芋道源码,微信公众号:芋道源码】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    华纳云:VFS在提升文件系统性能方面的具体实践

    VFS(Virtual File System)通过提供统一的接口和抽象层,使得操作系统能够以高效的方式管理和访问不同的文件系统。以下是一些VFS在提升文件系统性能方面的具体实践示例:
    的头像 发表于 11-27 15:59 197次阅读

    MES系统的最佳实践案例

    效率、降低成本、保证产品质量。 MES系统的最佳实践案例 引言 在当今竞争激烈的制造业环境中,企业必须不断寻求创新和改进的方法来保持竞争力。MES系统作为一种关键的信息技术工具,已经被广泛应用于各种制造行业,以实现生产过程的优化
    的头像 发表于 10-27 09:33 1115次阅读

    计算机控制系统实践报告

    计算机控制技术实践报告
    发表于 10-17 13:45 0次下载

    UWB定位系统在智能制造中的应用实践

    UWB(Ultra-Wideband,超宽带)定位系统在智能制造中的应用实践已经取得了显著成效。以下是对其应用实践的详细阐述: 一、高精度定位与实时监控 高精度定位:UWB技术以其厘米级甚至毫米级
    的头像 发表于 09-11 11:46 474次阅读
    UWB定位<b class='flag-5'>系统</b>在智能制造中的应用<b class='flag-5'>实践</b>

    新书发布——《实时操作系统应用技术:RT-Thread与ARM编程实践

    RT-Thread又一本新书《实时操作系统应用技术——基于RT-Thread与ARM的编程实践》发布,标志着RT-Thread生态和实时操作系统技术教育领域又迎来了一个重要里程碑。本书是畅销书作者
    的头像 发表于 05-11 08:35 828次阅读
    新书发布——《实时操作<b class='flag-5'>系统</b>应用技术:RT-Thread与ARM编程<b class='flag-5'>实践</b>》

    华为云 FunctionGraph 构建高可用系统实践

    每年,网上都会报道 XXX 系统异常不可用,给客户带来巨大的经济损失。云服务的客户基数更大,一旦出现问题,都将给客户和服务自身带来极大影响。本文将基于华为云 FunctionGraph 自身的实践
    的头像 发表于 05-09 23:14 482次阅读
    华为云 FunctionGraph 构建高可用<b class='flag-5'>系统</b>的<b class='flag-5'>实践</b>

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》2.0

    《大语言模型“原理与工程实践”》是关于大语言模型内在机理和应用实践的一次深入探索。作者不仅深入讨论了理论,还提供了丰富的实践案例,帮助读者理解如何将理论知识应用于解决实际问题。书中的案例分析有助于
    发表于 05-07 10:30

    讯维融合通信系统在机场通信网络建设中的实践

    讯维融合通信系统在机场通信网络建设中的实践主要体现在以下几个方面: 首先,在机场通信网络的构建过程中,讯维融合通信系统能够实现各类通信设备和系统的无缝对接与融合。这包括航管
    的头像 发表于 04-19 16:30 468次阅读

    讯维融合通信系统在金融数据中心建设的实践探索

    讯维融合通信系统在金融数据中心建设的实践探索中,展现出了其独特的技术优势和应用价值。以下是对这一实践探索的详细分析: 首先,金融数据中心作为金融机构的核心信息枢纽,对通信系统的可靠性、
    的头像 发表于 04-18 15:41 334次阅读

    讯维融合通信系统:智能通信技术的实践与应用案例

    讯维融合通信系统作为智能通信技术的杰出代表,已经在多个领域得到了广泛实践与应用,为企业和社会带来了显著的价值。以下是一些具体的实践与应用案例: 智慧城市建设中的综合监控系统 : 在某国
    的头像 发表于 04-10 16:31 578次阅读

    5G图传系统提升指挥车通信效率的实践案例

    在近年来的指挥车通信实践中,讯维5G图传系统以其卓越的性能和稳定性,为提升指挥车通信效率提供了强有力的支持。以下是一个具体的实践案例,展示了讯维5G图传系统在实际应用中的效果。   某
    的头像 发表于 03-07 15:36 403次阅读

    浅谈配电室智能监控系统的设计与实践探索

    浅谈配电室智能监控系统的设计与实践探索 张颖姣 安科瑞电气股份有限公司 上海嘉定201801 摘要:配电室智能监控系统可以运用计算机技术将配电工程的各个环节有机结合起来,全面控制配电系统
    的头像 发表于 02-19 14:16 523次阅读
    浅谈配电室智能监控<b class='flag-5'>系统</b>的设计与<b class='flag-5'>实践</b>探索

    浅析配电室智能监控系统的设计与实践探索

    浅析配电室智能监控系统的设计与实践探索 张颖姣 安科瑞电气股份有限公司 上海嘉定 201801 摘要:配电室智能监控系统设计,引起供电部门重视,借助科学技术,加大配电室智能监控系统设计
    的头像 发表于 02-19 14:12 432次阅读
    浅析配电室智能监控<b class='flag-5'>系统</b>的设计与<b class='flag-5'>实践</b>探索

    医院配电与能耗监管系统建设实践分析

    电子发烧友网站提供《医院配电与能耗监管系统建设实践分析.docx》资料免费下载
    发表于 01-31 09:11 0次下载

    关于转码系统优化原理与实践

    我们从转码系统切入。转码主要有三个目的:提高码流的兼容性、改善画质和降码率省带宽。今天主要探讨降低码率相关的原理和实践,因为带宽成本是视频公司最沉重的负担之一。
    的头像 发表于 01-16 10:11 691次阅读
    关于转码<b class='flag-5'>系统</b>优化原理与<b class='flag-5'>实践</b>