2022年1月31日晚22:00,正是酒足饭饱、万众期待的抢红包环节,春晚主持人刚刚说出红包口令,京东春晚“重保”项目指挥部传出了一句简短的口令:
“断网!”
就在流量峰值最高的时候,京东机房的一根网络专线彻底断掉。一秒钟后,春晚红包系统被快速切换到另一个机房,海量用户顺利打开了抢红包页面。
以上场景,是我虚构的。
不过,虚构了,但没完全虚构。事实上,这个京东云技术团队为春晚项目准备的“超级咒语”,被写入了京东云春晚技术团队的演练剧本当中,在节前备战的19天的时间里,演练过多次。
2022春晚项目IDC基础保障负责人、京东云基础设施研发部高级总监,负责京东云基础设施研发部高级总监常亮,形容这个“咒语”,就像是《哈利波特》里霍格沃茨校长在与伏地魔对决时复活喷泉雕像的那道“咒语”,因为威力巨大,一辈子只能由一个人使用一次。对于京东来说,必须让每一个极限操作、每一个罕见步骤都被执行过一遍,才能在春晚流量洪峰的冲击下,真正做到系统的万无一失。
给全国观众发个红包,需要如此兴师动众、大费周章吗?
从2014年开始,“在春晚给全国观众发红包”,就成了互联网企业的竞技场,同时也是云厂商练兵的沙场。曾合作过春晚红包项目的某团队面对远超预期的流量,曾发出过感慨,“我们对春晚的力量一无所知”。
今年的虎年春晚,京东成为央视春晚的技术合作伙伴。一个历经七年的全民项目,与一个多年备战6·18和双11、服务超过5.5亿消费者的经验丰富的平台,合作成功似乎是毫无悬念的。但事情,并没有这么简单。
这次央视春晚与京东的合作,给“抢红包”这个常规互动,带来了不少新年新气象:除了常规的抢红包、摇红包环节,京东“春节也送货”的配送活动依然保留。
线上线下的联动让疫情防控期间的虎年春晚,既保留着红包和年味,还依然能买到并收到需要的物资。当然,双重流量的叠加,是一次前所未有的挑战,也给虎年春晚带来了一些悬念。
对于云厂商来说,春晚红包互动犹如一场年轻人颇为喜欢的游戏——“剧本杀”。诸多业务方都希望参与其中,带来了大量不确定因素,搞不清楚哪一轮就有用户体验被“干掉”了。而云厂商所扮演的角色,就是引导全局、拨开迷雾的DM(主持人),通过控场来保证场内玩家的游戏体验,享受春晚互动的乐趣和年味。
经过除夕的考验,京东云做到了“carry全场”,名副其实顺利护航了虎年春晚,成功实现“开门红”。数据显示,全球华人参与京东APP红包累计互动量达691亿次,京东云混合多云操作系统云舰成功挑战全球最大规模流量洪峰,在不增加计算资源的情况下,超10000名技术人员基于京东云行云研发效能平台协同作战,利用遍布全国的70多座数据中心,通过史上最短仅仅19天技术备战时间,为春晚红包互动活动快速搭建一套超高弹性、高效敏捷的数字底座。
这轮大型云上的“剧本杀”,京东云到底是如何闯关的?前面提到的“剧本”,究竟有没有被真正操作?这样丝滑的体验,又能否从春晚带到千家万户、千行百业的数智化“剧目”当中?
虎年春晚“四宗最”:谁是影响用户体验的“潜在嫌疑人”?
大过年的,谁让尊贵的观众老爷们不痛快,绝对是要被吐槽上热搜“祭天”的。用户体验的严苛要求,即便是经历过多次6·18、双11等超高并发复杂场景锤炼的互联网巨头们,也必须严阵以待。更何况今年京东云技术团队拿到的春晚红包任务,还增加了许多特殊条件,有四大要素,可能会成为影响虎年春晚红包体验的“潜在嫌疑人”:
1.筹备时间。央视春晚作为一年一度最受关注的全国性晚会,红包互动也吸引了全球华人的参与,以往各家合作伙伴都需要数月时间来准备。而京东从1月5日官宣成为2022年中央广播电视总台春晚独家互动合作伙伴,到1月24日春晚红包互动预约活动开启,备战时间只有19天,是历年央视春晚红包互动中筹备期最短的一次。
2.活动周期。更为“雪上加霜”的是,虎年春晚互动活动的周期却是史上最长的,除夕当天京东上线“击鼓迎春”活动,邀全民共同分红包和好物,将从腊月二十二(1月24日)一直持续到正月十五(2月15日)。相比往年除夕玩一把就走的流量冲击,京东云需要抗住23天的持续脉冲式流量洪峰,超长周期对数据中心资源、系统架构稳定性、业务系统伸缩调配能力等都形成极大考验。
3.规模容量。历届春晚红包互动的峰值都在数亿级别,2021年春晚累计红包互动高达700多亿次,是目前全球规模最大的网络互动活动。而今年由于疫情的原因,很多人可能不在家人身边,同看春晚成为分享年味的一种娱乐活动,预计流量还将进一步增加。而数十秒内,数百亿人次参与互动点击,会形成数亿级别的QPS流量洪峰,让服务器处理数据的压力激增。用户的访问行为也不同于6·18、双11等大促,春晚7轮口播会带来7轮访问峰值,对系统稳定性、电力持续供应等都是非常大的挑战。
(京东云为春晚互动保驾护航〈数据截至除夕当晚23:00〉)
4.复杂程度。如前所说,以往的春晚红包互动都是派发现金红包,而虎年春晚京东云除了支撑春晚红包互动的复杂场景,还需要支撑京东“年货春运”的线下履约,在丰富用户体验感的同时,也给各种业务系统带来了压力。电商供应链履约的特征是链路很长,需要统筹前端网站、订单、结算、支付、搜索、推荐,以及后端的仓储、配送、客服、售后等各环节,每一个链路节点的不稳定,都将指数级地放大技术难度。要让全国30个省份、超过300个城市、近1500个区县的消费者,即使是在除夕、大年初一,也可以正常下单收货,享受京东小哥送货上门的春节物流服务,意味着多个系统的实时同步运算,需要在秒级完成大规模、高密度、高精准的资源调度,此时安全及稳定的云服务底座就显得至关重要。
(除夕当晚,贵州省毕节市的李女士收到京东快递送来的春晚第一单实物奖品)
正是因为春晚合作这一“副本”的难度太高,才有了坊间传闻,互联网产品日活得过亿才能上春晚,否则,广告出来的那一瞬间服务器就会崩溃掉。这也是为什么春晚红包互动的合作伙伴一直是久经沙场的互联网公司。
那么,今年京东云作为春晚项目的技术底座,为了保证大家红包抢得尽兴、收货收得开心,都做了哪些工作呢?
三轮闯关:京东云的春晚三部曲
玩过“剧本杀”的都知道,还原真相需要经过数轮讨论、搜证、层层抽丝剥茧。而在春晚项目中,京东云也经历了三轮闯关。
第一轮:速度关。
要支撑复杂而规模庞大的春晚项目,需要快速地构建起底层基础设施。此时,京东应对复杂业务场景的丰富经验,以及京东云积木化IT思维,支撑起了备战体系架构的中国速度。
首先,基于历届6·18和双11的经验,进一步优化基础设施。在支撑电商大促“黄金流程”的历练中,京东云的系统稳定性能够达到4个9以上。而在春晚到来之前,京东云的技术团队又进一步把所有服务器故障全部清零,消除历史积压问题,确保服务器处在一个健康的原点;同时,重置了所有在线交换机,即使系统遭遇数倍于双十一的流量,交换机群依然可用,保证系统稳定。
其次,利用沉淀下来的技术中台,实现红包系统的积木式搭建。作为京东历年大促核心的基础设施服务,京东云的中间件技术承接了一次次流量洪峰,帮助业务快速处理用户的请求。而这些能力沉淀在技术中台中,面对春晚红包等新的项目需求,不需要从0到1去搭建,如同积木一样快速组合起来,才高效完成了19天构建底层系统的任务。
第二轮:质量关。
京东云的几个技术人员都表示,刚刚接到这个任务的时候,第一反应是:又可以搞事了,激动!
(京东云产品研发部工程师讨论春晚项目)
要知道,在春节这样的喜庆日子,如果抢红包遇到延迟、白页、404、客服占线……毫无疑问会让观众更加感到失落。可以说,春晚项目对用户体验的严苛、系统运行的稳定,都提出了高质量的要求。而面对如此高难度的挑战,京东人的激动,正源自对京东云基础设施的自信,以及对技术能力不断突破的追求。
如何锤炼高质量的保障体系呢?京东云将其拆解为两种关键能力:
一是“人算”,将人力可控范围内的所有能力做到极致。
基于京东体系多年积累的混沌工程能力,京东云沉淀出稳定性主动管理系统——云泰,可以模拟演练可能发生的一切故障,比如机房断电、宕机等突发事故,或者服务器崩溃、硬盘故障、网络连接断开等等破坏性事故,通过稳定性主动测算、故障注入与演练、全链路压测、红蓝对抗等能力,能够及早地发现系统问题,防患于未然。
二是“天算”,为不可预知的意外事件做好充分而扎实的预案。既然是“天算”,就意味着未知,京东针对可能出现的意外情况,为春晚项目首创了“应急剧本”作为异常演练预案。京东云为各个业务线、上千个系统都设计了相关剧本,比如开篇提到的断网演练剧本,提前设计好什么场景、谁做什么、多长时间恢复,在一次次实操演练中将预案反复操作,最后在春晚当天才能够做到面对突发状况能够第一时间找到对应的负责人执行。
正是因为京东云在技术领域执着深入,培养出一大批“长跑选手”,在日复一日不间断的技术练兵中,最终保障了春晚全国观众的体验,也展现出了数字时代的中国工匠精神。
第三轮:腾挪关。
中国有句古话,叫“一力降十会”,意思是在面对一些高难度挑战时强调增加资源总量和绝对力量。比如此前的春晚红包活动中,合作方就临时扩容或购置了很多新增的服务器,来应对暴涨的流量。但这种“堆资源”的模式,却不再适用于当下。一方面,专门为春晚购置超出常规需求的服务器资源,平时又用不到,会导致不必要的浪费;同时,也与国家的双碳战略、节能减排计划相左。
但资源不足,意味着许多业务系统承接不住流量洪峰的冲击。如何在资源零增加的基础上,保证系统的稳定运行,把用户体验做到极致呢?
首先,京东云本身就建立在云原生架构上,运营着全世界最大规模的Docker集群、Kubernetes集群,以及最复杂的Vitess集群之一。全面的云原生化,让京东云可以快速适应不同地域、不同设备的部署环境,实现资源快速灵活平滑扩容,从容平稳地应对大规模复杂流量场景的挑战。
其次,所有底层业务容器都跑在京东云的混合多云操作系统云舰上,进行灵活实时的统一资源调度。云舰内嵌的智能调度系统,通过人工智能算法,对应用的资源使用情况进行预测,弹性地对资源进行优化,将算力优先调度给高算力、高主频的业务中。
比如在春晚互动环节中,红包互动系统就为S级,红包互动、优惠券发放等与流量峰值相关的任务,会得到尽量多的资源使用机会。
春晚项目中,云舰系统通过算力调度腾挪整合,做到了“更少资源办大事儿”。在央视春晚7轮红包互动中,京东云实现了春晚互动模式与“年货春运”模式之间16次无缝切换,护航用户流畅红包互动的同时畅享年货云上购物体验。
(除夕当天参与一线值守的京东云技术人员欢庆圆满完成任务)
对于这一结果,京东云的技术人员在自豪的同时,也开玩笑说,这怕不是打开了“潘多拉盒子”,连春晚都能扛住,以后不会遇到啥活动领导都不让买资源了吧。
也正是因为这样对资源管理“锱铢必较”的精细化管理和技术创新之中,才能以更少的人力、更少的资源做科学的备战。
随着春晚红包互动进入第7个年头,从以往靠增加服务器资源备战,到更敏捷高效的资源腾挪,这代表了云厂商技术能力的进步,展现了云厂商的技术领先性和成熟度,同时也在助力绿色中国。
19天备战,春晚史上最长的红包互动,秒级超大规模的资源切换,上万研发工程师高效协同,资源零增加的情况下独自支持春晚……京东云的三轮闯关,也是数字经济背景下,中国速度、中国质量、绿色中国的缩影。
辞旧迎新:普罗大众与千行百业的同一个“剧本”
从服务产业,到触达普罗大众;从堆叠资源,到追求高效敏捷;从毕其功于一役,到备战常态化;从爽一把就走的消费互联网式玩法,到深耕创新、赋能实体经济的产业级玩法……虎年春晚背后的京东云,也代表了数字经济的演变方向,云市场的发展趋势。
《中国数字经济前沿(2021):数字经济测度及“十四五”发展》中提到,与传统经济相比,数字经济的创新逻辑是:
首先,工业经济规模的扩大和服务业复杂性的增加提出需求,数字化技术进步与这种需求相结合形成新一代IT的分层模块化结构,即新的数字基础设施;其次,新一代数字基础设施推动组织内的适应性变化,即流程和业务逻辑的变革;最后,数字经济的创新力通过产品、资产等创新表现出来。
不难发现,数字经济源于普罗大众的真实需求,也源于传统经济的升级渴盼。B端的千行百业,与C端的千家万户,都在读着同一个时代的“云剧本”。
如果说此前春晚背后的云厂商,是希望借力春晚流量的高性价比,来普及线上业务和“上云”价值,那么在新的剧本中,云厂商的能力体系也必须与时俱进。
一方面,从简单的“上云”,要“用好云”,提升基础设施的效能。与消费市场相比,千行百业的数智化转型,对云厂商提出了更多的要求:要将产业问题转化为技术可解的问题,让前沿技术真正落地;成本敏感,要能够尽可能降低上云用数赋智的风险和投入,提供丰富可复用的行业方案与工具;注重长期有效,需要一丝不苟、精益求精的执行团队……这些恰恰都是京东云能够在春晚项目中carry全场的关键要素。
同时,春晚流量不应该只为互联网企业的业务拉新,还要兼顾社会效益和产业价值,带动实体经济的共同繁荣,云厂商也需要担负起助力数字产品和服务创新的使命。
以“更懂产业”的京东云为例,除了支撑春晚红包互动之外,还携手更多实体企业在春节期间继续实现高质量增长。比如电商业务背后的数十万品牌商家,以及跟各个运营商沟通协作确保机房、网络、专线的7×24响应。
正是这些来自诸多行业的面孔,才共同构成了一个圆满的虎年春晚。
此前,我们更多地看到的是一个在产业中如有神助、增长迅猛的京东云。Gartner2020年全球云计算IaaS市场追踪数据曾显示,京东云IaaS市场占有率排名中国第五,在头部厂商中增速排名前三,跻身国内云计算第一梯队。
从京东内部到服务产业,再从春晚舞台走向普罗大众,京东云持续夯实数智化社会供应链的数字底座、打造新一代云产融合的供应链体系,既是技术上的“三级跳”,也给业务发展带来了源源不断的增长动能。可以肯定的是,经此一役,跑出产业数字化“加速度”的京东云,也将坐稳云厂商头部阵营的位置。
一年一度的春晚,如同一扇窗口,我们总能看到很多,政策、民生、年度热词、来年展望……而虎年春晚,京东云的“剧本杀”,让我们一窥云服务从互联网到数实融合的历程、从“上云”到“用好云”的深化、从量变到质变的跃迁。
不须迎向东郊去,春在千门万户中。
-
工程师
+关注
关注
59文章
1569浏览量
68502 -
云计算
+关注
关注
39文章
7774浏览量
137353 -
互联网
+关注
关注
54文章
11148浏览量
103230 -
数据中心
+关注
关注
16文章
4761浏览量
72034 -
京东
+关注
关注
2文章
998浏览量
48473 -
京东云
+关注
关注
0文章
102浏览量
40
发布评论请先 登录
相关推荐
评论