QQ亿级日活跃业务SNG后台架构的概览
大小:0.4 MB 人气: 2017-10-10 需要积分:1
作为本次技术开放日后台架构专场的出品人我今天给大家带来《构造高可靠海量用户服务-SNG数亿级日活跃业务后台核心技术揭秘》,一起探讨怎么 从可用性的维度提升海量服务的可靠性及海量服务的故障处理方式,包括:
SNG后台架构的概览;面向海量服务的设计原则。腾讯海量服务的后台设计一般通用的解决方案是什么,包括如何提升海量服务的高可用性,如何从架构层、产品层、运维层提升服务的合理性;后台服务故障解决思路。
SNG业务情况
SNG是腾讯基于社交的业务群,包括QQ、QZone、QQ音乐、腾讯云、K歌、企鹅MV、全民影帝、天天P图等众多业务。根据SNG后台架构从业务逻辑、数据层面、运维包括整个可用性方面的星级评定:
QQ是腾讯持续了16年的业务,它的业务非常复杂,从通讯角度主要是消息存储和转发,QQ团队致力于打造一个永不宕机的服务。QZone一直是中国社交产品的领航者,是腾讯第一个博士Ross总在负责的业务,前端需要高性能的接入服务器,它的移动端通过框架WNS逐渐开放到腾讯云上,第三方开发商也可以用到 QZone高性能的基础框架。QQ音乐主要涉及流媒体点播、MV体系、海量正版知识库建设等,目前已经DAU对外我们已经宣布过亿,是国内人气最旺的领先互联网音乐平台。腾讯云有着腾讯最优秀的海量服务解决能力,给各种2B运营商提供运营化平台,可以节省创业公司特别是中小型初创公司大量研发成本,在做的应该有不少是创业者,欢迎来用腾讯云产品。全民K歌,两年前Ross总从空间过来兼任数字音乐部后开始启动团队做的,在推出不到两年的时间目前注册用户已远超竞品,在业务逻辑方面主要涉及大量的UGC流媒体上传存储和分发、feeds管理和互动、知识库管理等,大家没安装的可以回去尽快安装一个,里面也有优质的用户在唱歌。
如何定义可用性
从大家都熟知的案例入手,12306刚上线的时候经常会出现挂机的情况然后显示一条公告“正在进行故障维修”,特别是春节、节假日等抢票高峰期,严重影响用户的使用。
作为互联网架构师,要怎么提升12306的可用性?故障明显影响可用性的指标,那么到底怎样定义大型互联网服务的可用性?怎样定义一个合理的团队可用性能指标?如何提升可用性?
1. 怎样定义大型互联网服务的可用性?
可用性是系统或服务的健壮性和可靠性。每个服务包括QQ、QZone发生故障我们都会评估,是一级故障还是二级故障还是三级故障。
在业务场景里,最核心的是用户价值的体现,我们把可用性更合理定义为:
P=(总用户价值-因事故损失的用户价值)/总用户价值*100%
2. 怎样定义可用性指标?
无论是用QQ、QQ音乐还是QQ空间,如果中断1分钟,用户自查问题;中断5分钟以上用户开始有疑问;中断30分钟的时候论坛等地方开始有投诉出现,而中断数个小时的时候,用户有可能会放弃这个软件投奔竞品。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%