淘宝直播窄带高清技术,音视频技术趋势探讨-电子发烧友网

本文来自阿里巴巴淘系技术部高级算法专家王立波在LiveVideoStackCon 2020线上峰会的分享，从直播背景、直播痛点分析、窄带高清、云视频技术趋势几方面详细介绍了如何在确保用户体验QOS不变的前提下，实现淘宝直播的技术架构升级和成本大幅缩减。

本次分享内容主要分为五个部分，首先是全民直播大时代的背景介绍，第二是直播痛点分析，第三是淘宝直播窄带高清技术，第四是音视频技术趋势探讨，最后是在线互动。 1 背景-全民直播大时代

在疫情的影响下，直播从传统的秀场应用逐渐渗透到行业的各个领域。包括在线课堂，旅游，政企，房车销售等等，可以说是全民直播时代已经到来。

在这样的一个大背景下，过去一年淘宝直播得以快速发展。2019年，淘宝直播拥有了4亿+的年度用户规模，有100万+年度主播入驻，2000亿+年度直播成交以及4000万+直播商品。春节期间，钉钉在线课堂更是有350万+的教师主播，为1.2亿+中小学生提供了在线课程服务。 2 直播痛点分析

在这么大的一个业务体量下，我们将会面对非常多的难点与挑战。总的来说，包含以下三个部分，首先是成本，包括带宽、存储和转码三个方面。其次是用户体验，例如画质，音质，秒开、卡顿和延时。最后是效率方面，例如开播的效率、审核的效率和理解分发的效率。接下来我们就来看一下淘宝在成本和体验优化方面做了哪些工作。 3 淘宝直播窄带高清技术 3.1 淘宝直播窄带高清

淘宝直播有三大核心技术，第一大核心技术是端上窄带高清。我们采用HEVC编码实现了720p，25fps，800kbps的压缩，并且PSNR> 43db/VMAF>90。端上窄带高清技术主要应用有三个方面：第一是音视频增强，采用基于AI的图像增强、美颜和语音增强来提高生产质量。第二是感知处理，采用信源信道联合自适应编码。第三是S265编码器，S265编码器是业界领先的HEVC编码器。第二大核心技术是零转码系统，我们实现了端到端原始流生产的和播放，成功的解决了两个核心的痛点问题：不同网络速度的兼容和不同播放设备的兼容，后者主要通过高性能解码器实现iOS，Android和H5三端的100%解码。第三大核心技术是低延时技术，我们实现了端到端秒级延时。主要依靠两个技术，一个是基于RTC的实时直播系统，第二个是S265低延时编码技术。 3.2 淘宝直播系统架构

如图所示淘宝直播的系统架构，从生产侧来看，有采集、增强、感知处理、S265编码四个环节。云端我们有边缘的接入，有中心接入、切片录制和CDN分发以及边缘分发。在播放端有拥塞控制、解码、渲染和显示。除此之外，在云端还有内容审核，质量监控，内容理解和智能分发。 3.3 端上窄带高清

生产侧的第一个环节是图像增强，为了提升主观质量，我们引入了图像增强技术，对编码前的视频做去噪、去抖、纹理增强以及美颜、美型的功能。除此以外，在后处理部分，我们还引入了适时超分和HDR技术来提高观看质量。在美颜、美型以及图像处理等方面，我们引入了GPU的技术，包括内存带宽优化、shader优化、Pipeline优化等等以减少GPU的开销。

针对音质的优化，我们采用了智能降噪技术。无论是在STO还是PESQ的指标上都显著高于传统WebRTC算法，在性能和包大小方面也都可以实现普通设备的覆盖。下面播放的三段音频，分别是原始音频、RTC降噪和阿里降噪音频。原始音频我们可以明显听到马路上车呼啸而过的声音非常强烈。RTC降噪音频中降噪产生了一定的效果，但是汽车飞驰而过的呼啸声还是非常明显。而在阿里降噪音频中，我们可以听到汽车呼啸而过的声音已经基本消失。

生产的第二个环节是感知处理。我们采用信源信道联合自适应编码技术。感知处理分为5个方面，首先是ROI区域的感知，我们基于PixelAI人脸检测加商品检测，对ROI区域进行提取和重点编码。第二是场景的感知，不同的场景适合不同的编码参数，我们通过对场景进行分类，对于不同的场景赋予不同的编码参数来提高压缩质量。第三个是智能码控CARC，我们采用机器学习的码率控制，对简单场景赋予较低的码率，对复杂的场景赋予较高的码率来实现对带宽的节省。第四个是网络带宽的感知，在网络比较好的时候，我们会采用比较高的码率来实现画质的提升，在网络不太好的时候，会降低码率，避免发生带宽拥塞，由于cdn采用峰值收费，峰谷时间段还可以采用不同码率策略。最后是设备算力的感知，不同的设备拥有不同的算力，我们可以实时检测设备的算力情况及时调整编码的档次，以此来实现对算力和质量的平衡。

生产的第三个环节是编码，这又要讲到我们核心的S265编码器，得益于S265编码器的编码压缩技术，我们实现了淘宝直播的720p、800kbs、25fps编码，相比于业界常见的720p 1600kbps 节省了50%的带宽。钉钉的在线课堂我们更是把码率压缩到了200kbs，并实现了43db以上的质量。S265是淘宝和阿里云共同发起的HEVC编码器，目前已经实现集团内部的开源，并落地在点播、直播会议等各个场景中。相比起业界优秀的HEVC编码器，S265在PSNR指标上有比较大的优势。首先在编码工具提升方面，我们做了大量工作，实现了HierarchyB、GPB、Bi-Search、Longterm、RDOQ、AdaptGOP等编码工具，并且对这些工具进行了大量的算法和速度优化。我们还设计了50多种快速算法，比如说Deblock的优化，编码速度对比X265有1倍以上的提速。在工程上的优化，我们做了浮点转定点、位宽的缩减、SIMD的优化、冗余去除、访存效率提升及循环展开等等来提升我们的编码速度。在框架方面，我们还做了线程调度优化等等。在码率控制方面，我们对帧级别码控和块级别码控分别进行了优化，并且对2pass编码进行了原创性的优化来提高2pass编码的质量。在块级别码控中，我们设计了新的CUTree和AQ算法。

下面来看一下S265的几个典型优化，首先是CU划分决策，我们把CU划分决策模块分成两个步骤，一是纹理强度决策，通过计算CU的纹理梯度来判别平坦块和复杂块，如果是平坦块就直接退出，如果是复杂块就继续向下划分。第一步可以解决大部分块划分的决策问题，但是对于模棱两可的块，则需要依靠CNN模型来辅助划分。我们使用了一个5层网络的小模型把决策的准确度从72%提升到了96%；这个成果我们跟清华大学刘老师合作发表了一篇论文，在DCC会议上展示。

第二个方面的优化是运动搜索方面的优化。运动搜索是从参考帧寻找最佳匹配块的过程，包含整像素搜索和分像素搜索，分像素需要做7抽头或8抽头插值滤波，计算量大；整像素搜索已经有比较多的快速算法，比如菱形搜索、六边形搜索及分层搜索，但分像素搜索一直没有什么好的方法。比如在图中矩形的整像素周围，分布着60个分像素点，如果要对分像素点进行全部搜索的话，需要60次，经过优化之后一般需要搜4个、8个或16个点，但搜索次数还是比较多的。我们采用一个二元二次误差平面方程，用9个整像素点的预测误差来求解方程的5个系数，再对方程求偏导，可得到最佳分像素点的位置。只需对这个最佳分像素点计算1个1/4差值，就可以完成我们的搜索过程。这个技术在编码器的整个提速有12%，但bd-PSNR只有-0.016db。这些成果在VCIP 2016上可以看到。

第三个是我们的码率控制。ABR是较适合直播的一种码率控制方法。但HM中基于

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

直播

直播

+关注

关注
1

文章
248

浏览量
21549
窄带

窄带

+关注

关注
0

文章
16

浏览量
12811
高清技术

高清技术

+关注

关注
1

文章
16

浏览量
14626

原文标题：淘宝直播窄带高清技术

文章出处：【微信号：livevideostack，微信公众号：LiveVideoStack】欢迎添加关注！文章转载请注明出处。

国科微8K超高清芯片获评“音视频领域关键技术突破一等奖”

12月23日，第五届“马栏山杯”国际音视频算法大赛-2024音视频领域关键技术突破奖揭晓，国科微8K超高清视频系列芯片凭借优异的产品性能及示

发表于 12-27 10:29 •209次阅读

国科微8K超<b class='flag-5'>高清</b>芯片获评“<b class='flag-5'>音视频</b>领域关键<b class='flag-5'>技术</b>突破一等奖”

国科微荣获音视频领域关键技术突破一等奖

近日，第五届“马栏山杯”国际音视频算法大赛-2024音视频领域关键技术突破奖揭晓，国科微8K超高清视频系列芯片凭借优异的产品性能及示范性应用

发表于 12-26 15:11 •305次阅读

AMS-WE100P无线延长器：让高清音视频传输无界限

在追求高效与便捷的今天，高清音视频的无缝传输已成为我们日常生活和工作中不可或缺的一部分。深圳市程达科技有限公司凭借其创新技术和深厚底蕴，推出了AMS-WE100P无线延长器，这款设备以其卓越的性能和广泛的应用场景，正逐步成为高清音视频

发表于 11-28 10:07 •209次阅读

AMS-HE120系列：4K HDMI音视频单网线延长器，引领传输技术新潮流

随着科技的迅猛发展和人们生活品质的不断提升，高清音视频传输技术已经成为现代生活和工作中不可或缺的重要组成部分。在教育、商业、安防、家庭影院等多个领域，高清、稳定、便捷的音视频信

发表于 11-27 10:11 •188次阅读

AMS-HE200：HDMI音视频网络延长器，开启传输新时代

在数字化时代，高清音视频传输已经成为各行各业不可或缺的重要技术。无论是安防监控、视频会议，还是户外广告、家庭影院，高清音视频信号的无缝传输都扮演着至关重要的角色。深圳市程达科技有限公司

发表于 11-27 10:04 •247次阅读

Amoonsky创新音视频连接技术：全新推出AMS-HE200 HDMI网线延长器

简介：在不断向高清多媒体体验迈进的世界中，强大的音视频连接需求变得前所未有的重要。AMS-HE200，Amoonsky开创性的HDMI网线延长器，成为重新定义音视频网络格局的解决方案。这款创新

发表于 10-24 16:09 •263次阅读

盘点那些常见音视频接口

我们熟知的一些常见音视频接口，发展至今在日常使用中已经渐渐少了。但是在工业领域的音视频连接，依然能看到其身影。这些看似消失的接口，它们现在发展成什么样子了？本期我们将做一个大盘点。

发表于 09-09 14:34 •728次阅读

常见音视频接口的静电浪涌防护和滤波方案

音视频接口在现代多媒体设备中扮演着至关重要的角色，它们确保了音视频信号在不同设备间的顺畅传输，各种类型的音视频接口满足了多样化的应用场景需求。在音视频接口的设计领域，静电浪涌防护与滤

发表于 06-25 11:28 •801次阅读

音视频产品EMC整改案例解析

音视频产品EMCRE整改案例解析

发表于 05-20 16:49 •520次阅读

高清HDMI转USB 3.0音视频多功能音采集卡-测评

LCC380的设计理念在于全面考虑到各种用户场景下的需求。为了实现高品质的音视频采集效果，卡体搭载了业界领先的音频处理器解决方案。无论您是热衷于游戏直播、视频会议还是其他音视频应用，都

发表于 05-14 17:45 •1114次阅读

【RTC程序设计：实时音视频权威指南】音视频的编解码压缩技术

音视频所载有的信息在通过传输的时候就需要压缩编码。其中，文本压缩是指通过使用各种算法和技术，将文本数据表示为更紧凑的形式，以减少存储空间。霍夫曼编码是一种无损压缩算法，它可以根据字符出现

发表于 04-28 21:04

音视频SoC与AI技术融合，带来更智能的音视频处理解决方案

，如WiFi路由器和物联网设备。在安防、智能音频等领域，对SoC芯片的算力要求相比智能手机、服务器等略低。人工智能技术与音视频SoC 的融合随着人工智能

发表于 04-26 01:20 •4734次阅读

【RTC程序设计：实时音视频权威指南】新书一瞥

本人从事音视频领域的开发，经常接触实时音视频处理相关的技术，看到这本书非常有兴趣阅读，这本书全面介绍实时音视频（RTC）技术的权威著作，该书

发表于 04-22 09:09

音视频解码生成：打造你的专属高清影院体验

在数字化时代，人们对观影体验的要求越来越高。音视频解码生成技术，作为现代多媒体播放的核心，正是为了满足这种需求而不断发展和完善的。通过这项技术，我们可以轻松打造属于自己的高清影院体验。

发表于 02-25 14:47 •459次阅读

音视频解码生成：打造极致观影体验的关键技术

在现代多媒体时代，音视频解码生成技术已成为提供极致观影体验的核心要素。它不仅能够确保音视频数据的高效传输，还能保证播放的流畅性和画质清晰度，为用户带来身临其境的观影享受。 1. 解码生成的重要性

发表于 02-25 14:43 •526次阅读