ARKit、3D引擎、深度学习等技术在直播场景下的应用-电子发烧友网

本文来自花椒直播海外技术负责人唐赓在LiveVideoStackCon 2017上的分享，并由LiveVideoStack整理而成，在分享中唐赓详细介绍了直播的基本组成部分以及ARKit、3D引擎、深度学习等技术在直播场景下的应用。

大家好，我是唐赓，现就职于花椒直播。主要负责iOS和一些新技术的应用。本次的分享内容主要是介绍一下我们包括个人对直播这项新技术应用的一些看法。

1. 直播的基本组成部分

直播行业大约是在2015开始火起来，由于是刚起步，所以整个直播行业不是特别成熟。在早期时甚至会出现音画不同步等一些基础的问题。之后也做了很多的工作，比如直播视频秒开的优化，包括网络自适应、码率自适应、分辨率以及帧率的自适应。对于码率自适应，在点播的场景下，服务器会事先准备几段不同码率的视频，观众根据不同的需要、网络状况从服务器上拉取不同的码流。但是在直播的场景下，网络自适应更多的是发生在主播端，比如当主播的网络不太好时，我们就会根据上行的码流情况来实时的进行调整，包括调整视频的分辨率、码率、帧率。然后对于超大型的聊天室或者一些直播网站，就要求每个直播间能够承受百万量级并发的在线用户，包括私信、群组，这都是我们过去已经做过的一些优化工作。

随着直播行业的发展，单向的直播已经没有什么新意了，现在大家开始关注连麦、一对一的单聊、群聊等。这些功能在我们的APP中都已经实现了，包括上层的展现，比如美颜、滤镜、瘦脸、大眼、人脸识别贴纸、3D头盔等等。我们在2015年5月份左右起步做直播，这些都是我们在这两年里做过的一些事情，目前这些功能已经逐渐成为直播APP的标配，那么下一步该如何去做？在我个人认为至少可以关注以下方面，如Augment Reality，Computer Graphics、Computer Vision以及Machine Learning.，接下来将分别给大家介绍一下这四个方面。

2. Augment Reality

首先是人脸识别技术，从2016年开始已经初步实现，而我们可以说是第一个把这项技术应用到直播场景中的。2016年初，我们发现手机上实时的人脸识别非常消耗CPU内存，因此就可能导致直播卡顿，无法播放。为了解决这个问题，我们当时进行了非常多的优化，比如，最先在有限的手机资源之上实现了实时的人脸贴纸功能。但当时人脸识别的SDK普遍的CPU消耗都在50%以上，甚至苹果自己提供的人脸识别的消耗都在80%以上，而且抖动非常厉害。到了2017年，在不断的优化之后，人脸识别在手机上的应用就非常成熟了。

现在基于ARKit、ARCore、SenseAR或者是基于IMU都可以实现很多玩法，比如利用AI/AR可以实现手势识别与真实场景的结合。那么AR可以怎么利用呢？从一些小视频可以看到，拍摄者与表演者以及一些动画效果要配合的很好才能实现AR特效，但是这些都是假的AR，而我们用AR技术就完全可以把这些做成真的。另外，基于AR在直播间里的视频上面展现一些广告或者好玩的东西，这实际也是比较经典的AR应用。

3. Computer Fraphics

AR可以反馈一些基本场景的认知信息，包括平面在哪里，墙在哪里等。那么如何在上面叠加这些场景，这就需要基于图形学的一些技术。最常见的就是基于OpenGL/Metal提供的一些API去实现，当然也有利用像Unity、Unreal之类相对成熟的引擎，包括苹果提供的SceneKit 3D引擎。另外就是利用一些开源的引擎，比如Cocos2d-x、Crystal Space、Blender Game Engine，它们的功能也都比较强。像Cocos2DX目前已经发展出比较强的3D能力，它能够展现骨骼动画以及一些比较复杂的光影效果。如果能力足够也可以开发自制引擎，据我所知，国内的很多游戏厂商比如腾讯、畅游、搜狐，他们用的都是自己研发的强大引擎。

4. Computer Vision

直播行业目前对计算机视觉的依赖也变得非常的强烈。计算机视觉的开源实现主要体现在两个开源库，分别是OpenCV和Dlib。OpenCV是由Intel发布的一个非常强大的视觉库。包括实时计算机视觉、机器学习，包括一些图像处理、分析等基本都离不开它，而且它的代码实现非常的简单快速。Dlib的使用非常方便，而且它自带了它所依赖的一些东西，包括网络、线程、GUI、各种各样的线性代数、机器学习、图像处理等各种模块。它最大的一个优势是自带强大的人脸识别引擎。接下来可以看一下基于OpenCV和Dlib实现的一些功能。

A.人脸朝向识别

从上面这幅图可以看到，根据Dlib给出的人脸关键点坐标信息，计算出了人脸的朝向，人脸前面的这根红线就是显示出了人脸的朝向。基于人脸关键点坐标、朝向信息，就可以实现比较炫酷的3D头盔功能，此处例子的实现目前在网上有开源的代码可以进行参考。

B.精确估算手势位置和姿势

从上图可以看到，在直播中可以精确的估算主播的手指头的位置以及姿势，主播可以利用这种技术完成很多有趣的交互。

目前，在PC上已经可以实现对于一个场景中多个人的复杂的肢体运动的实时识别。但是面临的一个非常大的挑战是如何将这个能力内嵌到手机APP中，如果能够做到这一点，那么就可以把主播跳舞之类的身体动作实时截取出来并与动画人偶相结合，会使得整个直播间显得非常生动。

5. Machine Learning

接下来简单介绍一下机器学习。机器学习在直播中已经有了很多的运用，比如人脸识别、物体识别、手势识别、背景分割抠像等，再进一步的运用就是实时翻译、跨语种连麦、画质改进以及自动生成主播漫画人偶。

机器学习的运用除了此前介绍到的一些前台功能，还具有后台功能，包括实时判断主播的性别年龄、颜值才艺类型、识别场景、口才打分、人气等。

下面几页PPT简单介绍一下深度学习的一些入门知识。上面展现的是Google的一个Neural Network Playground ，在playground.tensorflow.org上可以看到，可以尝试设计自己的神经网络，了解深度学习的过程。（DEMO）。实际上深度学习就是在不断地调整它的超参数，增加深度学习的深度以及细胞的数量。现在所谓的深度学习的研究实际上就是用各种各样的排列组合来找出一种网络结构能够更适合的解决某一类问题。

上面列出了各种开源的网络结构，它们都是由各种学术机构花了很多的时间精力找出的比较适合解决某些问题的网络结构。当网络结构越复杂时，训练模型的时间就越久。

这是一个简单的深度学习的例子，其中高亮的几行是对网络结构的描述。它使用Keras/TensorFlow训练模型，在进行了一千次迭代之后，误差就降到了千分之四，我们就可以认为训练出来的模型已经学会了异或运算法则。

前面例子中训练出来的模型可以直接放在CoreML中使用，运行出来的结果可以在上图中的输出看到，所以说CoreML开发过程是非常简单快速的。

上面这个例子也是实现判断异或功能，但是它没有依赖任何框架，只是利用了一个最基本的数学运算库，这个例子可以看到深度学习核心算法的工作原理，右边是训练跑出来的结果，可以看到最终得到的结果跟前面的一样。所以深度学习就是这么简单暴力。

综上所述，有这么多的技术等着我们去把它放到直播中使用，我觉得后面的前景还是非常广阔的，我们还有很多事情要去做。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

深度学习

深度学习

+关注

关注
73

文章
5511

浏览量
121376
arkit

arkit

+关注

关注
0

文章
23

浏览量
11286

原文标题：从CV到ML 直播场景下新技术的应用

文章出处：【微信号：livevideostack，微信公众号：LiveVideoStack】欢迎添加关注！文章转载请注明出处。

什么叫3D微波技术

当3D电影已成为影院观影的首选，当3D打印已普及到双耳无线蓝牙耳机，一种叫“3D微波”的技术也悄然而生。初次听到“3D微波”，你可能会一脸茫

发表于 07-02 06:30

3D TOF深度剖析

这段时间以来，最热的话题莫过于iPhone X的Face ID，关于用它刷脸的段子更是满天飞。其实iPhone X 实现3D视觉刷脸是采用了深度机器视觉技术(亦称3D机器视觉)。由于i

发表于 07-25 07:05

全球3D芯片及模组引领者，强势登陆中国市场

感知、计算到系统一体化的解决方案。银牛3D机器视觉模组C158在人工智能、机器人、物联网等产业快速发展的背景下，机器视觉技术正步入新的阶段。

发表于 11-29 11:03

HDC2021技术分论坛：酷炫3D效果在瘦设备上也能实现？

，这些引擎往往会对不同的硬件平台做抽象，提供一站式的统一开发框架，让开发者在开发应用时无需关注硬件平台的差异性。这虽然给开发者带来了便利，但在一些轻量级3D场景

发表于 12-21 10:40

基于深度学习和3D图像处理的精密加工件外观缺陷检测系统

检测，检测准确性和检测稳定性较差、容易误判。基于深度学习和3D图像处理的精密加工件外观缺陷检测系统创新性结合深度学习以及

发表于 03-08 13:59

全球首家支持OpenHarmony的3D引擎，Cocos Creator 3.6.1社区版发布

前言2021年，Cocos 正式成立专项项目组，协同华为团队对 OpenHarmony 2D 及 3D 内容的开发流程与效率进行深度优化。目前已在 Cocos Creator 3.6.1 的基础上

发表于 10-19 14:17

构件化嵌入式3D引擎的研究与设计

本文研究了嵌入式3D引擎的特征，并给出了一个基于构件技术的嵌入式3D引擎ElaDX的设计框架和初步实现。该

发表于 05-30 09:14 •17次下载

3D图像引擎,3D图像引擎原理

3D图像引擎,3D图像引擎原理产生的背景和定义随着计算机软、硬件突飞猛进的发展，计算机图形学在各个行业的应用也得

发表于 03-26 15:54 •1469次阅读

阿里3D AI技术已成功应用诸多场景中,可迅速批量生产高质量3D模型

阿里资深算法专家乐田表示：“3D重建是3D机器学习的核心，只有在高质量3D数据集支持下，工业级

发表于 08-26 13:50 •1595次阅读

探讨关于3D视觉技术和3D传感器

年内得到快速发展。与深度学习算法结合，在智能制造/机器人、自动驾驶、AR/VR、SLAM、无人机、三维重建、人脸识别等领域取得了优异的效果。 3D

发表于 04-01 14:01 •4702次阅读

HarmonyOS 3D渲染引擎介绍

随着3D技术的应用普及，越来越多的场景都能看到3D的身影，比如充电动效、3D壁纸、游戏等等，给用户带来了更有趣、更丰富的体验。要满足用户的

发表于 12-23 09:49 •4435次阅读

基于深度学习的3D视觉引导系统在引导工件上下料中的应用

基于深度学习的3D视觉引导工件上下料，系统稳定，识别速度快，整体抓取放置节拍控制在8s以内

发表于 10-17 17:31 •1188次阅读

3D模型场景展示哪个平台做的好？

近几年，随着3D建模技术的飞速进步，3D内容的创作展现形式也在快速地推陈出新。许多展厅、展会、展品都开始与3D、VR、Al

发表于 12-30 15:39 •1092次阅读

超详细的3D视觉技术学习路线

的前沿。近年来，3D视觉技术快速发展，并开始结合深度学习算法，在智能制造、自动驾驶、AR/VR、SLAM、无人机、三维重建、人脸识别

发表于 04-16 10:36 •1334次阅读

基于深度学习的3D点云实例分割方法

3D实例分割（3DIS）是3D领域深度学习的核心问题。给定由点云表示的 3D

发表于 11-13 10:34 •2536次阅读