众所周知,视频已然成为我们生活中不可或缺的一部分了。无论是在日常的休闲,抑或是工作之中,视频都起到了一个信息传递的介质作用。而且与同为介质的图文相比,视频具有信息量大,更为直观等诸多优势。也正因于此,视联网应运而生,作为以视频作为主要信息传递介质和功能载体的下一代互联网形态,其必将颠覆当前图文生态的互联网形态,引发新一轮互联网生态的激烈竞争。
作为一个新兴的概念,视联网的定义势必需要人来划分。极链科技作为领头羊,提出了视联网的四阶段,即婴儿-成长-青年-成熟。其中婴儿期便是我们目前所处的阶段,也就是所谓的“猜你所想”。
在视联网的这个起点,人们刚刚学会如何利用AI技术打破视频的信息壁,并能够利用视频信息进行初步的商业应用。在这一阶段中,对于视频信息的解读和利用是比较有限的,表现为数据维度较少、可辨识的类别有限。这主要是受限于视频数据的数据量和标识量。当前以深度学习多层神经网络算法为主流的AI技术需要大量经过标识的视频数据作为训练AI算法的养料,但数据的标识需要大量的人力投入,同时视频内容的版权和信息安全问题也制约了视频数据的传播。人力与数据共同限制着视频识别能力的提升。
为了最大化的利用识别出的有限信息,婴儿期的视联网应用表现出了典型的“预期-推送”模式。在这一模式中,本质上是利用外部已有的用户行为大数据 (抑或是常识)对观看用户的心态和行为进行预判,进而在计算机解析出的场景信息中挑选出那些被认为是最能引起观众共鸣的场景,推送与之相关的应用服务。
近日谷歌发布的手势跟踪AI也与之有着相通之处,其管道中的最后一步是手势识别系统,通过从关节角度确定每个手指的状态并将手指状态集合映射到预定义的手势,它能够识别来自多种文化的技术手势和各种手势。也就是说,只有在拥有大量样本的情况下,才能将现场采集的数据与后台预设的数据一一对应,也就是典型的婴儿期视联网特征。
而当视联网来到成熟期时,从技术便利性的角度出发,我们可以对视联网的成熟形态作出大胆而又坚实的想象:在视联网的成熟期,借助可穿戴智能设备、尤其是智能眼镜的普及,人所见的一切信息都将被摄像头捕捉并在极短的时间内处理成计算机可以识别的视频信息。此时,人们从视觉信息中激发的所有需求都能得到直接的响应。通过语言、手势、眼动捕捉等多种形式,计算机能够接收到人们提出的需求,并结合捕捉到的视频信息明确需求的内容和对象,进而调用互联网的相关应用和服务来满足人的需求。
也就是说,视联网将在体验方面做到“知你所想”。人眼观察所能认知的一切信息都将被计算机捕获,甚至超越人眼的可辨识范畴的信息都将被计算机掌握。届时,视联网将不再是通过预设的对比来进行统筹,而是以一种更加多样化的方式来实现瞬时的技术支持。人们头脑中浮现的需求便能随时被实现,这也是视联网建设的目标。
发布评论请先 登录
相关推荐
评论