在标准制定方面,李松南指出,腾讯多媒体实验室一直积极参与国际、国内的视频编解码标准制定,以最新的H.266标准为例,实验室有超过100个提案被采纳,在国际范围内处于领先位置。
感谢各位的聆听 !
【IT时代网广州报道】9月11日,2020腾讯数字生态大会视频通信云专场拉开帷幕。会上,腾讯多媒体实验室总监李松南发表了以《多媒体视频技术的前沿展望》为主题的演讲。他认为,8K、沉浸式和AI是视频技术领域的三大关键词,同时也代表了视频技术的发展方向,腾讯多媒体实验室将持续致力于相关技术的研究和标准建设,为腾讯云以及外部企业提供优质的视频技术服务。
在产品落地方面,实验室今年在业界首次推出了沉浸式展厅的解决方案,在腾讯数字生态大会期间同步上线的‘云上展厅’就是基于此方案打造的, AR、VR、点云、云渲染等多项实验室自研的沉浸式技术藏于各展区之中。同时实验室现也积极合作腾讯云推出更多沉浸式通用产品与解决方案。
关于多媒体视频技术的发展趋势,李松南表示,相信在5G、大数据 、云计算的加持下,AI 、沉浸式以及视频编解码技术会得到更进一步的发展。腾讯多媒体实验室会在这些领域持续深耕,努力为腾讯以及外部企业的各种To B、To C产品提供更好的视频技术服务。
以下为李松南生演讲全文:
大家好,我是来自腾讯多媒体实验室的视频技术总监李松南。很荣幸能代表实验室参加腾讯全球数字生态大会的视频通讯云专场。接下来我为大家介绍一下腾讯多媒体实验室的视频技术以及我个人对视频技术的展望。
随着科技的发展,视频技术也变得越来越成熟,在越来越多的应用场景中得到使用。视频技术有很多种,这里我给出了三个关键词,分别是8K、沉浸式和AI。它们是多媒体实验室在持续投入的方向,同时也是我个人认为比较关键的视频技术。
在视频核心能力建设方面,腾讯多媒体实验室在视频编解码、处理、理解、沉浸式等很多方向上都取得了快速的进展。以沉浸式为例,去年多媒体实验室为“一部手机游云南“项目提供了VR360视频技术,这个项目结合白沙细乐 热美磋等多项云南非物质文化遗产内容,为云南旅游景点提供了精细化的导游导览方案。
视频处理可以把4K变成8K,是否可以把老电影也搬上荧屏呢?腾讯影业投资的电影《追光万里》就使用了实验室的老片修复技术。我们在和腾讯视频云合作PaaS产品??画质重生;与腾讯影业合作SaaS产品??智慧影视。目标是把不同年代的影视剧重新搬上电视 ,甚至搬上银幕。
下面我将围绕这三个关键词,对视频技术进行简要的回顾和展望。
随着网络基础设施的不断建设、网速的加快及网络费用的下降,以及UGC、 PGC、短视频、长视频及直播等视频内容与形式的极大丰富,视频应用的场景越来越多,会议、电商、社交、娱乐、教育、医疗、智慧城市、视频几乎无处不在。
第一个关键词是 8K。提到8K,消费者首先想到的是大画面、高画质。但是企业主想到的则是高带宽、高存储等导致的高成本,所以 8K很早就被提出来,但是普及还需要下一代视频技术的支撑,其中最关键的技术之一就是视频编解码。
视频编解码技术可以帮助我们用更低的带宽来提供更好的画质,每一代的编解码标准几乎都可以在画质不变的情况下将码率降低一半。在视频为王的今天,视频码率的降低对成本的节省是巨大的。腾讯多媒体实验室积极参与国际、国内的视频编解码标准的制定,以最新的H.266标准为例,我们有超过100个提案被采纳,在国际范围内处于一个领先的位置。
与8K相关的另外一个视频技术是视频处理。考虑到8K的内容有限,普及8K技术需要我们使用视频处理,将4K或者是更低分辨率的内容提升到8K的画质。除了分辨率以外,8K往往还伴随着帧率的提升、位深度的提升、色域度的扩展等等,这些都是视频处理技术的范畴,同时也是实验室从建立之初一直在坚守的视频技术方向。
每一代视频编码标准的普及都离不开视频编解码算法在架构层级、算法层级以及在指令层级的深度优化。这里列出的是实验室开发的视频编解码引擎支撑到的腾讯内部产品,包括腾讯会议、云游戏、手机QQ、全民K歌、视频云、腾讯视频等等。实验室在跟进标准、扩大腾讯国际影响力的同时也在切切实实的服务我们的产品,做到上得厅堂下得厨房。
第二个关键词是沉浸式。不论是8K还是沉浸式, 目标都是提升用户的体验。不同的是,8K是2D的、是被动的,而沉浸式是有交互的、是3DoF的、甚至是6DoF的。
3DoF更进一步就是6DoF,在3DoF 也就是头部旋转的基础上,我们上下、左右、前后移动 ,也可以看到不同的内容。VR游戏是6DoF的 ,扩展现实也是6DoF的。6DoF中会用到很多三维重建的技术,比如点云重建、网格重建等等,这些技术可以用在比如虚拟看房 、虚拟看车等很多的场景中,为用户带来更加身临其境的产品体验。
最后一个关键词是AI ,也就是人工智能。今天我们谈到人工智能的时候,往往指的就是深度学习技术。这幅图里给出了从媒体生产到云服务,再到媒体消费的一个典型的流程。其中涉及到了很多与视频技术相关的模块,几乎每一个模块都可以用到深度学习技术,包括前面提到的视频编解码 、视频处理、 AR /V、三维重建等等,目前都在逐步的AI化。
这里我们给出了实验室在AI方向的几个应用场景,比如说在媒体生成方面,我们可以利用AI结合多模态,针对体育、游戏、影视等场景实现精彩视频的生成。以足球视频为例,我们可以把一场足球比赛按照不同的事件进行拆分,比如射门、角球、犯规等等,然后我们可以把我们认为精彩的镜头拼接在一起,再配合上一段动感的音乐,从一段长视频一键生成短视频。
这里简单的解释一下,3DoF代表的是三自由度,英文全称是Three Degrees of Freedom。意思是你在点头、摇头和侧转头的时候可以看到不同的画面。这样的方式与人们观察日常世界的方式更为接近,因此也就更具有沉浸感。3DoF最典型的应用就是VR360视频,这页PPT中展示的是实验室在VR360视频方面的一些工作,其中包含了从采集 、压缩、传输到渲染端到端的每一个步骤。去年多媒体实验室为“一部手机游云南“项目提供了VR360视频技术,这个项目结合白沙细乐、热美磋等多项的云南非物质文化遗产内容,为云南旅游景点提供了精细化的导游导览方案。
在云计算方面,实验室提供诸如视频标签、优质视频推荐及颜值预测等功能,对用户上传的海量视频进行打标,为视频推荐、视频搜索等产品提供技术支撑。用户每天会上传海量的UGC视频,为所有的UGC视频进行人工打标签是不太可能的,使用AI打标签就可以很大程度上降低人工打标的工作量,并降低成本。在媒体消费端,我们可以对用户的行为进行分析,实现诸如用户行为理解、人机交互这些基础功能,帮助我们更好的理解和服务消费者。在这段视频里展示的是用身体的动作来控制视频画面的内容,类似的动作分析技术,还可以帮助我们用手势与电视进行交互等等。
腾讯多媒体实验室是腾讯科技实验室矩阵之一,也是全球多媒体技术领先者,实验室工作主要包括标准制定、核心能力建设和产品落地三大板块。
相信在5G、大数据、云计算的加持下,AI 沉浸式以及视频编解码技术会得到更进一步的发展。腾讯多媒体实验室会在这些领域持续的深耕,努力为腾讯以及外部企业的各种To B、To C产品提供更好的视频技术服务。