2020年12月21日,腾讯研究院和腾讯新闻共同推出的“腾讯对话·Tencent Dialogue:始于2020”举行了第五期线上对谈。此次腾讯对话着重探讨AI深度学习为基础的深度合成技术(Deep Synthesis)的发展与应用。腾讯玄武实验室负责人于?、腾讯AI Lab视觉首席科学家刘威博士、中科院自动化研究所副总工程师张文生教授、电影《大圣归来》出品人路伟围绕深度合成技术展开了深入讨论,此次对话由腾讯研究院院长司晓主持。
2014年,对抗生成网络(GAN)被发明,由AI打造的虚拟世界大门初现。此后,“AI深度合成”(Deep Synthesis)逐渐从实验室飞入寻常百姓家,成为普通人数字生活体验的一部分。朋友圈中刷屏的换脸军装照、以假乱真的虚拟主播以及导航软件中响起的明星语音都是这项技术的应用形式。AI深度合成带来新奇体验的同时也激起了众多疑虑,“深度伪造”(Deepfake)的阴云挥之不去。有了“Deepfake”, “眼见为实”成为过时的经验,人们担心这项技术会带我们进入一个“真假混淆”的世界,其中个体安全感和社会信任都岌岌可危。
我们如何理解这项技术的现在和未来?深度伪造之忧如何破解?深度合成技术如何向善发展?以下是对话实录摘要:
合成=伪造or合成=创造力?
司晓:深度合成技术在我们身边有哪些应用?
刘威:在很多人的印象里,合成和伪造是天然联系在一起的,但实际不是这样的。我们有很多积极的应用形式。譬如图像修复,也是一种合成。腾讯AI Lab也与敦煌、故宫都在讨论,怎么去用人工智能的技术,确切来说用对抗生成网络的技术,去还原一幅古画,用AI的想象修补残缺。
路伟:深度合成在电影里面的应用是越来越多了。以《大圣归来》为例,其中有一百多个角色,很多故事情节,我们要让它们在虚拟场景里影像化呈现。我们还用到了AI音效,建立角色的虚拟人格。老片《上甘岭》的重映用到了AI去做色彩还原,效果还不错。像中国电影资料博物馆有非常多老片资源,今后都可以通过技术还原手段重获新生,能达到2K、甚至4K的清晰度。
张文生:现在大家重视的都是一些语音和图像的深度合成,实际上能合成的东西还有很多。比如一个城市系统的智能交通,本身也是在做合成,它是我们物理空间和数字空间的合成。
司晓:埃隆·马斯克在一段访谈里面讲,按现在通过技术去仿真的能力的提升速度,我们总有一天能够去用完全数字化的方式去还原或者模拟一个对人类来说真假难辨的世界。大家来开一下脑洞,大胆预测一下深度合成的未来?
路伟:现在的电影仿真技术已经能以假乱真。我们现在做电影,也在用一切办法让观众进入一个虚拟的真实世界,从环境、灯光、空气密度、照度、色温,然后角色的运动、拥抱、谈笑,全部都要让观众觉得它是真的。虚拟主播也开始出现,比如洛天依和初音未来是虚拟角色1.0版本,接下来肯定会有2.0、3.0版本。在未来的五到十年,我认为虚拟明星的市场要远远大于真实世界的市场。
我认为未来会出现“无边界”的概念。特别是在AI和VR的时代,观众感受到的不只是感官的视觉、听觉、味觉,还有情感的感受,它应该是更加真实的、更加入心的,有时候我是认为在未来的真实的虚拟世界里,虚拟和真实和边界会慢慢模糊。我觉得现在的CG(计算机图形)技术和计算能力,在不断拓宽我们对世界的认知。
张文生:我们对深度合成的“深度”要求是与审美水平提高同步的。比如我们看到的AI主播,一开始是二维的,然后语音和图像结合了,慢慢地把口型什么都做得很好了。我想未来的三年,它有可能变成三维的、立体的一个场景。
只要有需求,有应用场景,这项技术就有市场。以电影制作为例,当我们拍一些危险场景,就可以使用深度合成来完成,减少演员受伤。或者一些“大场面”,用实拍成本非常高,有时根本实现不了,比如想展现成千上万只羊在山上跑,但是用深度合成就可以连羊胡须这样的细节都展显出来。另外,一些想象层面的内容,比如把动物的动作附加到人身上,也可以通过技术实现。只要这些需求存在,技术一定会有大的突破。十年前,我们就在做裸眼3D,现在看,裸眼3D技术如果与深度合成技术结合,我相信那市场会更大。
司晓:我们看到的这些合成动作离真人的动作差距点还在哪?目前存在哪些瓶颈 ?
刘威:我们目前称之为“深度合成”的技术使用的是深度神经网络,在此之前的合成用的是统计的方法,严格意义上不能叫做“深度合成”。统计的方法就是说我们想合成什么东西,我会收集跟它很像的一些样本,然后用统计手段去“猜”一下,把这个样本拼在一起。2014年对抗生成网(GAN)被发明,自此以后,相关应用的发展突飞猛进。
但是,就拿产生图像来说,虽然这六年技术发生了巨大的进展,但是仍然离我们想象的那种高度自动化、高度自由度有很大的距离。何为高度自动化呢?举例来说,我们要产生一个非常逼真的人脸图,当然需要这个人脸图像分辨率越高越好。但是分辨率一大,你需要的算力就会很大,大到在手机上是完成不了的,必须在云上做,用若干块GPU才能做出来。
同样,对于自由度来说,我们现在的合成技术也有很大局限。通俗地说,自由度就是我想让它产生什么样,就产生什么样,这个仍然很难。在对抗生成网络发展的早期,我们是用一个噪音来产生一张人脸,最后产出的结果是无法把控的。直到今年,我们才能对生成的人脸的属性有要求。背后我们要训练的神经网络模型参数是海量的,训练方式也是非常复杂的。
尽管我们会遇到各种技术难点,我坚信未来用人工智能技术去自动产生的影像,会越做越好,日臻完美。
于?:我想到的最重要的其实是感情。大家看一些电影,或者电视剧,有时会有这种情节:角色的亲人故去之后,他可能去找一个巫婆、法师,把亲人的魂魄招回来,让我能再看他一眼,再跟他说一句话。现在,技术让我们可能拥有了种魔法。未来肯定会有人有这种想法,有这种需求,这对技术提出了新的要求。
“深度合成本身应该是赋能的技术”
司晓:目前深度合成技术面临污名化,“深度伪造”问题突出,我们怎么样保障我们这个技术不被用在造假、诈骗上?
刘威:在国内,腾讯在数字鉴伪——或者稍微学术一点,叫信息辩论术上取得了不小的突破。我们对语音、图像、视频鉴定的准确率比较可观。当然,道高一尺魔高一丈,合成的技术变强,我们的防御能力也得增长,这就像双手互搏。
以目前的图像鉴伪技术为例,我们有一个步骤,先用对抗生成技术去制造高逼真的样本,再把数据给计算机去判定,让它多轮反复学习。我对鉴伪技术的发展保持乐观。可以看到,即使在国际上的数字鉴伪比赛中,面对非常复杂的数据集、测试集,大家最后夺冠那些方法也不外如此。而造假的成本远远比鉴伪要高,也就是说,有人挖空心思造了假,我们一下就解决了。
于?:假的影像或者声音,能不能骗过人?能不能骗过机器?这其实是两个话题。有些场景下人比机器好骗。比如,骗子给你打电话冒充你的同学,你一听口音,我这个山东同学怎么是福建口音?但可能未来就不一样了,骗子先打给你这个同学,录一段你那个同学的声音,根据那个声音合成一下。你一听,十几年没见,这好像就是我老同学的声音,你就信了。
关于能不能骗过机器,在技术维度上,就是单纯的机器造假和机器鉴别的较量。可能攻守双方谁都不会特别确信能取得百分之百的优势,但落地到具体的业务里面的时候会发现,有时候会需要让步。这个其实会给造假者提供便利。
张文生:这个可能还关乎商业模式,就是如何从经济上激励“打假”相关技术的开发。此外,从打假的思路来说,如果我们要加上语义识别,可能会更容易,成本也更低。比如在电话诈骗这个场景下,骗子用了合成的语音,我马上问一个涉及隐私的问题,对方就答不上来了,这就是语义。
司晓:我们这个行业还需要做哪些事情,真正保障深度合成这个技术是在一个向善轨道上快速运行?
刘威:我个人希望从政策上鼓励人工智能技术创新,尤其是影视内容层面应用的创新,来提高效率,降低制作流程的成本。同时我希望要能有一些文教方面的创新,包括老照片、老电影的上色、复原,在线教育领域的应用等等。这些都是正确的引导。在立法和技术鉴别手段逐渐完善的情况下,我觉得技术造假应该是小概率事件,整体上深度合成技术还是应该向善。
于?:我们看整个人类发展历史,其实就是个体所拥有的力量,不管是建设力也好,破坏力也好,力量越来越大的过程,这是不可避免的。任何情况下,冒然抑制技术发展我认为都是不对的。法律不是禁止发展技术,而是规范如何把技术用在好的方面。我觉得这个是最关键的。
张文生:人工智能本身是赋能的技术。我们做技术实际上是围绕人们的生活、社会的进步。深度合成会发展成一个新业态,全世界技术人员都会为它贡献自己的力量。同时,我们也需要相关的规范来约束违法的、不利于社会发展的技术使用方式。做技术的人,怎么样在这个“魔高一尺,道高一丈”的情况下更新技术,帮助政府和公民,用技术来解决问题。
路伟:对影视业来讲,有关深度合成的核心关切是版权保护,虚拟资产、虚拟人物的版权归属都需要法律来界定。在科技发展之外,加上对版权的管理和尊重,这个行当会越来越健康。
“用人性的温度推动AI持续向善”
司晓:各位对深度合成的发展还有哪些期待?
刘威:我期待深度合成技术能够便利于文教、文创事业,孕育出更好的数字鉴别技术。我们今天谈到的所有的一切,无论是合成、鉴伪,最后驱动的都是人脑,人的创意。我希望AI里面会有越来越多的有温度的东西,这样我们才能让AI持续向善。
于?:在有现代科技之前,大部分人类生活的世界其实很小。但是以互联网为代表的现代科技让我们每个人都能够和全世界发生联系。再往后发展,类似深度合成这样的技术,可以在我们已有的这种基础上,再更进一步。这种技术可以把物理世界中不存在的美好创造出来,让我们去感受,它必然会把人类生活的美好推到下一个境界。
张文生:我希望科技企业能够把深度合成技术推动变成一个商业模式,来吸引更多的做技术的人为之服务,做出来更好的产品。科技企业也有责任和政府一起关注深度合成技术的发展,保障它在正确的、向善的轨道上。
路伟:我希望通过深度合成,通过计算机网络,能够让我们未来做电影、影视、虚拟世界越来越简单,让我们的作品越来越有温度,让更多的人能够把自己扫描进虚拟世界。我希望在这个世界里,人性的光辉照到更多角落里面。