第三代人工智能基础设施背后,是一次技术应用的常识普及运动

导读:买了新电脑和手机,你会提前安装好杀毒或安全软件,还是等被黑客攻破了才悔之晚矣? 处理传染病疫情,是从源头释放药物和疫苗,还是坐等医院的患者超过治疗和处理能力? 面对危机舆情,是快速遏制传播,还是拖到负面信息的数量远远超过企业公关能力? 建造一...

买了新电脑和手机,你会提前安装好杀毒或安全软件,还是等被黑客攻破了才悔之晚矣?

处理传染病疫情,是从源头释放药物和疫苗,还是坐等医院的患者超过治疗和处理能力?

面对危机舆情,是快速遏制传播,还是拖到负面信息的数量远远超过企业公关能力?

建造一座核电站,是否有必要提前考量其安全性并严格部署安全措施?

答案,是显而易见的。

公共设施投入运营之前一定会做足消防、验收等功课;杀毒软件和定期更新漏洞成为桌面系统的常备工具;汽车、手机等新款产品在设计之初,就会将安全放在首要考量因素之一……这就是主动式安全管理之于社会生产的意义。

而面对人工智能,总有科技企业和大V们不断强调AI的神奇之处,却有意无意间忽略了一些技术落地不可或缺的前提,其中就包括安全。

事实上,对于AI安全性的顾虑,是今天各行业落地AI时所遇到的头号焦虑与难题之一。

12月9日举办的“2020第三代人工智能产业论坛”上,清华系AI公司瑞莱智慧RealAI发布了一系列AI基础设施,就将更安全、可靠、可信及可拓展的第三代人工智能作为核心,来推动企业智能化升级。与以往基于深度学习的数智化解决方案相比,有哪些不同?要回答这个问题,需要先来看看今天横亘在企业与AI应用落地之间的困境。

找回被遗落的安全常识

伴随着“新基建”的哨音,AI在产业端高歌猛进,与此同时,一些安全问题也涌现出来,暴露出安全管理意识的缺失。

AI,意味着更大的计算成本、更快的数据交互、更高的改造风险,一旦出现算法问题或数据泄露,或是遭遇黑客攻击,该怎么办?此前业界并没有过多的探讨,却是AI进入产业的前提与业务创新发展的命脉所在。

AI需要怎样的安全?正如开篇所提到的,过去几十年来,主动式安全管理已经深入到了社会生产生活的方方面面。

学者埃里克郝纳根(Erik Hollnagel)在《Safety-I and Safety-II: The Past and Future of Safety Management安全管理的过去和未来》一书中这样解释:

过去,只要一个事物很少或根本没有出现错误,就被认为是安全的(即“安全-I”模式)。伴随着数字时代的到来,这种方式并不能有效地减少安全问题造成的损失,一次来自黑客的攻击威胁,如果反应不足就可能让个人或企业万劫不复。

所以21世纪初期,发展出了另一种安全管理模式安全II,认为安全的本质是确保尽可能多的事情是正确的、能够达到预期结果,并且一直保持这一状态。因此必须积极主动,在事故可能发生之前就采取一定行动,在负面结果还没来得及发展和蔓延之前就采取干预措施。

此前广泛引起讨论的人脸识别涉及到的隐私安全、数据风险等问题,就在提醒我们,AI需要补全“安全II”的能力。具体来说,就是预测、准备、响应和监控风险的能力。

您的“AI安全问题大礼包”,请查收

如果按照安全II模式的主动管理逻辑来审视AI产业化,会发现等待预先解决的安全风险,真的有点多。

1.决策不可靠的算法模型。深度学习模型的黑箱性和不可解释性,至今依然是难以规避的问题。企业在将深度神经网络进行训练时,可能出现模型不准、预测结果不可预知的情况。

而不可靠的算法模型一旦应用于高价值的关键敏感场景,比如金融决策、医疗诊断、精密工业制造等等,可能引发生命财产损失。

2.防不胜防的新型攻击手段。安全是一场技术攻防战,当下许多黑灰产也开始利用更前沿的技术发起攻击,让传统安全防护模式力有不逮。

比如利用“对抗样本”技术打造一张假脸来欺骗移动支付的人脸识别模型,用以假换真的音频进行财务诈骗,制作虚假的换脸视频等等,针对这类新型安全风险,主流厂商的模式依然是传统的“安全-I”思路,等到发现问题再进行响应和修复,但AI潜在安全问题很多时候是滞后或隐蔽的,比如在训练源头的原始数据集进行污染与投毒,在问题暴露时可能已经酿成了危机。

3.日益严峻的数据危机。提升AI能力需要最大限度的挖掘数据价值,但是在金融、医疗、公共安全等场景的AI应用中,所要用到的数据往往涉及个人隐私信息,简单明文数据传输和利用很可能导致隐私泄露。

另一方面,在特定商业场景中,有价值的数据往往分散在不同的机构与用户手中,形成大大小小的数据孤岛,应用过程中数据的用途和用量不受控,存在被滥用和复制的问题,同时数据应用产生的收益不清晰,数据权属也难以界定。

4.充满盲点的应用漏洞。虽然现在很多业务场景都在使用AI能力,但应用效果却并不及预期,诸如算法偏见导致人脸识别对白人和黑人区别对待、AI信贷风控模型对特定地区出现“歧视”、智能客服AI学会了脏话突然开始骂用户……虽然这些应用漏洞并不会导致业务直接崩坏,但却让业务效果大打折扣,与此同时也带来负面社会影响。

说了这么多,大家可能会觉得AI好像不怎么靠谱的样子,其实今天AI的方案成熟度和产业落地性已经很高了,所带来的生产力价值也是远超想象。

只是,从脚踏实地的角度出发,与其寄希望于一个零事故、零风险的理想化口号,更可行的方式是,把每个算法、每个系统、每次项目都实施好,从源头上打造务实可靠的AI,这也是今天大多数传统行业在应用AI时普遍缺乏的意识,以为花钱买回来的是无往而不利的增长神器,拆开才发现是一张安全漏洞密布的渔网。

随着AI进一步深入产业,必须早日在技术价值与现实落地之间找到一个安全可控的平衡点。

防患于未然,关键时刻还得靠学霸

正如爱因斯坦所说,提出问题往往比解决问题更重要,因为解决问题也许仅是一个技能,而提出新的问题、新的可能性,从新的角度去看旧的问题,需要有创造性的想象力,而且标志着科学的真正进步。

这也是为什么,RealAI会引起我们的注意。

我们知道,人工智能的基础模型、研究方法、基础理论和各种模型的设计等等,底层创新一般都是由学术界率先垂范,比如2017年,图灵奖得主Geoffrey Hinton就看到了传统深度卷积神经网络的问题,提出了胶囊网络等新的深度学习方法,以期推动AI迭代。

在中国,清华人工智能研究院等顶级学术机构也在不断尝试搭建更可靠的AI和智能实现方式。而RealAI瑞莱智慧作为清华人工智能研究院的产学研技术公司,自然也能率先意识到高度依赖数据驱动的传统机器学习时代存在的诸多安全隐患,针对上文提出的种种问题,RealAI的“学霸们”重构底层技术框架,推出全新范式,从技术侧给出解决方法,比如:

将深度学习和贝叶斯方法的优势有机结合,将数据和预测结果中天然存在的不确定性纳入考虑,提升AI模型的泛化能力,从而实现可靠可解释的AI;

保证在建模过程中,从关键特征和决策相关依据等不同维度给出解释,增进人们对AI结果的理解;

通过对抗的方式发现AI算法存在漏洞的机理,并通过对抗防御技术指导鲁棒AI算法和系统研发;

将领域知识引入到AI建模中,实现知识与数据的共同驱动;

通过与密码学和分布式系统结合的方式,实现在明文数据不出库的情况下,解决AI场景下的数据流通问题。

也许你已经发现了,集合了这些新技术能力的AI,已经不是我们所熟悉的那个“阿尔法狗时代”的深度机器学习了,而是第三代人工智能。

清华大学人工智能研究院院长、中国科学院院士张钹教授是这样阐释的,第三代 AI 的思路是把第一代的知识驱动和第二代的数据驱动结合起来,通过利用知识、数据、算法和算力等 4 个要素, 建立新的可解释和鲁棒的AI,具备安全、可靠、可信和可扩展的特点。

沿着这一技术发展的底层思维逻辑演进,会发现在第三代人工智能基座上搭建AI应用,也就自然而然地实现了“安全II”主动式安全管理,让AI的潜在风险能够从源头就被预测、准备、响应和监控。

解决AI安全隐忧任重道远,第三代AI无疑是中国学术界所给出的领先方向和解法。

没有新基础设施,就没有“顶天立地”的第三代AI

AI很好,但如何才能被企业用起来?第三代AI要“顶天立地”,既需要高屋建瓴的学术创新,也需要“接地气”地对接产业。想要融入真实的产业需求,自然离不开平台基础设施作为枢纽,成功完成技术价值到商业价值的转换。

打个比方,企业只是想做一个美味的蛋糕,不需要从种小麦开始,找到一个提供面粉、黄油、模具的平台采集到这种现成材料,是更省事省力有保障的选择。

所以我们很欣喜能够在AI助力数智化转型的初始阶段,就出现了RealAI这样基于第三代人工智能技术的技术企业。

在“2020第三代人工智能产业论坛”上,RealAI发布了两款最新AI产品隐私保护机器学习平台RealSecure和人工智能安全平台RealSafe2.0 版本。

结合去年就推出的可解释机器学习建模平台RealBox,以及深度伪造检测工具DeepReal,形成了一套从数据、算法、应用全链条对AI进行安全赋能升级的基础设施平台。

数据层面,最新发布的RealSecure隐私保护机器学习平台,通过其自研的“隐私保护AI编译器”,能够自动将普通机器学习算法程序转换为分布式、隐私安全程序。

这意味着,当银行、政府、医院等敏感场景想要实现数据流通又担心隐私泄露等问题时,可以采用自动化隐私保护学习的方式,一键完成分布式隐私保护学习算法的建模,让多个数据拥有方可以在无需透露敏感数据的前提下,来训练更高性能的AI模型,打消企业和个人用户的安全顾虑。

算法层面,升级后的RealSafe2.0版本,可以针对目标识别等算法进行安全攻防,并增加后门漏洞检测等功能。就像杀毒软件一样,对应用的AI算法进行全面“体检”,让AI安全性的标准化检测和增强成为可能。

高可解释性的机器学习建模平台RealBox,则借助贝叶斯概率机器学习,让原本“黑箱”的模型训练变得透明化、白盒化,各维度数据在决策过程中所占的比重等等都可以被解释,这样的算法做出的决策,自然更具有可信度。

应用层面,RealAI基于千万级训练数据打造了多特征融合和多任务学习、具备防御对抗样本攻击能力的伪造识别算法,推出DeepReal深度伪造检测工具和一体机。

面对各种伪造App数据集和添加噪音来实施攻击的行为,DeepReal可以对伪造内容和真实内容之间表征差异性进行有效辨识,在多个主流深度伪造App数据集和各类学术数据集上的检测准确率超过99%。

这些能力在AI应用的各个环节贯穿,也让第三代人工智能有了面向产业的价值释放端口。RealAI CEO田天介绍道,人工智能要成为新时代的水和电,普及到产业的各个角落,需要完备的基础设施建设。但不同于以往的数据平台、算力平台为AI提供基础运算条件,RealAI 打造的原生基础设施从增强AI自身底层能力出发,围绕“算法可靠”、“数据安全”、“应用可控”三大能力,推动产业智能化走向安全可信的全新阶段。

跨越鸿沟:“吃螃蟹”需要哪些动力?

对于产业端来说,最怕的不是投入,而是未知,这也是为什么在每一次转型浪潮时,常常会有企业望而却步。

每个行业与企业都有着自身的独特性与具体需求,通用性AI往往难以施展拳脚;加上各自的技术基础与认知阶段不同,会出现有的企业急切想要构建全面的数智化系统,有的甚至连AI能做什么不能做什么都不知道。

如何让企业愿意成为“第一个吃螃蟹的人”,AI技术公司需要做的不仅仅是大声吆喝,更需要躬身潜行,做好平台服务。

面对这一道难题,RealAI的“学霸们”做了三件事:

第一,打造自主可控的创新技术和底层框架,让各行各业可以放心将数据、模型跑在上面。

最典型的,是此次发布的RealSecure所搭载的“隐私保护AI编译器”。传统联邦学习往往都需要各个数据拥有方重新组建一个隐私保护学习团队,或者堆人力将原来的机器学习代码一点点改写成隐私保护学习代码,费时费力不说,还难以保证性能和适配性。

RealAI没有沿着老思路“缝缝补补”,而是直接用底层编译的方式,将联邦学习算法结构成算子,通过算子的灵活组合来适配多种多样的机器学习算法公式,就像“活字印刷术”中的“字模”一样,可以被标准化、灵活取用。

另外在训练过程中,首创以底层数据流图的方式,让数据的拥有方、参与执行方,以及通信是否需要加密,所有流程可视化展现,让整个计算过程变得安全透明。

第二,锻造成熟的垂直行业解决方案,为AI产业化“打样”。

对于一些行业普遍存在的通用性问题,联合头部企业打磨出相应的解决方案,能够给更多观望者有所参考和启发。

比如,在金融领域的信贷场景中,RealAI发现“数据有偏”是一个非常突出的问题,传统建模过程中用到的数据都是经过层层筛癣最终跑过整个借贷业务流程的“好”样本,但没有贷后表现数据的客群中就没有优质客户了吗?怎样挖掘并服务好这群“数据隐形人”,RealAI以自研半监督回捞模型,判断之前被拒绝的客户究竟是否为优质资产,从中挖掘出10%与通过客群一样的优质客户,助力某银行在无成本的前提下回捞拒绝客户,实现了20%的资产规模增长。

工业领域的核心痛点则是算法可靠性。以智能检测为例,重大设备的健康程度会直接影响企业生产效率和资产寿命,以往只能通过有经验的维修人员来定期检查、维护,效率低下,加上新生代检修工人培养越来越困难,这时就需要高可靠性的AI来帮忙。

RealAI帮助工业企业打造的PHM设备健康诊断与预测性维护解决方案,就通过序列分析算法分析设备的监测数据,进行故障的实时诊断和预测,帮助规划运维活动,避免停机和降低维修损失。在大坝安全智能监测场景中,提升50%的预测准确率。在光伏制造、油气管道监测等场景中同样可以发光发热。

另外在公共安全领域,人脸识别技术被广泛应用于刷脸支付等身份认证场景,背后与个人财产安全绑定,但识别模型本身却存在被攻破的风险。RealAI与某大型支付企业合作,利用AI对抗攻击算法全面发掘和修复人脸比对模型漏洞,提供防御方案,实现更加安全的刷脸支付。

类似的行业垂直解决方案还有很多,这些都是RealAI基于自身AI基础能力,结合对于行业业务的理解,对产业智能化升级方向的洞察,所打造出的落地产品和解决方案,在不断消弭技术到应用之间的鸿沟。

第三,“开箱即用”的一站式基础保障。

通过此次发布的AI基础设施平台,我们发现,RealAI把相关技术力都封装成了对应的工具和框架,企业碰到AI应用难题时,可以快速完成部署。

比如RealSafe平台通过封装多种自研的黑盒攻击、白盒攻击算法,以及业内首创的黑盒测评能力等等,通过界面化的操作,帮助用户即便不具备专业的算法知识和编程开发经验,也能轻易上手从根源上检测跟防御潜在漏洞。

包括DeepReal平台,通过软硬件结合与适配,让算法性能最大化,不需要企业再费劲进行调配。

今天,围绕新基建展开的数智化升级,已经公认会给中国带来长期的经济红利。其中,AI技术的普及速度与安全可靠,无疑是影响全局的关键变量。二者如同“DNA双螺旋”一样交织发展,才能够打开人工智能产业“第二增长曲线”。

如果说智能化是一架高速飞驰向产业界的飞机,那么第三代AI技术及其基础设施,就是这架飞机的安全装置。

冒险,并非在任何时候都是一种美德。埃里克郝纳根就认为,企业在安全管理上应该更注重成功,而不是想当然地忽视风险,积极主动地引导各个业务环节向顺利的方向发展,不要等待事故发生后“亡羊补牢”。

这或许也应该成为产业应用AI时的一种常识,而RealAI正在为我们补上这堂“常识课”。