剑桥2020年度AI报告:学术人才涌向产业,八大预测看明年

近日,剑桥大学的 一年一度的《AI 全景报告》出炉,2020版的 AI 全景报告共177页,分别从研究、人才、行业、政策和未来展望五个方面介绍了人工智能领域最近一段时间的发展趋势。

本期的智能内参,我们推荐剑桥大学的研究报告。

本期内参来源:剑桥大学

原标题:

《State of AI Report》

作者: Nathan Benaich Ian Hogarth

一、2020AI研究

人工智能研究没有想象中那么开放:只有15%的论文公开了他们的代码。

研究论文代码的公开对于AI的可问责性、可再现性和推动进展是重要的。自2016年中期以来,该领域在这一指标上几乎没有改善。一般来说,学术团体比行业团体更有可能公开他们的代码。没有公开所有代码的著名组织有OpenAI和DeepMind。

▲代码公开率

在研究论文中,Facebook的PyTorch的速度快于谷歌的TensorFlow,但后者往往是衡量AI产品使用情况的领先指标。

20-35%的会议论文提到了他们使用的框架,75%引用了PyTorch而不是TensorFlow。2018年,有161位作者发表的TensorFlow论文多于PyTorch论文,但其中55%的人改用了PyTorch。

▲PyTorch论文占比

在GitHub上的论文实现中,PyTorch也比TensorFlow更流行。其中,47%的论文实现基于PyTorch,而TensorFIow为18%。PyTorch提供更大的灵活性和动态计算图,使实验变得更加容易。JAX是个对数学更友好的Google出品框架,通常在卷积模型和transformer之外的工作中受到青睐。

▲GitHub论文实现框架

语言模型进入十亿参数俱乐部,而参数的数量表明了算法在训练过程中优化了多少不同的系数。

▲参数数量

大尺寸模型正在推动着 NLP 领域的技术进步,OpenAI 的 GPT-3 等新研究已经把深度学习模型的参数数量推到了千亿。根据目前的云服务算力价格,训练每 1000 参数的模型平均需要 1 美元,拥有 1750 亿参数的 GPT-3 可能需要花费百万美元级别的费用,有专家认为这一数字超过了 1000 万美元。高昂的训练费用,让研究人员们在探索新方向时遭遇了挑战。我们正在迅速接近惊人的计算、经济和环境成本,以获得递增的较小的模型性能改进。

新一代的transformer语言模型正在解锁新的NLP用例。GPT-3,T5,BART正在极大地改善用于文本到文本任务(例如翻译,文本摘要,文本生成,文本到代码)的transformer模型的性能。此外,2019年,NLP全新基准SuperGLUE正式发布。十多个团队在GLUE基准测试中超过人类。

▲SuperGLUE基准

生物学正在经历它的“AI时刻”:2020年超过21000篇AI论文与生物学相关。自2017年以来,生物学领域涉及AI方法(例如深度学习,NLP,计算机视觉,RL)的出版物同比增长超过50%。

▲与生物学相关的AI论文数量

不过,当前的大多数机器学习应用是通过统计来实现功能的,其忽略了人类学习知识的重要方法因果推理。在为患者寻找诊疗方案等任务中,因果推理是更好的方式。Judea Pearl、Yoshua Bengio 等人工智能先驱者都认为,因果推理是使得机器学习系统更好地泛化,更强大稳健,并为决策作出更大贡献的新方向。

二、AI人才

人才开始外流:AI教授离开大学,进入科技公司。

在2004年至2018年间,谷歌、DeepMind、亚马逊和微软从美国大学聘请了52名终身教授。卡内基梅隆大学、华盛顿大学和伯克利大学在同一时期失去了38位教授。值得注意的是,2004年没有一位人工智能教授离开高校,而仅2018年就有41位人工智能教授离职。

▲AI人才流动

新的教授职位可能会为年轻的学术人才腾出晋升的阶梯。与此同时,包括Facebook在内的一些公司将学术/行业的双重合作作为解决方案。但一些学者并不买账。

人工智能教授的流失似乎很重要:美国69所大学的离职与毕业生创业能力下降有关。根据报告,人工智能教授的流失对高校来说很重要,在美国69所大学中,毕业生创业能力下降与教授的离职有关。一般来说,人工智能终身教授离职4-6年后,毕业生创办人工智能公司的可能性降低了4% ;但这种并不适用于教授在学生毕业前1-3年就离开的情况,这表明教授和学生之间的互动很重要;但人工智能教授的离职与同一所大学的毕业生成立非AI公司之间也没有显著的相关性。

1亿欧元能否为「买」到50位教授?

荷兰的埃因霍芬理工大学(TUE)已承诺在5年内投入1亿欧元,创建一家专注于在机器人和自动驾驶汽车等机器上使用智能算法的新研究所。

银湖创始人捐赠1亿美元,在东北大学创建专注于应用于数字和生命科学的人工智能的鲁克斯研究所。这所学院将在应用分析、计算机科学、数据科学、数据可视化和机器学习,以及生物信息学、生物技术、基因组学、健康数据分析和精准医疗等领域进行发展。

中国学者在NeurIPS领域做出了越来越重要的贡献。

被NeurIPS 2019录取的论文作者中,有29%的作者是在中国获得本科学位的。

▲在中国获取本科学位的学者占比

但在离开中国的大学后,54%的毕业生却选择前往美国在NeurIPS发表论文。2019年,美国吸引了超过一半的外国NeurIPS作者。

▲美国人才吸引力

在美国获得博士学位的中国和非中国学生中,有近90%的人留在美国工作。

▲留美博士后人员

美国人工智能博士项目的外国毕业生最有可能在大公司工作,而美国人更有可能在初创公司或学术界工作。

▲美国人和外国人毕业去向

英国和中国是美国培养人才最大受益国。去英国的毕业生中,55%选择在私营部门工作;40%移居中国的人也是如此。

▲AI博士生工作国家

但是,大多数在美国工作的顶级人工智能研究人员都不是在美国培养的。

▲美国工作人才本科毕业国家

在论文方面,美国机构和企业继续主导NeurIPS 2019论文。谷歌、斯坦福大学、CMU、麻省理工学院和微软研究院占据前五名。

▲NeurIPS 2019论文机构

作为当下最热门的研究领域之一,AI 领域的人才需求不断增长。许多一流大学也在扩大 AI 专业的招生规模。以斯坦福为例,最近几年斯坦福 AI 领域的学生是 1999-2004 年的十倍之多,与 2012-2014 年相比 AI 领域学生数量也是翻了一倍。尽管如此,来自 Indeed 的数据显示,招聘职位的数量仍约为求职者数量的三倍。

但不可避免的是,2020 年人工智能领域的人才市场受到了新冠疫情的严重影响。根据领英发布的数据,2020 年机器学习领域职位原本强劲的增长趋势在 2 月受到打击,开始下滑。

▲AI人才市场发展

三、产业

一款由AI设计的药物在日本已经开始了一期临床试验。在AI医疗领域,众多创业公司筹集了巨额资金,实现了平台战略。

▲AI医疗领域公司融资情况

在疫情期间,很多科技公司将AI医疗影像识别技术投入使用。深度学习将超分辨率显微镜成像从采集到分析进行了改进,使用监督学习和计算机视觉将人体显微镜下的数小时时间缩短为几分钟。超分辨率显微镜通常需要主题专家来评估样本,ONI的系统自动化这些视觉检查任务和解锁超分辨率非专业用户。

▲AI医疗影像识别

在最受关注的自动驾驶方面,美国各州继续立法制定自动驾驶汽车政策。

▲美国超过一半的州已经制定了与自动驾驶车辆相关的法律

即便如此,无人驾驶汽车仍然不是那么无人驾驶:自2018年以来,加州66家拥有自动驾驶测试许可的公司中,只有3家获准在没有安全驾驶员的情况下进行测试。

即使在政策最为开放的加州,迄今为止自动驾驶汽车的行驶里程相比人类也是微不足道自动驾驶汽车公司在 2019 年的自动驾驶里程比 2018 年增加了 42%。但这仅相当于 2019 年有驾照加州驾驶员行驶里程的 0.000737%。

▲2018、19年加州人类和自动驾驶里程

自2019年7月以来,主要的自动驾驶公司在私人融资中筹集了近70亿美元。

▲自动驾驶公司融资情况

值得一提的是,滴滴旗下自动驾驶业务从母公司剥离,募资5亿美元。

▲滴滴自动驾驶

目前,自动驾驶系统中的大多数机器学习算法只专注于车辆周围的事物,并基于工程量巨大的手写规则。研究人员正在开发类似于 AlphaGo,学习大量人类驾驶经验进行训练的新算法。最近,Waymo、Uber 和 Lyft 都展示了模仿学习和逆强化学习的新技术。

自动驾驶等领域的发展也需求大量算力,Graphcore、英伟达等公司今年推出的新一代芯片成为了人们的希望。

另外,今年AI在保护人类免受电子邮件钓鱼攻击方面、计算机视觉检测篡改身份文件、反洗钱和恐怖分子融资和经济犯罪等方面也做出了不小的贡献。

四、AI政策

伦理道德风险:一组研究人员花了数年时间帮助构建在某些敏感环境下使用深度的伦理风险。今年,这些问题成为主流。

比如,人脸识别现在就有很大的争议,目前世界上有50%的国家允许使用人脸识别。只有3个国家(比利时、卢森堡、摩洛哥)部分禁止了这种技术,只允许在特定情况下使用。

▲人脸识别各国政策

科技巨头们在人脸识别方面变得越来越谨慎。微软删除了拥有1000万张脸的数据库,这是目前最大的数据库。数据库中的人脸是从网上获取,并没有征得本人同意。

亚马逊宣布暂停一年允许警方使用其面部识别工具Rekognition,以便“给国会足够的时间来实施适当的规定”。

IBM宣布将淘汰通用面部识别产品。

在中国,出现了人脸识别第一案“郭兵”案。

并且,立法者们争相立法禁止深度造假的使用。中国互联网监管机构日前宣布,禁止发布和传播通过人工智能创建的“假新闻”,并规定人工智能的使用也必须以显著的方式进行明确标记。中国最高立法机构今年早些时候表示,正在考虑将深度造假技术定为非法。

加州通过了针对深度造假的ab730法案,该法案将传播对政客言论或行为造成虚假、有害印象的音频或视频定为犯罪。

美国已经通过了许多其他州的法案,解决了不同的风险。维吉尼亚州的一项法律修改了现行的关于报复色情的刑法,将电脑生成的色情也包括在内。

除了民用方面,美国继续在实施军事人工智能系统方面进行重大投资。随着机器学习技术的不断工业化,军方对其进行了越来越多的探索。然而,对现实世界的影响程度尚不清楚。

美国总务管理局和美国国防部联合人工智能中心宣布授予博思艾伦汉密尔顿公司5年8亿美元的任务订单。简报包括“数据标签、数据管理、数据调理、人工智能产品开发,以及人工智能产品向新的和现有的部署程序和系统的过渡”。

认知电子战是一个正在发展的领域,机器学习被用来分析敌人的信号和自动设计反应来扰乱他们的行动。美国陆军授予洛克希德马丁公司7500万美元,用于制造一种可安装在无人机或悍马上的ML网络/干扰吊舱。

在国防层面,还有更多与此相关的 AI 公司正在获得丰厚的政府合同和风险投资。戴尔旗下 Pivotal 软件公司获得了美国国防部 1.21 亿美元的合同,还有一些从事无人机、高分辨率卫星地图、信息管理等业务的公司获得了大量风险投资,例如 Anduril、Rebellion、Skydio。

谷歌正倾向于AI模型的公平性、可解释性、私密性和安全性,并通过TensorFlow社区大量增加教育内容和工具。

▲谷歌AI责任

华为在智能手机领域的领导力越来越强,并且正大力投资机器学习技术。这是9年来第一次,除苹果和三星之外,还有其他公司在引领市常然而,根据美国的制裁,到2020年9月中旬,华为的芯片供应将告罄。

使用美国芯片制造设备的外国公司将被要求在向华为供应某些芯片之前获得美国的许可证。华为消费者部门总裁宣称:“没有芯片,就没有供应”。

▲华为和三星手机产量

华为的麒麟 AI 芯片由台积电代工,受到美国制裁政策影响,台积电接受的最后一笔订单是在 2020 年 5 月 15 日。目前,华为正尝试向中芯国际(SMIC)寻求芯片制造方面的支持。中国政府又设立了一项290亿美元的国家支持基金,以减少对美国半导体技术的依赖。并招聘了100多名台积电工程师,以缩小与中国在半导体能力方面的差距。

五、未来预测

报告最后给出了未来十二个月的八大预测:

1、构建更大语言模型的竞赛仍在继续,我们即将见证一个的10万亿参数模型。

2、基于注意力的神经网络将从 NLP 领域迁移到 CV 领域。

3、随着母公司战略的调整,一家大型企业的 AI业务即将关闭。

4、作为对美国国防部活动和美国军事 AI 初创公司融资的回应,一部分中国和欧洲的国防 AI 企业将在未来的 12 个月内融资超过 1 亿美元。

5、领先的AI优先药物发现初创公司之一(如Recursion, Exscientia)要么首次公开募股,要么以超过10亿美元的价格被收购。

6、DeepMind 将在结构生物学和药物发现方面取得重大突破。

7、Facebook 将凭借 3D 计算机视觉技术在 AR 和 VR 上取得重大突破。

8、NVIDIA 最终不会完成对 Arm 的收购。

智东西认为,虽然2020年疫情对各行各业都产生的或多或少的影响,但今年AI的发展仍旧是如火如荼的进行着,各国尤其是中美两大国的AI竞争仍旧十分激烈。在药物研发、自动驾驶、图像识别等方面,AI虽然遇到一些暂时的挫折,但整体态势仍旧向好。但特别值得注意的是,美国今年在AI军事应用的投入很大,这对未来的世界格局可能会产生重大影响。