从谷歌AutoML到百度EasyDL,AI大生产时代,调参师不再是刚需

导读:出品 | AI科技大本营 头图 | 付费下载于视觉中国 2018 年,Google Cloud 宣布将 AutoML 作为机器学习产品的一部分。至此,AutoML 开始进入大众的视野。 实际上,2013 年AutoWEKA的发布可以算作AutoML的开端;2014 年,ICML开始组织AutoML研讨会,AutoML成为...

出品 | AI科技大本营

头图 | 付费下载于视觉中国

2018 年,Google Cloud 宣布将 AutoML 作为机器学习产品的一部分。至此,AutoML 开始进入大众的视野。

实际上,2013 年AutoWEKA的发布可以算作AutoML的开端;2014 年,ICML开始组织AutoML研讨会,AutoML成为学术界的研究热点之一;2018 年,Google 将AutoML产品化,产业界开始全面关注。

到底什么是AutoML?AutoML能解决什么问题?

其实,AutoML理念就是用 AI 设计 AI,将特征提娶模型选择、参数调节等需要人工干预的环节进行自动化,使得机器学习模型无需人工干预即可被应用。

Google CEO Sundar Pichai 曾表示:Google 希望简化设计机器学习模型的神经网络,从而降低 AI 的门槛。设计神经网络是极其耗费时间的,其对专业知识的极高要求将适用人群缩小到了科研人员和工程师。这就是Google创造 AutoML 的原因,AutoML 表明,利用神经网络设计神经网络也是可行的。Google希望 AutoML 能拥有现在一些博士所具备的能力,并在 3~5 年内使众多开发者也能通过 AutoML 设计神经网络,满足其特定的需求。

由于AI 人才的极度稀缺,AutoML 诞生的初衷是为了降低 AI 开发者的门槛,帮助各行各业都能使用AI 的能力,让更多的 AI 应用落地。但 AutoML 只是针对 AI 落地中的特定环节,并不能真正解决 AI 落地的实际问题。

根据百度与波士顿咨询公司的联合调研报告,约86% 的市场需求需要定制开发业务场景下的AI模型。定制模型过程中,企业用户和开发者往往会面临缺少模型训练经验、数据采集和标注成本较高、模型适配与部署流程较为繁琐、模型优化迭代周期长等核心难点,从而会造成整个项目的成本高、周期长、且在前期对项目效果无法准确预期。

因此,需要降低门槛的不只是算法调优,被取代的也不仅仅是调参师,AI 大规模落地需要 AI 生产流程的全面自动化,于是就有了百度EasyDL。

从谷歌AutoML到百度EasyDL,被自动化的不只是模型设计

2017 年 11 月,为解决面临AI转型压力的企业开发者的问题,EasyDL 应运而生,百度也成为国内最早推出零门槛深度学习平台的公司。

2018 年 4 月,百度宣布全面开放EasyDL,基于百度飞桨在深度学习领域深厚的技术积累,EasyDL 开始走上快车道。

作为百度大脑推出的零门槛AI开发平台,EasyDL 支持面向各行各业有定制 AI 需求的企业用户及开发者使用。

EasyDL 集成了百度自研的AutoDL技术,帮助模型在给定的数据集上自动调优,获得更好效果。其中,AutoDL 包含Auto Augment(自动数据增强)、Auto Finetuner(自动超参搜索)、NAS(自动网络架构搜索)等自动化建模技术,旨在进行模型自动调优,获得更好效果,降低算法工程师进行模型调优的成本。

算法调优只是AI 应用落地中的一小部分,除此之外,EasyDL也通过技术手段尽可能降低AI 模型生产、应用全流程的成本。

总的来说,EasyDL有以下几大技术优势:

一站式AI服务:EasyDL提供围绕AI服务开发的端到端的一站式AI开发和部署平台,包括数据上传、数据标注、训练任务配置及调参、模型效果评估、模型部署。

完善安全的数据服务:针对开发者在 AI 开发过程面临的数据痛点,EasyDL支持训练数据的高质量采集与高效标注,支持在模型迭代过程中不断扩充数据,助力持续提升模型效果。包含软硬一体采集方案、自动数据清洗/扩充、智能标注、自动数据闭环等。将模型开发所需人工标注的数据量减少70%,数据采集效率从周提升到小时。

超高精度训练效果:内置基于百度超大规模数据训练的预训练模型,包括超大规模视觉预训练模型,及文本预训练模型文心ERNIE,底层结合百度自研 AutoDL/AutoML技术,基于少量数据就能获得出色效果和性能的模型。

端云结合灵活部署:基于 EasyDL训练完成的模型可发布为公有云API、设备端 SDK、私有服务器部署、软硬一体方案,灵活适配各种使用场景及运行环境。用户无需关注模型转换、适配加速、服务部署等细节,能获得可直接运行、部署的镜像及可进行二次开发的SDK。特别是设备端部署已经支持四大操作系统,15+芯片类型,广泛适配了市场上的主流硬件设备。

目前,EasyDL还从覆盖更广泛的技术方向出发,推出传统ML 方向、语音识别方向、OCR、视频追踪等定制化能力,并从易用性的角度着手,在数据、模型、服务等各个方面,持续降低使用门槛。并且,EasyDL也会推出更多 QuickStart、Demo 教程,帮助用户快速上手。

简单只是外在,专业才能帮助AI真正大规模落地

EasyDL 通过对 AI 生产全流程的优化,极大降低了深度学习的应用门槛,使得企业不必花费高昂的成本构建算法工程师团队,也能享受到 AI 浪潮带来的红利。

百度的理念是,希望通过先进的技术把 AI 开发变得像使用家电一样简单,用户不必了解家电的内部构造和电路原理,也能享受家电带来的便捷。

然而越是追求使用简单,它的内在就会越复杂。EasyDL也是一样,为了面向用户提供简单易用的使用流程,EasyDL平台内部采用了诸多复杂的深度学习算法和工程技术,以保证应用效果。

1)数据处理

在很多场景中,数据难收集和难处理是一大痛点,也是阻碍 AI 模型开发和应用的常见问题之一。今年 5 月 EasyDL 全新发布了 EasyData 智能数据服务平台,提供一站式的数据采集、数据清洗、数据标注、数据回流的完整解决方案,助力开发者高效获取AI 开发所需的高质量数据。

在数据采集方面,EasyData提供软硬一体、端云协同的自动数据采集方案,目前支持接入摄像头采集图片、云服务数据回流两种数据采集方式,其中摄像头采集图片提供了免费的本地采集 SDK,可以支持各类硬件平台的自定义抽帧采集图片,并将图片即时同步到 EasyData 管理。

在数据标注方面,EasyData 提供了图片、文本、音频、视频四种数据格式的11 种数据标注模板,并提供了最全面的智能标注方案,在物体检测、图像分割、文本分类三类任务场景中,通过百度自研的Hard Sample主动学习挖掘算法,进行针对性适配,在同样的模型效果指标下,可减少 70% 的数据标注量。

在数据清洗方面,EasyData提供了图片数据清洗的完整解决方案,支持相似度去重、去模糊、裁剪、旋转、镜像5种标准的清晰方案,以及高级清洗方案,可过滤无人脸、无人体的图片,并可根据需求保留识别出来的人脸或人体数据做为标注信息,大幅提升清洗数据的效率。

2)模型训练

AI 的行业应用场景是非常分散的,如何保障各个场景下模型的效果都达到较高的水平,使得精度符合应用要求,也是非常大的挑战。

目前EasyDL在这个方向上,一方面是通过大规模预训练模型,基于百度积累多年的海量数据和知识预训练,能够保证模型的泛化效果和通用性;另一方面是通过建设领域模型,针对特定场景提供具备更好适配性的算法模型。

在视觉任务中,图像分类训练任务内置百度基于海量互联网数据,包括 10万+分类、6500 万图片训练的超大规模预训练模型,平均精度可提升3.24%-7.73%;物体检测训练任务内置百度基于 800+ 标签、170 万图片,1000 万+ 检测框训练的超大规模物体检测预训练模型,平均精度可提升 1.78%-4.53%。

在自然语言处理方向,EasyDL预置了由百度自研预训练模型文心(ERNIE)。据悉,文心在中英文的 16 个任务上已经超越了业界最好模型,全面适用于各类NLP 应用场景。

由于目前大部分模型采用的都是分布式训练,为了提升训练效率,提高加速比,EasyDL基于飞桨 DGC 加速机制,通过只传送重要梯度(稀疏更新)的方式来减少通信带宽使用,在网络带宽受限的情况可以大幅提升通信效率,相比普通分布式训练,有70% 以上的训练速度增益。

3)服务部署

在最后的部署环节上,AI 模型小型化和边缘计算的发展是技术趋势也是挑战,而百度一直在这一领域有着深厚的积累。目前,EasyDL的设备端SDK已经适配了百度昆仑芯片、Intel 神经加速棒、华为 NPU、华为 Atlas、高通 DSP、RK 等15+芯片类型,以及 4 大常用操作系统,并实现了模型自动的量化压缩和性能加速。在软硬一体方案部署上,EasyDL提供了 基于 Nvidia Jetson 和百度自研硬件EdgeBoard的共6款软硬一体方案,支持专项适配与加速,覆盖高中低全矩阵,模型识别速度可提升 10 倍。

因此,对于开发者来说,简单的流程只是外在,而EasyDL的专业才是帮助 AI 大规模落地的秘籍。

AI的“万有引力”:人人做AI,才能AI为人人

据了解,目前使用EasyDL的用户数已经超过70 万,目前已经覆盖20多个行业场景,包括安全、互联网、工业、农业、医疗、物流、零售、教育、科研等。

随着 AI 技术的发展,各行各业应用 AI 进行转型的需求也在爆发式增长。当前,AI 赋能千行万业的愿景仍然处于起步阶段,AI 在很多时候更被认为是很高深需要非常大投入的技术领域,而实际上EasyDL正在颠覆这一点。

百度EasyDL平台正在不断升级自身技术,同时为 AI 落地持续赋能,为产业智能化转型提供更多创新力量。与此同时,EasyDL也正在积极的推进生态的建设,比如9 月底新上线的模型AI市场,就是通过平台化的基础设施,促进生态的繁荣。

为了进一步降低企业应用 AI 的门槛与成本,EasyDL也重磅推出“万有引力”计划,为有 AI 应用需求的企业提供专项基金,助力万家企业,创享 AI 能力。

AI 的作用是相互的,只有人人做 AI,人人用 AI,才能最终实现AI for Everyone。