英伟达Jarvis 1.0公测版上线,打造实时对话式AI速度提升十倍

Jarvis 的 1.0 公测版本包括用于对话 AI 的新的预训练模型,并支持 Transfer Learning Toolkit(TLT),因此企业可以轻松地使应用适应其特定的用例和领域。 这些应用能够理解上下文和细微差别,从而为用户提供更好的体验。

通过 Jarvis,企业开发者们可以及时获得最新的模型, 并将产品的开发时间缩短十倍,并充分利用 GPU 加速工作流。

使用英伟达 Jarvis 快速开发的应用程序可以很快回答诸如「珠穆朗玛峰有多高?」这样的问题。如果你这么做了,一般得到的回答是:「珠穆朗玛峰高 8848 米」。问答系统(QA)通常会被定义为信息检索(IR)和自然语言处理,这一系统处理人类以自然语言形式发出的指令,并从数据资源(如数据库、网络和文档)获取相关信息。

这听起来很简单,但从头开始创建一个问答系统并不是容易的事,这就是英伟达提出 Jarvis 的意义所在,它是一个完全加速的应用程序框架,用于构建使用端到端深度学习管道的多模式会话式 AI 服务。

具体来说,Jarvis 框架包括优化的视觉、语音、和自然语言理解服务能力。

工具链接:https://devloper.nvidia.com/nvidia-Jarvis

目前,英伟达已开放 Jarvis 和 TLT 供 NVIDIA 开发者计划成员免费下载。除工具之外,「入门指南」页面还提供相关资源,包括示例、Jupyter Notebook 和针对新用户的教学博客。

Jarvis 提供的问答系统能力,基于著名的 Transformer 系列模型 BERT,这是一种强大的预训练 NLP 模型,在 2018 年由谷歌提出,进而彻底地改变了人工智能领域的现状。通过包括维基百科等巨量数据集的预训练,BERT 强大的模型可以在绝大多数 QA 任务中给人带来令人满意的结果。人们也可以进一步对 Jarvis 内置的模型进行微调,以使用很多问题答案对,如斯坦福问题答案数据集 SQuAD 中的内容来增强问答能力。

据英伟达的介绍,Jarvis 的早期采用者包括 InstaDeep(一家创建阿拉伯语虚拟助手的公司)。NVIDIA Jarvis 在提高其应用性能方面发挥了重要作用。通过 Jarvis 中的 NeMo 工具包,可将阿拉伯语语音 - 文本模型进行微调,单词错误率可降低至 7.84%。

俄罗斯最大的移动网络运营商之一 MTS 也已规模化应用了 Jarvis 工具,并为客户支持提供聊天机器人和虚拟助手。在 Jarvis 的帮助下,开发者通过对俄语 ASR 模型进行微调大幅提高了模型的准确性,并通过 TensorRT 优化提高整体性能。

在 Beta 版公开之前,Jarvis 已经经过了时长一年的小规模测试,这一工具面向整个工作流程,与人进行实时对话的系统,既需要有准确的回复,也要有足够大的可调整性。为了降低使用者的门槛,Jarvis 的很多工作都是完全不需要写代码的,另外最重要的是:在这一框架下进行计算的模型都获得了英伟达 GPU 中深度学习专用处理单元 Tensor Core 的加速。

Jarvis 的 1.0 版拥有业界 SOTA 水平的预训练模型,其主要功能包括:

  • 在数千小时语音数据上进行过训练的 ASR、NLU 和 TTS 模型
  • 零代码需求的迁移学习工具包 TLT,可快速对自定义数据进行模型重训练
  • 完全加速的深度学习 pipeline,并对扩展服务器进行了优化
  • 使用一行代码部署服务的端到端工作流和工具

目前公布的一些 Jarvis 用户。

英伟达表示,对话式人工智能正在从金融、医疗到消费者服务等领域不断落地。未来,Jarvis 还计划支持更多的 NLP 模型,新的模态,以及新的优化器。