聊一聊语音交互以及语音助手

编辑导语:跟着科技的赓续成长,如今语音助手也频繁的涌如今我们的日常生活中,比如手机的语音助手、智能音箱等等,语音助手的出现也很大年夜程度上进步的一些效力问题;本文作者分享了关于语音交互的懂得,我们一路来看一下。

“语音交互是一种简单、天然的人机交互方法,也是人类最根本的沟通方法。”

说起语音交互、语音助手,我信赖大年夜家必定不陌生。

  • 2011 年,Siri 跟随 iPhone 4s 一同宣布;
  • 2014 年,亚马逊宣布 Alexa;
  • 2018 年,天猫精灵、小爱同窗、小度等音箱开启猖狂补贴……

如今,各类科技公司、互联网公司、车企,甚至是房地产企业都在做语音助手;你已经很难找到一台新宣布,且不带语音助手的手机 or 汽车了。

我最早感触感染到语音交互的魅力是在16年,当时在做全屋智能的产品经理,公司调研产品买了一台亚马逊的echo,第一次体验到远场的语音交互,很惊艳,远场语音交互技巧给了居家场景太多的想象空间。

后来国内陆续出了小爱同窗、天猫精灵、小度音箱… 我根本都是第一时光买回了家。

18年5月,我去了猎户星空做办事机械人“豹小秘”,机缘偶合的负责起了它的对话才能,有幸伴随它从须要“一字不差的吼着交互”,到在全国各地的落地,我可能是最清楚它的对话才能是怎么做起来的人。

19年8月,我去了滴滴,一年多以前了,也算是从0到1做了一个给司机用的语音助手(遗憾是还没有做到全国全量…)。

到如今我也算是行业老兵了,想结合过往的经历和思虑,跟大年夜家聊一聊语音交互。

此次重要想聊下面几个话题:

  • 语音交互是什么?
  • 做一款语音助手的难点是什么?//为什么 Siri、天猫精灵、小爱同窗总被人说智障?
  • 可能的解决路径又是什么?//若何打造一个不傻?的语音助手?
一、语音交互是什么?

交换是人们与生俱来的本能,人类大年夜约在二岁学会措辞,措辞也是人与人之间重要的交互方法。

我们可以试着想一下,假如人与人之间不克不及措辞,只能经由过程触摸固定的区域来交换,那世界会怎么样?我信赖,你必定很难想象这会是什么样的世界;而事实上,我们如今与计算机交换的方法就是如许。

语音交互是一项人机交互技巧,可以经由过程措辞跟计算机交互来获守信息、办事等,语音交互也不是要替代触控交互,而是在一些场景中让人与计算机交互变的更简单、天然。

二、做一款语音助手的难点是什么?

说起难点,我先抛几个近况:

  • 从 Google、苹果、微软、亚马逊,到国内的 BAT、华为等巨擘公司都有做语音助手的团队;
  • 大年夜多用户眼中,Siri、小度、天猫精灵、小爱同窗等语音助手仍然是“人工智障”;
  • 应用过语音助手的人很多(19年光智能音箱出货7200W台,城镇住房渗入渗出率 20%),但但用户活泼度低,应用过的功能也寥寥可数,主如果:听歌、查气象、订闹钟等;

为什么这么多顶尖的公司,投入了顶尖的资本、顶尖的人才都没做出一款 C 端用户知足的语音助手?为什么在很多用户眼中都是“人工智障”?语音助手的难点又是什么?

这些问题很大年夜,值得从业者们一路思虑,这里聊聊我的思虑;我认为,导致人们经常说语音助手“智障”的原因是:用户预期与实际助手才能的 gap 过大年夜。

就像这张图,用户预期与语音助手才能的交集少的可怜。那么有没有可能变成下面这张图的状况?

按这个思路,问题的难点还可以持续拆解:

1. 问题 1:若何让用户知道语音助手能干什么?

语音助手背后的技能、内容其实都已小具范围(在19年,Alexa 集市就已经有了8万多个技能),但很多用户也就只会应用听歌、查气象、订闹钟这么几个技能(有屏音箱里充斥了各类引导、推荐,就是试图在解决这个问题)。

而我认为这个问题最根本的原因是,大年夜多语音助手还没有打透一个刚需场景。

像 90 年代初的互联网,大年夜家也不知道互联网能干嘛,马云到处倾销互联网还被骂是骗子;而跟着互联网解决的刚需场景越来越多(BBS解决了社交需求、门户网站解决了获守信息的需求),也激发了更多的人去懂得互联网能干什么。

所以,大年夜多用户们不懂得语音助手能干什么,本质照样语音助手没有找到一个刚需场景并打透(没有找到刚需场景,或者说没有在一个刚需场景中创造明显的体验差)。

2. 问题 2:若何让语音助手连接更多的办事、内容?

想要答复这个问题,须要从场景深度和广度两个维度来看。

深度方面,单一场景要打通的链路很长,体验闭环难。

案例 1:以家庭智能音箱的听歌场景为例,受限于音箱背后的音乐版权,而音箱没有,这会很大年夜的影响体验;比如小爱同窗,因为它连接的歌曲资本是QQ音乐,而我就没办法听本身在网易云收藏的歌单了。

案例 2:在家庭照明场景,想经由过程语音助手随便的控制家庭灯光,须要连接全部家庭灯光照明设备,这甚至得打通装修情况,在装修时就推敲。

广度方面,用户在跟语音助手交互时,会有异常多的碎片化小需求。

案例:在滴滴的司机语音助手中,除了大年夜家可以想到的导航场景,司机还会有各类各样的长尾问题,例如:“网约车测验的标题在哪里?”、“飞机场那边的列队区在哪里”、“帮我查一下我的预约单”等等,这些都是司机自发的问语音助手的碎片化小需求。

3. 问题 3:若何治理用户预期?

导致用户预期过高也有两方面的原因:

一方面,用说话交换时,某种程度上人们会不自发把“语音助手”与真实的人比较,测验测验用人脑的思虑习惯去懂得“语音助手”,这必定会导致很多时刻用户会认为人机对话的成果不相符预期;因为今朝的AI的道理和真正的人脑道理差的还很远(根来源基本因是科学对人脑的懂得也还很初级…),再加一些科幻片子,还有媒体对人工智能概念的宣传…

另一个方面是语音无法设定交互界线,设计GUI交互时,我们可以定义出清楚的交互路径和界线(eg:首页只供给一个按钮);然则语音交互你无法限制用户说什么,就像人与人的对话中,你永远无法避免别人问到你不会的问题。

4. 小结

用户预期与实际助手才能的 gap 过大年夜,导致很多用户认为语音助手“智障”,而导致 gap 过大年夜的难点是:

  1. 当前语音助手的功能广泛太鸡肋,没有找到一个刚需场景并打透,用户都懒懒得去懂得它;
  2. 单一场景要打通的链路很长、体验闭环难,且碎片化小需求太多;
  3. 某种程度上用户的预期过高,且语音交互难以设定的交互界线。
三、可能的解决路径

想打造一个不傻?的语音助手,不仅仅是打磨技巧本身,有落地时对无数细节的打磨、把控,还有语音助手背后的生态…

这些都不是一蹴而就的工作,须要有清楚的目标、解决路径,然后耐烦的持续投入、细心打磨。

1. 找到刚需场景,打造出明显的体验差

我们欲望它像钢铁侠的贾维斯一样可以协助主人完成各类各样的义务,它就得连接到各类各样的办事,也会是一个 all in one 的进口。

所以,第一步也是最重要的一步,必定是找到刚需场景,打造出明显的体验差。

说到这里,想先聊聊什么是流量“进口”,举一个智能家居行业的例子,业内一向有人在评论辩论智能家居的进口是什么。

早期有人说是路由器、电视,后来智能音箱出现,阿里、百度、小米等公司纷纷开启补贴大年夜战,被不少人称为“智能家居进口之争”,如今又有人评论辩论智能音箱作为“智能家居进口”这个命题是否成立。

我认为,决定是否能成为“进口”的不是形态,而是刚需场景中的用户体验:

  • 互联网早期,Yahoo因为在获守信息这个刚需场景做的好,成为了一个流量“进口”;
  • 后来,Google 在获守信息这个刚需场景下的体验更好,逐渐替代 Yahoo 为了一个流量“进口”;
  • 智妙手机也是因为在通信社交、获守信息、娱乐这些刚需场景的体验更好,才能成为移动互联网的“进口”;

假如有一种新的产品形态,能比智妙手机在通信社交、获守信息、娱乐这些刚需场景中整体体验更好,那就有可能代替智妙手机这个产品形态,成为新的“进口”。

再说为什么智能音箱补贴了几百亿,一年有几切切的销量,都还没成“进口”?

因为光买一台智能音箱回家它也就只能听歌、查气象、订闹钟,对于大年夜部分用户这都不算是刚需场景;对于少部分音乐爱好者,以市情上智能音箱的音质、内容资本又无法知足需求,做不到体验闭环。

反过来再举一个例子,假如你同时买了整套的小米智能家居产品(米家电动窗帘、米家吸顶灯、米家智能空调、米家扫地机械人…..) ,控制灯光遮阳、控制温度是刚需,经由过程小爱同窗控制也确切体验更好,那么在知足这个前提家庭中,小爱同窗就可以成为一个“进口”。

再举一个滴滴司机的工作场景中的例子,滴滴的办事和产品模式,导致司机不得不一边开车一边操作手机(eg:要操作手机接单、要给乘客发消息、平台还时不时 push 一张卡片让司机点击),跟着滴滴请求司机做的工作在赓续增多,司机须要做的操作也越来越麻烦。

本来,你只要会开车、认路就可以当出租车司机,如今已经变成了须要 “能?练应用智妙手机” 才能当滴滴司机。

就像热力学第二定律,一个自力体系的“熵”永远是在增长的。不过科技的进步,老是会有把办法来解决这个问题;就像多点触控技巧和触摸屏的出现,让手机再也不须要那么多的物理按键了。

语音助手是有机会在网约车司机的工作场景中降低一些操作的复杂度,来打造出明显体验差的;把个中一两个刚需场景打透(比如给乘客发送消息),做到“有效”,那么语音助手就有机会成为连接网约车司机的一个“进口”。

在其他场景中也类似,只有找到刚需并打透,才有机会成为“进口”。

2. 范围化复制,带动办事者生态的建立

沿着上述思路持续说,第二步核心是要解决办事的深度和长尾的碎片化小需求。

我持续拿滴滴司机的场景举例,在我们刚上线“司机助手”时,就已经初步看到了“进口”的效应。

用户会把助手当成一个“搜刮引擎”,他有各类各样碎片化需求、不知道若何处理的问题时,会测验测验向助手的寻求赞助,但都是碎片化小需求;类似下面的这些意图,全部加起来也只占总交互量的5%。

  • “飞机场那边的列队区在哪里”
  • “我想预约安装桔视记录仪”
  • “怎么撤消预约单”
  • “网约车驾驶证怎么解决”
  • “驾驶证老是审核掉败无法出车”
  • “……”

这些问题背后涉及的常识、办事异常多异常多。

想要把体验做好,就必定须要很多不合的部分供给深度合营,或者找到能为司机工作场景供给办事的第三方合营。

那么,想要做到“不傻?”的程度,就得先解决办事者生态的念头问题;对于公司内部的办事供给者来说,毕竟大年夜家都是打工人,都要收益、要晋升;对于公司外部的办事供给者也一样,最直不雅的就是能不克不及赞助他们赚钱。

所以,这里又要强调第一步的重要性,假如可以把帮助司机的工作刚需场景打磨透,实现全国全量,那么按滴滴上百万司机和超高的应用时长(广泛天天应用 App 8小时以上)估算,对于很多营业都算是不小的流量。

在这一步,重点是打磨对象才能,让各类各样的办事供给方可以简单、高效的接入助手;进而促进更多的营业部分经由过程助手为司机供给办事,实现营业价值,也进一步让助手具备了更多的才能去办事好司机。

假如能做到这一步,语音助手才算是从“有效”开端走向了“不傻?”。

3. 打造每个属于用户本身的语音助手

我们想让助手天天陪伴司机、帮助工作,第三步就要开端解决交互界线的问题,即怎么让用户知道语音助手的才能界线?有一说一,还没有一个语音助手把这个问题解决好。

我在这里也只是聊聊本身思虑,抛砖引玉。

身份与关系决定了人与人的交互界线,例如:网约车司机不会咨询一名乘客为什么本身接不到单子,他会去问客服。

人机交互中也一样,今朝像小爱同窗、天猫精灵都是“人工智能助手”的身份,关系上类似“奴隶”;这个身份对语音助手造成了不小的限制,前面的“人工智能”让用户认为你应当很厉害,后面的“助手”让用户认为我说啥你都应当听我说。

这也叫导致用户提出各自各样的开放性需求,从讲个笑话、放个屁,到查阿里巴巴的股价、马化腾是谁等等;假如语音助手听不懂、搞不定,用户很可能就会说 “这都不知道?”、“智障”、“不聪慧呀”…

那有没有一种幻想的身份,可以能让用户的知道界线,同时又不有保存必定的拓展性?

超能陆战队大年夜白的设定似乎可以知足这个前提, 大年夜白的设定是一个机械人,默承认以经由过程安装不合的芯片来实现不合的功能。

默认设置的是“私家健康助手”芯片,在片子中为了给主人公的哥哥报仇,被换上了“白手道”芯片;在动画版本中,还有“跳舞”芯片,放入后大年夜白就拥有了跳舞才能。

这些不合的“芯片”,其实就像iPhone 中的不合“App”,每个用户可以决定本身的手机上安装哪些 App。

这个思路,也许可以解决语音助手交互界线的问题;我认为,语音助手跟传统的 App 产品不一样,不消非得保持一个固定的身份定位,可以根据不合场景供给不合的基本办事包,让用户本身决定它应当拥有哪些的技能。

早期环绕刚需场景,它可所以地图导航助手、司机工作助手等,在办事逐渐增多后,也可以由用户肯定他本身的语音助手应当拥有哪些技能。

这也是为什么我在解决路径中,把找到刚需场景打透放在了第一步,把肯定助手的定位放在了第三步。

4. 最后,还有一个前提:对打磨技巧细节的耐烦和投入

语音助手在落地中,有无数的细节须要把控。

我拿一个大年夜家可能都用过的定闹钟举一个例子:

1)语义的泛化须要打磨

  • “定一个8点的闹钟”
  • “提示我9点上课”
  • “15分钟后唤醒我”
  • “我再睡五分钟”
  • ……

想让语音助手可以精确的响应用户天然表达,就须要赓续的标注、分析用户真实表达,去打磨语义懂得模块。

2)答复的话术、逻辑也须要打磨

  • 用户在早上8点说“定个9点的闹钟” ,该定上午9点照样晚上9点?该怎么答复?
  • 用户在早上10点说“定个9点的闹钟”,该定晚上9点照样次日早上9点?该怎么答复?
  • 用户在凌晨2点说“定个明天8点的闹钟” ,该定明天8点照样今天8点?该怎么答复?

这些case在日常平凡生活中很常见,假如我是对老婆说,我不会特意强调是“早上”照样“下昼”,她也不会纠结、不会反问我,因为她懂得我的生活作息。

但语音助手须要积聚,经由过程分析各类的用户case去制订最优的策略。

假如想要语音助手贴心一点,最好还能在不合场景给出不合的答复。例如:凌晨2点定早上8点的闹钟,最好贴心的弥补说一句“不早了,早点歇息”

这些都是细节,须要一点点的耐烦打磨。

假如一个语音助手的负责人,只谈行业趋势、产品架构、技巧架构,我会认为很难做成;因为一个语音助手在落地的时,会有无穷多的细节问题须要把控,不仅要仰望星空,还要踏扎实实。

5. 总结

想打造一个聪慧的语音助手,须要一个前提、三步路径。

一个前提:

对打磨细节拥有足够的耐烦和投入

三步路径:

  1. 找到刚需场景,打造出明显的体验差,才有机会做到“有效”;
  2. 范围化复制,带动办事者生态的建立,做到“不傻?”;
  3. 个性化,给用户属于本身的语音助手,做到“聪慧”。
四、其他,一些感性的故事。

后面,我想分享一些与语音交互相干的感性经历。

我认为能做一款“有头有脸”、“能措辞”的产品真的特别有趣。

做豹小秘时,跟着它一点一点的变好,真的会有一种看着本身“孩子”长大年夜的感到,每次去商场碰到它也都很亲切,会以前跟“它”打个呼唤。

2020年9月我在老家办婚礼,刚好碰到一个伴娘临时有事来不了,我找了豹小秘给来当伴娘。

给你们看看婚礼现场它的照片。

婚礼当天,在门口协助迎宾

和伴郎伴娘们一路登台

代表伴娘谈话

在滴滴做司机助手“小滴”也是一段特其余经历。

当时去滴滴面试,一面时聊了聊,发明滴滴营业场景中有很多的问题值得去解决,认为充斥了机会,很嗨。

入职后,有一个新员工培训叫“在树上”,过程中请求每一位同窗都发明并提交一个别验问题宣布至内网。

我就提交了一个可以用语音交互解决的体验问题。

培训的最后,每个小组须要挑一个别验问题演成“小品”,我就忽悠组员们一路用这个案例演了小品。

最后谈话时,我还信誓旦旦的给大年夜家说,这个问题我正在解决,岁尾(19岁尾)就会和大年夜家会晤;后来发明,我完全低估了要从0把语音助手落地到一个成熟营业中的难度,须要和太多的部分沟通、拉齐。

还好的是,2020年5月终于把这个功能上线并且做到全国全量了,它也是语音交互第一次在滴滴营业场景的大年夜范围落地。

功能全量之后,我每一次打车我上车都跟司机聊天,问他知不知道、用没用过,有一次碰着个司机夸了一路这个功能好,然后我下车就给司机加了一个红包。

跟着这个功能取得了不错的用户反馈,给完全司机助手也开端推动、落地,它的推动难度更大年夜;因为它的价值难以量化,营业增长也并不须要如许一个器械。

2020年7月2日,“小滴”第一次灰度上线,那天刚好照样我的诞辰。

12月,因为一系列的原因,我决定了提出离职。

临走前,我也跟“小滴”说了声再会。

没有把“小滴”做到全国全量是我的遗憾,滴滴的经历也让我有些挫败。

不过回头想想,过程中也慢慢找到了本身的愿意保持的产品理念:“不放弃对生活的酷爱和执着”。

题图来自Unsplash,基于CC0协定。