科大讯飞副总裁章继东:讯飞输入法的十年技术变革史

经济不雅察网 记者 田进 从讯飞输入法出生到日语音交互次数跨越10亿次,科大年夜讯飞花了十年。

10月20日,在讯飞输入法10周年沙龙活动上,科大年夜讯飞副总裁章继东介绍了讯飞输入法以前十年产生的技巧变革。与此同时,章继东宣布了讯飞输入法10.0版本。据懂得,该版本搭载了“动态自适应编解码语音辨认引擎”,新增的唇形帮助输入,可以或许进步嘈杂情况及近距离多人措辞的辨认后果。另一方面优化了范畴词辨认,可更精准的匹配游戏、医疗、旅游、购物等不合的场景词汇。

对于下一个十年,科大年夜讯飞方面表示,讯飞输入法将发力5G和AIoT范畴,将来的输入法不仅仅是文字、神情、符号的输入对象,而是供给给用于各类设备终端、全链条交互的智能办事。

以下为经济不雅察网整顿的章继东关于讯飞输入法十年成长史的演讲及媒体采访精简文字:

1999年,讯飞由在校大年夜学生创业成立,当时中国的智能语音技巧全部控制在国外企业手上,如IBM、微软等。1999年,李开复师长教师创建了微软亚洲研究院,当时我们董事长刘庆峰正在中科大年夜读博,李开复师长教师邀请我们董事长去那边工作,但我们董事长拒绝了,他欲望中国人的技巧必定要控制在中国人的手上。

科大年夜讯飞作为中国第一个由在校大年夜学生创业的上市公司,2010年10月22号,我们宣布了讯飞开放平台,2017年开放平台成为中国首批4家国度级人工智能立异平台,如今已有230多万开辟者在我们整体生态里。2010年10月28号,我们正式宣布了讯飞输入法。

当时讯飞输入法作为我们开放平台的一个智能语音示范应用,确切是一个比较小的产品,甚至于在互联网上都没有形成必定的传播。

这时,核心技巧如何促进家当的成长?我认为有三点特别重要。第一是懂得深度应用收集为主的算法;第二是大年夜数据;第三是涟漪效应,须要赓续的迭代和优化。经由过程这三点,产品才越来越好。我们输入法在早期精确率是比较弱的,但如今精确率能达到百分之98%,甚至在很好的情况下能达到99%,这都是来自于科技的成长。

2010年10月28号宣布讯飞输入法后,这成为第一个中文语音输入法。2011年7月4日,谷歌输入法宣布,然后QQ输入法、搜狗输入法才接连出生。

很多的技巧是看不见的,但我们信赖技巧会改变世界。我们每一次的技巧改革都邑放在我们的产品上。比如说我们最早在2012年,我们就把全球首个中文云识其余DNA,即当时讲的深度神经收集,上线到我们的产品中,使得语音辨认率一会儿晋升80%。

2010年,我们就曾将GMM-hmm-隐马尔可夫模型应用到语音辨认体系中:应用WFST解码器,进步复杂的说话模型,辨认率达到70%;2011年,应用BN(bottom neck)辨认模型,经由过程神经收集提取音素特点,晋升辨认精确率;2012年,全球首个中文语音辨认DNN体系上线,辨认率相对晋升35%,精确率晋升至80%;2013年,应用SDT-DNN和基于DNN的VAD模型、深度进修离线版本,语音辨认精确率晋升至85%,实现离线语音辨认;2014年,应用UB-LSTM,语音辨认率进步至95%。

2015年,我们应用无监督的speak code技巧 ,实现了声学个性化辨认。因为除了说话模型之外,还有声学模型,即每小我的声音特点不一样,可以基于我们每小我的声音个性化来进行分辨的技巧,实现实际效力的晋升。2016年,将DFCNN应用于语音辨认,语音辨认精确率达97%,离线、噪声、远场辨认率明显晋升。

2017年,我们应用Cache based Fast Adaptation技巧,立异融合个性化语音和语音模型,实现智适应语音辨认;2018年,应用HybridCNN算法,经由过程构造优化大年夜幅晋升并发路数,语音辨认精确率冲破98%;2019年,基于留意力机制的Encode-Deconde模型应用,实现中英文免切换语音辨认;2020年,动态自适应编解码语音辨认引擎 ,多模态输入和范畴个性化辨认。

在过往10年傍边,我们的产品获得了很多用户的承认,比如说我们的输入法日语音交互次数已经达到10亿次,累计办事设备数超5亿,语音用户占比超70%。2020年2月,经由10天的紧急技巧攻关,讯飞输入法上线武汉话转通俗话功能,经由过程讯飞输入法上线开放给广大年夜用户,助力医患沟通,在短短的的时光里,累计办事人数达3万。