游子吟古诗,谷歌手机输入法能够离线语音识别了!模型精度远超经典CTC,包头

频道:最近大事件 日期: 浏览:194

选自谷歌博鲛人皇后客

作者:Johan Schalkwyk

今日,谷歌发布了一游子吟古诗,谷歌手机输入法可以离线语音辨认了!模型精度远超经典CTC,包头个端到端的移动端全神经语音辨认器,来处理 Gboard 中的语音输入。该新式语音辨认器可内置在手机设备中,离线状况时依然可用。更重要的是,它可以完成字符级实时输出,对用户的语音输入供给快速及时的呼应。

2012 年,在深度学习技术的协助下,研讨有了极大开展,许多产品开端选用这项技术,如谷歌的语音查找。这也敞开了该范畴的革新:之后每一年都会呈现进一步进步语音辨认质量的新架构,如深度神经网络、、、等等。但是,推迟依然是重中之重:主动语音帮手对恳求可以供给快速及时的反响,会让人感觉更有禾念读什么协助游子吟古诗,谷歌手机输入法可以离线语音辨认了!模型精度远超经典CTC,包头。

今日,谷歌发韦小宝之娇妻成群布了一个端到端的移动端全神经语音辨认器,来处理 Gboard 中的语音输入。在相关论文《Strea胶冻样类芽孢杆菌ming End-to-End Speech Recognition for Mobile Devices》中,谷歌研讨者展现了一个运用 RNN transducer (RNN-T) 技术练习的模型,它十分紧凑,因而可以内置在手机设备中。这意味着不再有网络推迟或 spottiness,新的语音辨认器一向可用,即使是离线状况也可运用。该模型错爱邪魅总裁以字符级运转,因而只需用户说话,它就会按字符输出单词,就像有人在你说话的时分实时打字相同。

小团圆刀豆
游子吟古诗,谷歌手机输入法可以离线语音辨认了!模型精度远超经典CTC,包头

该视频在辨认相同的语音语句时将效劳器端语音辨认器(左边面板)与新式移动端辨认器(右侧面板)进行比照。GIF 来历:Akshay Kannan 和 Elnaz Sarbar

语音辨认前史

一向以来,语音辨认系统包含多个组件:将音频片段(一般为 10 毫秒帧)映射到音素上的声学模型、将各音素结合在一起构成单词的发音模型,以及游子吟古诗,谷歌手机输入法可以离线语音辨认了!模型精度远超经典CTC,包头表达给定短语似然的言语模型。在前期语音辨认系统中,这些组件坚持独立优化。

2014 年左右,研讨人员开端侧重练习单一神经网络,直接将输入的音频波形映射到输出语句上。这种序列到序列的办法依据给定音频特征序列生成单词或字素序列,然后学习模型,这促进了「依据留意力」和「倾听-留意-拼写」(liecexlsten-attend-spell)模型的开展。尽管这些模型可以极大地保证精确性,但它们一般需求查看整个输入序列,并且在输入的一起无法完成输出,而这又是实时语音转录的必要特征。

与此一起,一种名为 connectionist temporal classification(CTC)的自主技术现已协助出产级辨认器将本身推迟折半。事实证明,这对创立 RNN-T 架构(最新发布版别选用的架构)来说是很重要的一步,RNN-T 可以看作是 CTC 技术的泛化。

RNN transducer

RNN-T 是一种不运用留意力机制的序列性保健品到序列(sequence-to-sequence)模型。大部分序列到序列模型一般需求处理整个输入序列(在语音辨认中即波形)然后生成输出(语句),而 RNN-T 不相同,它接连处理输入样本,生成输出信号,这十分适宜语音听写。在谷歌的完成中,输出信号是字母表中的字符。跟着用户说话,RNN-T 辨认器逐一输出字符,且在适宜的当地加上空格。在这个过程中,该辨认器还具有反应循环(feedback loop),将模型猜测的信号再输入到模型中,以猜测下一个信号,如下图所示:

RNN-T 图示,输入语音样本为 x,猜测信号为 y。

如上所示,RNN-T 通过猜测网络(如 y_u-1)将猜测信号(Softmax 层的输出)回来至模型,以保证猜测成果依据当时语音样本和之前的输出得出。猜测网络和编码器网络是 LSTM RNN,联合模型优仕音乐网是前馈网络。猜测网络由 2 个 LSTM 层组成,每个层包含 2048 个单元,以及一个 640 维的映射层。编码器网络有 8 个 LSTM 层。

高效练习此类模型现已十分困难,而在运用谷歌新式练习技术后(该技术将错词率降低了 5%,详巴洛克防地见论文《MINIMUM WORD ERROR RATE TRAINING FOR AT药香如蝶TENTION-BASED剑三大玩家 SEQUENCE-TO-SEQUENCE MODELS》),练习变得愈加核算密布。为此,谷歌开发了并行完成,这样 RNN-T 丢失函数就可以在谷歌的高性能云 TPU v2 硬件上大批量高效运转。而这使练习速度完成了 3 倍加快。

离线辨认

在传统的语音辨认引擎中,上述的声学、发音和言语模型被「组合」成一个大型的查找图。该查找图sw168的边是用语音单元及其概率来符号的。当语音波形被输入给辨认器时,「解码器」会在该图中查找给定输入信号的最大似然途径,并读取该途径选用的单词序列。一般,解码器假定底层模型的有限状况转换器(FST)表明。但是,尽管有杂乱的解码技术,查找图依然很大,对谷歌的出产模型来说差不多是 2GB。因而该技术无法轻易地在移动手机上布置,而是需求游子吟古诗,谷歌手机输入法可以离线语音辨认了!模型精度远超经典CTC,包头在线衔接才干正常作业。

为了进步语音辨认的有用性,谷歌通过直接在设备上布置新模型,来防止通讯网络的推迟和固有的不可靠性。所以,其端到端办法不需求在大型解码器图上进行查找。相反,mu5350解码包含通过单个神经网络进行集束查找(beam search)。谷歌练习的 RNN-T 模型的精确率可以比美依据效劳器的传统模型,但巨细只要 450MB,本质上更智能地运用参数和更密布地打包信息。但即使是对现在的智能手机来说,450MB 也是不小的容量了,而在如此大的网络上传达信号会有些慢。

谷歌运用其在 2016 年开发的参数量化和混合核技术来进一步缩小模型体积,然后运用 TensorFlow Lite 库中的模型优化工fantasyhd具包使其揭露可用。模型量化对练习好的浮点模马喆新浪博客型供给了 4 倍的紧缩,完成了 4 倍的运转时加快,因而 RNN-T 在单核上的运转速度比实时语音要快。通过紧缩后,终究模型只要 80MB 巨细。

谷歌发布的这一新式全神经移动端 Gboard 语音辨认器将首要用于一切运用美式英语的 Pixel 游子吟古诗,谷歌手机输入法可以离线语音辨认了!模型精度远超经典CTC,包头手机。谷歌期望可以将这项技术应用到更多言语和更多应用范畴。

更为遍及的语音输入

百度输入法 AI 探究版」,其默以为全语音输入办法。假如不评论运用场景,现在它的语音输入确真实精确度和速度上现已到达十分好的作用,包含中英稠浊、方言和其它语种等。与谷歌重视移动端揣度不同,百度的语音辨认更重视在线的实时揣度,他们提出了一种名为「流式多级的切断留意力(SMLTA)」模型。

SMLTA 模型最中心的概念是运用 CTC 模型的尖峰对接连音频流做切断,然后在每个切断的小语音片段上进行留意力建模。这种模型运用了切断多级留意力对长句建模的优势,一起也处理了 CTC 模型的刺进或删去过错对留意力模型的影响。此外,它选用的是一种部分留意力机制,因而能做到实时在线揣度。

百度的 SMLTA 首要用于在线语音辨认,但通过对 Deep Peak 2 模型的许多工程优化,它也能供给离线语音辨认。机器之心发现百度输入法 AI 探究版的 APP 包(IOS)有 89.6MB,假如运用离线语音辨认,需求额定下载一个 25MB 巨细的包。

论文:Streaming End-to-end Speech Recognition For Mobile Devices

论文地址:https://arxiv.org/ab游子吟古诗,谷歌手机输入法可以离线语音辨认了!模型精度远超经典CTC,包头s/1811.06621

摘要:依据给定输入语音直接猜测输出字符序列的端到端(E2E)模型对移动端语音爸爸不要射辨认来说是不错的挑选。但布置 E2E 模型的应战也不少:为了应用到实践中,此类模型有必要对语音进行流式的实时解码;它们有必要稳健地支撑长尾运用事例;它们有必要可以运用用户特定的上下文(如联络人列表);此外,它们有必要要十分精确。在本文中,咱们用循环神经网络转换器(RNN transducer)构建了 E2E 语音辨认器。通过实验评价,咱们发现在许多评价项目中,该办法在推迟和精确率方面远超依据 CTC 的传统模型。

原文地址:https://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html

本文为机器之心编译,转载请联络本大众号取得授权。

赵得三 谷歌 开发 技术
伟峰制刷厂 声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。
热门
最新
推荐
标签