Voice Recognition

语音识别技术就是让智能设备听懂人类的语音。它是一门涉及数字信号处理人工智能语言学数理统计学声学情感学心理学等多学科交叉的科学。这项技术可以提供比如自动客服、自动语音翻译、命令控制、语音验证码等多项应用。近年来,随着人工智能的兴起,语音识别技术在理论和应用方面都取得大突破,开始从实验室走向市场,已逐渐走进我们的日常生活。现在语音识别己用于许多领域,主要包括语音识别听写器、语音寻呼和答疑平台、自主广告平台,智能客服等。

1. 语音识别技术介绍

语音识别作为人机交互的一大热点,主要包含下面四个方面:

  ● 自动语音识别(Automatic Speech Recognition,ASR),让机器听得见

  ● 自然语言理解(Natural Language Understanding,NLU),让机器听得懂

  ● 自然语言生成(Natural Language Generation,NLG),让机器能思考

  ● 文字转语音(Text to Speech,TTS),让机器能说话

​ 语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。目前,模式匹配原理已经被应用于大多数语音识别系统中。如图1是基于模式匹配原理的语音识别系统框图。

https://lddpicture.oss-cn-beijing.aliyuncs.com/picture/image-20200516100437806.png

​ 一般的模式识别包括预处理,特征提取,模式匹配等基本模块。如图所示首先对输入语音进行预处理,其中预处理包括分帧,加窗,预加重等。其次是特征提取,因此选择合适的特征参数尤为重要。常用的特征参数包括:基音周期,共振峰,短时平均能量或幅度,线性预测系数(LPC),感知加权预测系数(PLP),短时平均过零率,线性预测倒谱系数(LPCC),自相关函数,梅尔倒谱系数(MFCC),小波变换系数,经验模态分解系数(EMD),伽马通滤波器系数(GFCC)等。在进行实际识别时,要对测试语音按训练过程产生模板,最后根据失真判决准则进行识别。常用的失真判决准则有欧式距离,协方差矩阵与贝叶斯距离等。

2. 相关技术介绍

从语音识别算法的发展来看,语音识别技术主要分为三大类:

  • 第一类是模型匹配法,包括矢量量化(VQ)动态时间规整(DTW)等;
  • 第二类是概率统计方法,包括高斯混合模型(GMM)隐马尔科夫模型(HMM)等;
  • 第三类是辨别器分类方法,如支持向量机(SVM) 、人工神经网络(ANN)和深度神经网络(DNN)等以及多种组合方法。

2.1. DTW 模板匹配

应用场景

https://lddpicture.oss-cn-beijing.aliyuncs.com/picture/image-20200516101518518.png

智能语音识别技术可以应用在很多领域中,如果聚焦到家庭,当前的应用主要集中在智慧家庭。通过支持语音识别的智能语音设备,如智能音箱、家庭媒体网关、机顶盒等,我们可以绕过复杂的按键、文字输入搜索等操作,以语音控制的方式实现很多事情:

  ● 早上醒来,我们不再拿手机看时间,而是可以直接对着空气问,“现在几点了?”“今天天气怎样?”“外面是否在下雨?”等等,家中的智能语音设备将会直接给你答案。

  ● 获取新闻,安排日程。通过智能语音设备,可以收看或收听新闻,也可以问机顶盒“我今天的日程安排是什么?”,让您轻松开启一天的工作和生活。

  ● 娱乐时间,当我们想看电视时,可以通过内置了智能语音功能的家庭媒体设备(比如Android TV机顶盒),用语音的方式选择想看、想听的内容,比如播放Youtube中的短片或音乐。如果您的设备中有HBO Now(HBO的OTT APP)、Netflix、Youtube或一些音乐类的APP,我们可以通过说出具体节目的名字来搜索到相应内容;如果不知道具体的名字,可以通过“请找出关于***的电影”,或者“听点音乐”等模糊的输入线索,找出相关的内容。

  ● 在语音AI出现之前,在电视上购物是非常麻烦的,有了AI语音,只要对着话筒(遥控器、远程Mic或移动设备上的APP)说出想要的产品,就能快速便捷地找到心仪的产品。

  ● 对智能家居的控制,比如对电视机的控制,通过AI语音,可以轻松地实现开机、关机、调高音量、调低音量等操作,还可以实现对家庭智能设备如灯泡、热水器、电饭煲、电动窗帘等的控制。

3. 案例

3.1. 搜狗语音

https://lddpicture.oss-cn-beijing.aliyuncs.com/picture/image-20200410214110104.png

https://lddpicture.oss-cn-beijing.aliyuncs.com/picture/image-20200715165723248.png

随着搜狗语音识别、多模态识别(语音+唇语)、OCR、机器翻译、语音合成、图像生成等应用场景和需求的扩展,它们对算力资源的需求是根据不同任务而定的。

https://lddpicture.oss-cn-beijing.aliyuncs.com/picture/image-20200715165737439.png

0%