Voice Recognition

liudongdong1 收录于 Categories AIOT

2020-05-16 约 1709 字预计阅读 4 分钟 - 次阅读

https://lddpicture.oss-cn-beijing.aliyuncs.com/picture/voice-recognition-speech-detect-deep-260nw-694633963.webp

语音识别技术就是让智能设备听懂人类的语音。它是一门涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等多学科交叉的科学。这项技术可以提供比如自动客服、自动语音翻译、命令控制、语音验证码等多项应用。近年来，随着人工智能的兴起，语音识别技术在理论和应用方面都取得大突破，开始从实验室走向市场，已逐渐走进我们的日常生活。现在语音识别己用于许多领域，主要包括语音识别听写器、语音寻呼和答疑平台、自主广告平台，智能客服等。

1. 语音识别技术介绍

语音识别作为人机交互的一大热点，主要包含下面四个方面：

　　● 自动语音识别（Automatic Speech Recognition，ASR），让机器听得见；

　　● 自然语言理解（Natural Language Understanding，NLU），让机器听得懂；

　　● 自然语言生成（Natural Language Generation，NLG），让机器能思考；

　　● 文字转语音（Text to Speech，TTS），让机器能说话。

语音识别的本质是一种基于语音特征参数的模式识别，即通过学习，系统能够把输入的语音按一定模式进行分类，进而依据判定准则找出最佳匹配结果。目前，模式匹配原理已经被应用于大多数语音识别系统中。如图1是基于模式匹配原理的语音识别系统框图。

一般的模式识别包括预处理，特征提取，模式匹配等基本模块。如图所示首先对输入语音进行预处理，其中预处理包括分帧，加窗，预加重等。其次是特征提取，因此选择合适的特征参数尤为重要。常用的特征参数包括：基音周期，共振峰，短时平均能量或幅度，线性预测系数（LPC），感知加权预测系数（PLP），短时平均过零率，线性预测倒谱系数（LPCC），自相关函数，梅尔倒谱系数（MFCC），小波变换系数，经验模态分解系数（EMD），伽马通滤波器系数（GFCC）等。在进行实际识别时，要对测试语音按训练过程产生模板，最后根据失真判决准则进行识别。常用的失真判决准则有欧式距离，协方差矩阵与贝叶斯距离等。

2. 相关技术介绍

从语音识别算法的发展来看，语音识别技术主要分为三大类：

第一类是模型匹配法，包括矢量量化(VQ) 、动态时间规整(DTW)等；
第二类是概率统计方法，包括高斯混合模型(GMM) 、隐马尔科夫模型(HMM)等；
第三类是辨别器分类方法，如支持向量机(SVM) 、人工神经网络(ANN)和深度神经网络（DNN）等以及多种组合方法。

2.1. DTW 模板匹配

应用场景

智能语音识别技术可以应用在很多领域中，如果聚焦到家庭，当前的应用主要集中在智慧家庭。通过支持语音识别的智能语音设备，如智能音箱、家庭媒体网关、机顶盒等，我们可以绕过复杂的按键、文字输入搜索等操作，以语音控制的方式实现很多事情：

　　● 早上醒来，我们不再拿手机看时间，而是可以直接对着空气问，“现在几点了？”“今天天气怎样？”“外面是否在下雨？”等等，家中的智能语音设备将会直接给你答案。

　　● 获取新闻，安排日程。通过智能语音设备，可以收看或收听新闻，也可以问机顶盒“我今天的日程安排是什么？”，让您轻松开启一天的工作和生活。

　　● 娱乐时间，当我们想看电视时，可以通过内置了智能语音功能的家庭媒体设备（比如Android TV机顶盒），用语音的方式选择想看、想听的内容，比如播放Youtube中的短片或音乐。如果您的设备中有HBO Now（HBO的OTT APP）、Netflix、Youtube或一些音乐类的APP，我们可以通过说出具体节目的名字来搜索到相应内容；如果不知道具体的名字，可以通过“请找出关于***的电影”，或者“听点音乐”等模糊的输入线索，找出相关的内容。

　　● 在语音AI出现之前，在电视上购物是非常麻烦的，有了AI语音，只要对着话筒（遥控器、远程Mic或移动设备上的APP）说出想要的产品，就能快速便捷地找到心仪的产品。

　　● 对智能家居的控制，比如对电视机的控制，通过AI语音，可以轻松地实现开机、关机、调高音量、调低音量等操作，还可以实现对家庭智能设备如灯泡、热水器、电饭煲、电动窗帘等的控制。

3. 案例

3.1. 搜狗语音

随着搜狗语音识别、多模态识别（语音+唇语）、OCR、机器翻译、语音合成、图像生成等应用场景和需求的扩展，它们对算力资源的需求是根据不同任务而定的。