Voice Recognition
语音识别技术就是让智能设备听懂人类的语音。它是一门涉及
数字信号处理
、人工智能
、语言学
、数理统计学
、声学
、情感学
及心理学
等多学科交叉的科学。这项技术可以提供比如自动客服、自动语音翻译、命令控制、语音验证码等多项应用。近年来,随着人工智能的兴起,语音识别技术在理论和应用方面都取得大突破,开始从实验室走向市场,已逐渐走进我们的日常生活。现在语音识别己用于许多领域,主要包括语音识别听写器、语音寻呼和答疑平台、自主广告平台,智能客服等。
1. 语音识别技术介绍
语音识别作为人机交互的一大热点,主要包含下面四个方面:
● 自动语音识别(Automatic Speech Recognition,ASR),让机器听得见
;
● 自然语言理解(Natural Language Understanding,NLU),让机器听得懂
;
● 自然语言生成(Natural Language Generation,NLG),让机器能思考
;
● 文字转语音(Text to Speech,TTS),让机器能说话
。
语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。目前,模式匹配原理已经被应用于大多数语音识别系统中。如图1是基于模式匹配原理的语音识别系统框图。
一般的模式识别包括预处理,特征提取,模式匹配等基本模块。如图所示首先对输入语音进行预处理,其中预处理包括分帧,加窗,预加重
等。其次是特征提取,因此选择合适的特征参数尤为重要。常用的特征参数包括:基音周期,共振峰,短时平均能量或幅度,线性预测系数(LPC),感知加权预测系数(PLP),短时平均过零率,线性预测倒谱系数(LPCC),自相关函数,梅尔倒谱系数(MFCC),小波变换系数,经验模态分解系数(EMD),伽马通滤波器系数(GFCC)
等。在进行实际识别时,要对测试语音按训练过程产生模板,最后根据失真判决准则进行识别。常用的失真判决准则有欧式距离,协方差矩阵与贝叶斯距离等。
2. 相关技术介绍
从语音识别算法的发展来看,语音识别技术主要分为三大类:
- 第一类是
模型匹配
法,包括矢量量化(VQ)
、动态时间规整(DTW)
等; - 第二类是
概率统计
方法,包括高斯混合模型(GMM)
、隐马尔科夫模型(HMM)
等; - 第三类是
辨别器分类
方法,如支持向量机(SVM) 、人工神经网络(ANN)和深度神经网络(DNN)等以及多种组合方法。
2.1. DTW 模板匹配
应用场景
智能语音识别技术可以应用在很多领域中,如果聚焦到家庭,当前的应用主要集中在智慧家庭。通过支持语音识别的智能语音设备,如智能音箱、家庭媒体网关、机顶盒等
,我们可以绕过复杂的按键、文字输入搜索等操作,以语音控制的方式实现很多事情:
● 早上醒来,我们不再拿手机看时间,而是可以直接对着空气问,“现在几点了?”“今天天气怎样?”“外面是否在下雨?”等等,家中的智能语音设备将会直接给你答案。
● 获取新闻,安排日程。通过智能语音设备,可以收看或收听新闻,也可以问机顶盒“我今天的日程安排是什么?”,让您轻松开启一天的工作和生活。
● 娱乐时间,当我们想看电视时,可以通过内置了智能语音功能的家庭媒体设备(比如Android TV机顶盒),用语音的方式选择想看、想听的内容,比如播放Youtube中的短片或音乐。如果您的设备中有HBO Now(HBO的OTT APP)、Netflix、Youtube或一些音乐类的APP,我们可以通过说出具体节目的名字来搜索到相应内容;如果不知道具体的名字,可以通过“请找出关于***的电影”,或者“听点音乐”等模糊的输入线索,找出相关的内容。
● 在语音AI出现之前,在电视上购物是非常麻烦的,有了AI语音,只要对着话筒(遥控器、远程Mic或移动设备上的APP)说出想要的产品,就能快速便捷地找到心仪的产品。
● 对智能家居的控制,比如对电视机的控制,通过AI语音,可以轻松地实现开机、关机、调高音量、调低音量等操作,还可以实现对家庭智能设备如灯泡、热水器、电饭煲、电动窗帘等的控制。
3. 案例
3.1. 搜狗语音
随着搜狗语音识别、多模态识别(语音+唇语)、OCR、机器翻译、语音合成、图像生成等应用场景和需求的扩展,它们对算力资源的需求是根据不同任务而定的。