VoiceResearch
目录
1. 语音激活检测 (VAD)
近场识别场景
: 比如使用语音输入法时,用户可以用手按着语音按键说话,结束之后松开,由于近场情况下信噪比(signal to noise ratio, SNR))比较高,信号清晰;远场识别场景
: 噪声比较大,SNR下降剧烈, 使用 VAD 识别人声;- 精确度高的VAD会提取基于能量的特征、频域特征、倒谱特征、谐波特征、长时信息特征等多个特征进行判断[1]。最后我们再根据阈值进行比较,或者使用统计的方法和机器学习的方法,得出是语音信号还是非语音信号的结论。
2. 语音识别与分析
语音唤醒
(VT): 远场识别时,需要在VAD检测到人声之后,进行语音唤醒,例如:Siri声纹识别与 音频事件检测
: 研究文本相关/无关声纹识别、动态密码、近场/远场环境声纹识别、性别年龄画像、大规模声纹检索、语种方言识别、音频指纹检索、音频事件分析等。情感识别
语音合成
:研究高音质、高表现力的语音合成技术及个性化语音合成,说话人转换技术,主要应用于语音交互、信息播报和篇章朗读等场景。- 数字水印:一种基于内容的、非密码机制的计算机信息隐藏技术。 本实验室主要研究
音频的篡改检测与恢复以及水印信息的检测
,在篡改检测与恢复方面,我们初步研究在音频信号的小波域嵌入原始音频的特征信息, 在受到恶意篡改后,通过提取水印信息,利用压缩感知的原理尽可能准确、全面地恢复出原始音频信息。
3. 麦克分阵列
噪音、混响、人声干扰、回声等各种问题;远场环境,要求拾音麦克风的灵敏度高,这样才能在较远的距离下获得有效的音频振幅,同时近场环境下又不能爆音(振幅超过最大量化精度)
- 语音增强 (Speech Enhancement): 当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中
提取出纯净语音
的过程。 - **去混响(Dereverberation):**声波在室内传播时,要被墙壁、天花板、地板等障碍物形成反射声,并和直达声形成叠加,这种现象称为混响。
- 声源定位(Source Localization): 使用麦克风阵列来计算
目标说话人的角度和距离
,从而实现对目标说话人的跟踪以及后续的语音定向拾取
。- 语音分离:多人多方对话语音分离,内容分析理解
- **声学及信号处理:**研究声学器件、结构和硬件方案设计,基于物理建模和机器学习的声源定位、语音增强和分离技术、以及多模态和分布式信号处理等。
4. 端云一体交互平台
综合应用声学、信号、唤醒、识别、理解、对话、合成等原子能力,构建全链路、跨平台、低成本、高可复制性、端云一体的分布式语音交互平台,帮助第三方具备可扩展定制化的场景能力。
5. 相关实验室
- 阿里达摩院:https://damo.alibaba.com/labs/speech?lang=zh
- 中国科学技术大学语音及语言信息处理国家工程实验室: http://nelslip.ustc.edu.cn/;实验室研究方向:统计与多传感器信号处理、图像分析与处理、生物医学信号处理