VoiceResearch - DAY By DAY

liudongdong1 收录于 Categories AIOT

2022-01-19 约 1158 字预计阅读 3 分钟 - 次阅读

https://cdn.pixabay.com/photo/2019/03/27/15/24/animal-4085255__340.jpg

目录

1. 语音激活检测（VAD)

近场识别场景: 比如使用语音输入法时，用户可以用手按着语音按键说话，结束之后松开，由于近场情况下信噪比（signal to noise ratio, SNR））比较高，信号清晰;
远场识别场景: 噪声比较大，SNR下降剧烈, 使用 VAD 识别人声;
精确度高的VAD会提取基于能量的特征、频域特征、倒谱特征、谐波特征、长时信息特征等多个特征进行判断[1]。最后我们再根据阈值进行比较，或者使用统计的方法和机器学习的方法，得出是语音信号还是非语音信号的结论。

2. 语音识别与分析

语音唤醒 (VT): 远场识别时，需要在VAD检测到人声之后，进行语音唤醒，例如：Siri
声纹识别与音频事件检测：研究文本相关/无关声纹识别、动态密码、近场/远场环境声纹识别、性别年龄画像、大规模声纹检索、语种方言识别、音频指纹检索、音频事件分析等。
情感识别
语音合成：研究高音质、高表现力的语音合成技术及个性化语音合成，说话人转换技术，主要应用于语音交互、信息播报和篇章朗读等场景。
数字水印：一种基于内容的、非密码机制的计算机信息隐藏技术。本实验室主要研究音频的篡改检测与恢复以及水印信息的检测，在篡改检测与恢复方面，我们初步研究在音频信号的小波域嵌入原始音频的特征信息，在受到恶意篡改后，通过提取水印信息，利用压缩感知的原理尽可能准确、全面地恢复出原始音频信息。

3. 麦克分阵列

噪音、混响、人声干扰、回声等各种问题；远场环境，要求拾音麦克风的灵敏度高，这样才能在较远的距离下获得有效的音频振幅，同时近场环境下又不能爆音（振幅超过最大量化精度）

语音增强 (Speech Enhancement): 当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后，从含噪声的语音信号中提取出纯净语音的过程。
**去混响（Dereverberation)：**声波在室内传播时，要被墙壁、天花板、地板等障碍物形成反射声，并和直达声形成叠加，这种现象称为混响。
声源定位（Source Localization): 使用麦克风阵列来计算目标说话人的角度和距离，从而实现对目标说话人的跟踪以及后续的语音定向拾取。
- 语音分离：多人多方对话语音分离，内容分析理解
**声学及信号处理：**研究声学器件、结构和硬件方案设计，基于物理建模和机器学习的声源定位、语音增强和分离技术、以及多模态和分布式信号处理等。

4. 端云一体交互平台

综合应用声学、信号、唤醒、识别、理解、对话、合成等原子能力，构建全链路、跨平台、低成本、高可复制性、端云一体的分布式语音交互平台，帮助第三方具备可扩展定制化的场景能力。

5. 相关实验室

阿里达摩院：https://damo.alibaba.com/labs/speech?lang=zh
中国科学技术大学语音及语言信息处理国家工程实验室： http://nelslip.ustc.edu.cn/；实验室研究方向：统计与多传感器信号处理、图像分析与处理、生物医学信号处理