与计算机视觉让机器“看懂”世界相对应,语音处理是让机器“听懂”和“说出”人类语言的技术。它是人机交互中最自然、最重要的桥梁之一。它研究如何让计算机能够识别、理解、合成和处理人类语音的技术。它的最终目标是实现人与机器之间无缝的语音交流。
语音处理案例
| 编号 | 标题 | AI问题 | 数据集价值 | 解决方案 | 文件 |
|---|---|---|---|---|---|
| 1 | 科大讯飞2020婴儿啼哭声数据集和识别 | 语音等多模态识别 | 判别婴儿啼哭声所传递的信息 | 音乐信息检索(MIR)和语音处理librosa、Tensorflow框架 | AiS-NLP-Snd-iFLYTEK2020-Baby-Crying-Recognition-700MB |
| 2 | CCF-BDCI-2020-通用音频分类 | 语音等多模态识别 | 数据集涵盖30种不同音频,已分类训练集文件总数:57,886个。测试集文件总数:6,835个。支持音频分类。 | 音乐信息检索(MIR)和语音处理librosa、LightGBM框架 | AiS-NLP-Snd-CCF-BDCI-2020-General-Audio-Classification-1.9GB |
| 3 | RAVDESS-2018语音情感识别数据集 | 语音等多模态识别 | 支持语音情感识别研究 | — | AiS-NLP-Snd-RAVDESS2018-Emotion-Speech-80MB |
| 4 | GTzan音乐流派数据集(2002)和分类样例 | 语音等多模态识别 | GTzan数据集成为了音乐流派分类研究的标准数据集,许多基于机器学习和深度学习的音频分类研究都使用这个数据集进行验证。 | 音频特征提取与学习 | AiS-NLP-Media-Music-Genre-GTzan-2002-1.4GB |
| 5 | BirdCLEF2023鸟类声音识别数据集 | 语音等多模态识别 | 通过音频数据识别鸟类物种,推动自动鸟类监测技术的发展,应用于生态保护、生物多样性研究等场景。 | — | AiS-NLP-Animal-Snd-BirdCLEF2023-5GB |