摘要:
合集:AI案例-NLP-零售业
AI问题:语音等多模态识别
数据集:RAVDESS2018语音情感识别数据集
数据集价值:支持语音情感识别研究
一、问题描述
RAVDESS(Ryerson Audio-Visual Database of Emotional Speech and Song)是一个广泛用于语音情感识别研究的数据集。RAVDESS数据集是瑞尔森大学(Ryerson University)开发的一个广泛用于语音情感识别研究的数据集。RAVDESS数据集的发布时间是2018年。
价值
- 研究应用:RAVDESS数据集在语音情感识别领域具有重要价值,它被广泛用于研究和开发情感识别模型,特别是在性别差异对情感识别影响的研究中。
- 算法评估:作为一个标准数据集,RAVDESS用于评估和比较不同的语音情感识别算法和模型的性能。
- 性别研究:数据集提供了均衡的男女声音样本,有助于研究性别如何影响语音情感识别的准确性。
RAVDESS数据集不仅为语音情感识别研究提供了丰富的资源,还促进了相关技术在医疗、教育和人机交互等领域的应用和发展。
二、数据集内容
RAVDESS(Ryerson Audio-Visual Database of Emotional Speech and Song)情感语音数据包含1440个文件:每位演员60次试音 x 24位演员 = 1440次。RAVDESS 包含24位专业演员(12位女性,12位男性),用中性的北美口音演唱两个词汇匹配的陈述句。语音情感包括平静、快乐、悲伤、生气、恐惧、惊讶和厌恶的表达。每种表达都以两种情感强度(正常、强烈)进行表达,还有一个额外的中性表达。
数据结构
目录名约定:Actor_01~24,代表24位专业演员。
文件命名约定:
每个1440个文件都有唯一的文件名。文件名由7个部分的数字标识符组成(例如,03-01-06-01-02-01-12.wav)。这些标识符定义了语音的特征:
对文件名使用分隔符分割后的标识符依次代表:
1、情感类型(01 = 全视听-AV,02 = 仅视频,03 = 仅音频)。
2、声音通道(01 = 说话,02 = 歌唱)。
3、情感类别(01 = 中性,02 = 平静,03 = 快乐,04 = 悲伤,05 = 生气,06 = 恐惧,07 = 厌恶,08 = 惊讶)。
4、情感强度(01 = 正常,02 = 强烈)。注意:“中性”情感没有强烈的强度。
5、陈述句(01 = “有孩子在门口说话”,02 = “有狗在门口坐着”)。
6、重复次数(01 = 第一次重复,02 = 第二次重复)。
7、演员(01到24。奇数演员是男性,偶数演员是女性)。
以文件名03-01-06-01-02-01-12.wav为例,代表:仅音频(03)说话(01)恐惧(06)正常强度(01)陈述句“狗”(02)第一次重复(01)第12位演员(12)女性,因为演员ID号是偶数。
协议
(CC BY-NC-SA 4.0)[ https://creativecommons.org/licenses/by-nc-sa/4.0/]
如何引用
如果您在学术出版物中使用 RAVDESS,请使用以下引用:
Livingstone SR, Russo FA (2018) The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. PLoS ONE 13(5): e0196391. https://doi.org/10.1371/journal.pone.0196391 .