RAVDESS-2018语音情感识别数据集 – 甲壳虫AI案例数据集和论文

摘要：

合集：AI案例-NLP-零售业
AI问题：语音等多模态识别
数据集：RAVDESS2018语音情感识别数据集
数据集价值：支持语音情感识别研究

一、问题描述

RAVDESS（Ryerson Audio-Visual Database of Emotional Speech and Song）是一个广泛用于语音情感识别研究的数据集。RAVDESS数据集是瑞尔森大学（Ryerson University）开发的一个广泛用于语音情感识别研究的数据集。RAVDESS数据集的发布时间是2018年。

价值

研究应用：RAVDESS数据集在语音情感识别领域具有重要价值，它被广泛用于研究和开发情感识别模型，特别是在性别差异对情感识别影响的研究中。
算法评估：作为一个标准数据集，RAVDESS用于评估和比较不同的语音情感识别算法和模型的性能。
性别研究：数据集提供了均衡的男女声音样本，有助于研究性别如何影响语音情感识别的准确性。

RAVDESS数据集不仅为语音情感识别研究提供了丰富的资源，还促进了相关技术在医疗、教育和人机交互等领域的应用和发展。

二、数据集内容

RAVDESS（Ryerson Audio-Visual Database of Emotional Speech and Song）情感语音数据包含1440个文件：每位演员60次试音 x 24位演员 = 1440次。RAVDESS 包含24位专业演员（12位女性，12位男性），用中性的北美口音演唱两个词汇匹配的陈述句。语音情感包括平静、快乐、悲伤、生气、恐惧、惊讶和厌恶的表达。每种表达都以两种情感强度（正常、强烈）进行表达，还有一个额外的中性表达。

数据结构

目录名约定：Actor_01~24，代表24位专业演员。

文件命名约定：

每个1440个文件都有唯一的文件名。文件名由7个部分的数字标识符组成（例如，03-01-06-01-02-01-12.wav）。这些标识符定义了语音的特征：

对文件名使用分隔符分割后的标识符依次代表：

1、情感类型（01 = 全视听-AV，02 = 仅视频，03 = 仅音频）。

2、声音通道（01 = 说话，02 = 歌唱）。

3、情感类别（01 = 中性，02 = 平静，03 = 快乐，04 = 悲伤，05 = 生气，06 = 恐惧，07 = 厌恶，08 = 惊讶）。

4、情感强度（01 = 正常，02 = 强烈）。注意：“中性”情感没有强烈的强度。

5、陈述句（01 = “有孩子在门口说话”，02 = “有狗在门口坐着”）。

6、重复次数（01 = 第一次重复，02 = 第二次重复）。

7、演员（01到24。奇数演员是男性，偶数演员是女性）。

以文件名03-01-06-01-02-01-12.wav为例，代表：仅音频（03）说话（01）恐惧（06）正常强度（01）陈述句“狗”（02）第一次重复（01）第12位演员（12）女性，因为演员ID号是偶数。

协议

(CC BY-NC-SA 4.0)[ https://creativecommons.org/licenses/by-nc-sa/4.0/]

如何引用

如果您在学术出版物中使用 RAVDESS，请使用以下引用：

Livingstone SR, Russo FA (2018) The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. PLoS ONE 13(5): e0196391. https://doi.org/10.1371/journal.pone.0196391 .

三、获取案例套件

需要登录后才允许下载文件包。登录

一、问题描述

二、数据集内容

数据结构

协议

如何引用

三、获取案例套件

发表评论 取消回复

发表评论取消回复