摘要:
合集:AI案例-CV-人类生理心理
数据集:CelebA(CelebFaces Attributes Dataset)
数据集价值:用于人脸识别和属性预测。
一、问题描述
CelebA(CelebFaces Attributes Dataset) 是一个广泛用于人脸识别和计算机视觉研究的数据集,最初由香港中文大学的计算机科学与工程系于2015年发布。这个数据集包含了大量带有标签的名人面部图像,具体来说,它包含了超过20万张名人面部图像,来自超过2,000名不同的名人(包括演员、歌手、运动员等)。这些图像被用于多种计算机视觉任务,尤其是人脸识别和属性预测。
数据集的用途包括:
- 人脸识别:通过学习人脸的特征来进行身份识别。
- 面部表情分析:用于分析人物的情绪或表情。
- 深度学习研究:广泛应用于深度学习领域,尤其是卷积神经网络(CNN)在人脸图像处理中的应用。
二、数据集内容
CelebA V2 (2017) 是 CelebA 数据集的一个扩展版本,旨在进一步完善原始数据集并为更复杂的计算机视觉任务提供支持。该版本由香港中文大学发布,具有与原始 CelebA 数据集类似的特性,但在数据质量和多样性方面进行了改进,尤其是在面部对齐和清晰度方面。
数据集要素
数据集名称:CelebA-V2-2017
特点:CelebA-V2具有多样性大、数量大、注释丰富等特点
数据集规模:包含10,177个名人身份的202,599张人脸图片。
图片特征:每张图片都进行了特征标记,包括人脸bbox标注框、5个人脸特征点坐标以及40个二元属性标记,如是否有胡子、是否戴眼镜、是否笑等。
数据集用途:可用于人脸属性标识、人脸检测训练以及面部特征/landmark标记等。
该数据集可作为以下计算机视觉任务的训练和测试集:人脸属性识别、人脸识别、人脸检测、关键点(或面部部位)定位以及人脸编辑和合成。
人脸特征包括:eyeglasses, wearing hat, bangs, wavy hair, pointy nose, mustache, oval face, smiling.

数据结构
图片文件信息
- 202,599张自然环境下/In-The-Wild图片 (Img/img_celeba.7z)
- 202,599张对齐裁剪后的图片 (Img/img_align_celeba.zip & Img/img_align_celeba_png.7z)
标注文件列表
- 边界标记 (Anno/list_bbox_celeba.txt)
- 地标标注 (Anno/list_landmarks_celeba.txt & Anno/list_landmarks_align_celeba.txt)
- 40个二元特征标注 (Anno/list_attr_celeba.txt)
- Identity Annotations (available upon request) 10,177 identity labels. See IDENTITY LABELS section below for more info.
- Evaluation Partitions (Eval/list_eval_partition.txt) image ids for training, validation and testing set respectively.
自然环境下/In-The-Wild图片
文件目录: img_celeba.7z.001, img_celeba.7z.002, …, img_celeba.7z.014
需要一起解压这些文件。
对齐裁剪后的图片
———— img_align_celeba.zip ————
图片格式: JPG
———— img_align_celeba_png.7z ————
图片格式: PNG 文件目录: img_align_celeba_png.7z.001, img_align_celeba_png.7z.002, …, img_align_celeba_png.7z.016
说明:
首先根据人脸图片中的两个眼睛的位置,使用相似变换算法进行对齐,然后将图像大小调整为218*178;
请将 “img_align_celeba_png.7z.*” 一起解压。
边界标注
文件: ./anno/list_bbox_celeba.txt
第一行: 图片个数 第二行: 边框属性列表
其他行: <图片编号> <边框属性值>。边框属性值次序与第二行的边框属性次序保持一致。在边界框位置中,“x_1”和“y_1”代表边界框左上角的坐标,“width”和“height”代表边界框的宽度和高度。边界框位置按照[x_1, y_1, width, height]的顺序列出。
样例:
202599
image_id x_1 y_1 width height
000001.jpg 95 71 226 313
000002.jpg 72 94 221 306
地标位置标注
文件: ./anno/list_landmarks_celeba.txt 和 ./anno/list_landmarks_align_celeba.txt
第一行: 图片个数 第二行: 地标属性列表
其他行: <图片编号> <地标属性值>。地标属性值次序与第二行的地标属性次序保持一致。
“list_landmarks_celeba.txt”中的地标位置是基于in-the-wild图像的坐标; “list_landmarks_align_celeba.txt”中的地标位置是基于对齐并裁剪后的图像的坐标。
list_landmarks_celeba.txt 样例:
202599
lefteye_x lefteye_y righteye_x righteye_y nose_x nose_y leftmouth_x leftmouth_y rightmouth_x rightmouth_y
000001.jpg 165 184 244 176 196 249 194 271 266 260
000002.jpg 140 204 220 204 168 254 146 289 226 289
list_landmarks_align_celeba.txt样例:
202599
lefteye_x lefteye_y righteye_x righteye_y nose_x nose_y leftmouth_x leftmouth_y rightmouth_x rightmouth_y
000001.jpg 69 109 106 113 77 142 73 152 108 154
000002.jpg 69 110 107 112 81 135 70 151 108 153
脸部特征标注
文件: ./anno/list_attr_celeba.txt
第一行: 图片个数 第二行: 特征列表
其他行: <图片编号> <特征标注>。特征标注次序与第二行的特征次序保持一致。 其中1代表positive,-1代表negative。
样例:
202599
5_o_Clock_Shadow Arched_Eyebrows Attractive Bags_Under_Eyes Bald Bangs Big_Lips Big_Nose Black_Hair Blond_Hair Blurry Brown_Hair Bushy_Eyebrows Chubby Double_Chin Eyeglasses Goatee Gray_Hair Heavy_Makeup High_Cheekbones Male Mouth_Slightly_Open Mustache Narrow_Eyes No_Beard Oval_Face Pale_Skin Pointy_Nose Receding_Hairline Rosy_Cheeks Sideburns Smiling Straight_Hair Wavy_Hair Wearing_Earrings Wearing_Hat Wearing_Lipstick Wearing_Necklace Wearing_Necktie Young
000001.jpg -1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 1 -1 -1 -1 -1 -1 -1 1 1 -1 1 -1 -1 1 -1 -1 1 -1 -1 -1 1 1 -1 1 -1 1 -1 -1 1
000002.jpg -1 -1 -1 1 -1 -1 -1 1 -1 -1 -1 1 -1 -1 -1 -1 -1 -1 -1 1 -1 1 -1 -1 1 -1 -1 -1 -1 -1 -1 1 -1 -1 -1 -1 -1 -1 -1 1
图片对应的身份标注
文件: ./anno/identity_CelebA.txt
说明: 面部身份信息仅限出于研究目的而发布。
样例:
000001.jpg 2880
000002.jpg 2937
000003.jpg 8692
AI训练数据项
文件: ./eval/list_eval_partition.txt
数据结构:<image_id> <evaluation_status>
样例:
000001.jpg 0
000002.jpg 0
000003.jpg 0
说明:对于evaluation_status,”0″ 代表用于训练/training, “1” 代表用于验证/validation , “2” 代表用于测试/testing ;
文件大小
总共文件大小约为22G。
数据集协议
CelebA数据集仅可用于非商业的学术研究。
CelebA数据集的所有图像均来自互联网,这些图像并非香港中文大学MMLAB的财产。MMLAB对这些图像的内容或意义不承担责任。
MMLAB保留随时终止您访问CelebA数据集的权利。
面部身份信息仅在研究目的下按需发布。
引用要求
@inproceedings{liu2015faceattributes,
title = {Deep Learning Face Attributes in the Wild},
author = {Liu, Ziwei and Luo, Ping and Wang, Xiaogang and Tang, Xiaoou},
booktitle = {Proceedings of International Conference on Computer Vision (ICCV)},
month = {December},
year = {2015}
}
四、获取案例套装
文件包大小:21 GB
获取:人类生理视觉案例套装