腾讯2019动物姿态检测数据集 – 甲壳虫AI案例和论文

摘要：

合集：AI案例-CV-动物
数据集：腾讯2019动物姿态检测数据集
价值：支持动物姿态估计、关键点检测、实例分割等任务

一、数据集内容

该数据集提供了五种动物的姿态注释：狗、猫、牛、马、羊，共计6,000+实例，4,000+张图片。腾讯的注释团队总共标注了20个关键点：两只眼睛、喉咙、鼻子、肩胛骨、两个耳根、尾根、四个肘部、四个膝盖、四个爪子。此外，数据集还包含其他7种动物类别的边界框注释。7种动物类别包括：水獭、猞猁、犀牛、河马、黑猩猩、熊和羚羊。对动物图片数据集进行标注的目的是：支持动物姿态估计、关键点检测、实例分割等任务。

如图所示：我们从该数据集中选取了一些样本，表示五种动物类别的关键点标注动物实例。同时图中还包含一些仅标注了边界框的七种不同动物类别的图片：水獭、猞猁、犀牛、河马、黑猩猩、熊和羚羊。

图：数据集图片和标注数据样例

二、数据结构

文件结构

animalpose_keypoint_new：狗、猫、牛、马、羊共5种动物20个关键点标注数据
- animalpose_image_part2：5种动物图片
  - cat
  - cow
  - dog
  - horse
  - sheep
- keypoints.json：标注数据文件
animalpose_boundingbox_only：水獭、猞猁、犀牛、河马、黑猩猩、熊和羚羊等7种动物边界框注释数据
- bndbox_image：图片
  - antelope
  - bear
  - bobcat
  - chimpanzee
  - hippopotamus
  - otter
  - rhino
- bndbox_anno：标注数据
  - antelope.json
  - bear.json
  - bobcat.json
  - hippocampi.json
  - orangutan.json
  - otter.json
  - rhino.json

数据结构

关键点标注数据

标注文件通常为keypoints.json，包含以下字段：

{
  "images": [
    {
      "id": 1,                      // 图像唯一ID
      "file_name": "0001.jpg",       // 图像文件名
      "width": 640,                  // 图像宽度
      "height": 480,                 // 图像高度
      "animal_category": "dog"       // 动物类别
    },
    ...
  ],
  "annotations": [
    {
      "id": 1,                      // 标注ID
      "image_id": 1,                // 对应图像ID
      "bbox": [x, y, w, h],         // 边界框 [x左上, y左上, 宽度, 高度]
      "keypoints": [                // 关键点坐标和可见性
        x1, y1, v1,                 // (x, y, v)，v为可见性（0=不可见，1=遮挡，2=可见）
        x2, y2, v2,
        ...
      ],
      "num_keypoints": 17,         // 关键点总数（如狗为17个）
      "area": w * h,               // 区域面积（用于评估）
      "iscrowd": 0                 // 是否拥挤（0/1）
    },
    ...
  ],
  "categories": [
    {
      "id": 1,                     // 类别ID
      "name": "dog",                // 类别名称
      "keypoints": [                // 关键点名称列表
        "left_eye", "right_eye", ..., "tail"
      ],
      "skeleton": [                 // 关键点连接关系（用于可视化）
        [1, 2], [2, 3], ...
      ]
    },
    ...
  ]
}

关键字段说明

images：
- 包含图像的基本信息（ID、文件名、尺寸、类别）。
annotations：
- keypoints：扁平化的一维数组，按 [x1, y1, v1, x2, y2, v2, ...] 存储，其中 v 表示关键点可见性。
- bbox：边界框的坐标和尺寸。
- num_keypoints：实际标注的关键点数量（可能因遮挡或截断而少于总数）。
categories：
- 定义每类动物的关键点名称和连接关系（如 skeleton 字段描述哪些关键点需要连线）。

边界框注释

数据样例：

{"Img-93.jpg": [{"bndbox": {"xmin": 33, "xmax": 337, "ymax": 251, "ymin": 43}}],...

致谢

数据集起点是加州大学伯克利分校提供的PASCAL 2011关键点注释集合，我们（腾讯的注释团队）在其基础上提供了更多的注释和图像。部分图像来自Animals-10数据集。腾讯的注释团队通过注释其中的多数数据为构建这个数据集提供了帮助。其他注释由一些独立的注释者完成，包括我们的亲戚和朋友。非常感谢他们所有的人。

引用要求

请遵循引用格式。如需发送任何讨论/问题或进行贡献，请联系曹金坤（jinkuncao@gmail.com）或唐宏阳（thutanghy@gmail.com）。

@InProceedings{Cao_2019_ICCV,
    author = {曹金坤，唐宏阳，方浩树，沈晓勇，陆策吾，戴宇翔},
    title = {动物姿态估计的跨域适应},
    booktitle = {IEEE国际计算机视觉大会(ICCV)},
    month = {10月},
    year = {2019} }

三、获取案例套装

需要登录后才允许下载文件包。登录