北京大学2005中文分词数据集icwb2-pku

摘要：

合集：AI案例-NLP-传媒业
竞赛：第二届国际中文分词竞赛ICWB2
数据集：北京大学2005中文分词数据集icwb2-pku
数据集价值：中文分词

一、问题描述

IJCNLP（International Joint Conference on Natural Language Processing）是一个专注于自然语言处理领域的国际学术会议。第二届国际中文分词竞赛ICWB2（International Chinese Word Segmentation Bakeoff 2）于2005年夏季在韩国济州岛举行，结果在IJCNLP’05会议上举办的第四届SIGHAN研讨会上展示。参赛者使用提供的语料库（来自台湾中央研究院CKIP、香港特别行政区城市大学、中国北京大学和微软中国研究院）来训练和测试他们的中文分词系统。竞赛的目标是提高中文分词的准确性和效率，评估和比较不同的中文分词算法和技术，并推动相关技术的发展。

ICWB2是SIGHAN Bakeoff系列竞赛的一部分，这些竞赛专注于不同的自然语言处理任务，如词性标注、命名实体识别等。通过这些竞赛，研究者可以比较他们的方法与其他研究者的方法，从而推动整个领域的技术进步。

二、数据集内容

ICWB2-pku数据集基于北京大学提供的这份中文分词数据集基础上进行修改，改为了json格式，并从训练集中划出一部分作为验证集。

基本信息

ICWB2-pku数据集基本信息
发布时间：2005年
格式：json
训练集大小：18,055行
验证集大小：1000行
测试集大小：1,944行

数据结构

ICWB2-pku数据集包括三个文件：

train.json：训练集
dev.json：开发验证调整集
test.json：测试集

ICWB2-pku数据集中的数据格式通常是以JSON或其他结构化文本格式存储的，以便于计算机程序读取和处理。JSON对象包含了两个主要字段：“text”和“label”。

数据格式说明

“text”字段：包含需要进行分词的原始中文文本。
“label”字段：包含对应于“text”字段中每个字符的分词标签。这些标签通常遵循特定的标注体系，用于指示字符是属于一个词的开始（B）、词的中间（M）、词的结尾（E）还是单独的一个词（S）。

示例分析

以你给出的文本为例：

{
  "text": "站在两个世纪的交接点上 , 人们在思索 : 新世纪的曙光带给这个世界的是些什么 ? 明天地球上将发生些什么事 ? 人类的生活会变得怎样 ?",
  "label": "S S S S B E S B E S B M E S S B E S B E S S B E S B E S S B E B E S S S B E S B E B E S S B E S B E S S S B E S B E S S S B E S"
}

“text”字段内容：
- 这是一段完整的中文句子，描述了人们在世纪之交的思索和对未来的疑问。
“label”字段内容：
- 每个字符后面跟着一个标签，描述该字符在词中的位置。
- 例如，“站”字的标签是“S”，表示它是一个单独的词；“两个”中的“两”字标签是“B”，表示词的开始，“个”字标签是“E”，表示词的结束；”世纪”的标签是: B E；”交接”的标签: B E。

数据集使用协议

ICWB2数据集及其相关资源为非商业使用（non-commercial）提供免费获取途径，但使用时需遵守其使用条件。

源数据地址：http://sighan.cs.uchicago.edu/bakeoff2005/

三、参考资料

Second International Chinese Word Segmentation Bakeoff

详解 SIGHAN05 的目录结构

四、获取案例套件

需要登录后才允许下载文件包。登录