北京大学2005中文分词数据集icwb2-pku

摘要:

合集:AI案例-NLP-传媒业
竞赛:第二届国际中文分词竞赛ICWB2
数据集:北京大学2005中文分词数据集icwb2-pku
数据集价值:中文分词

一、问题描述

IJCNLP(International Joint Conference on Natural Language Processing)是一个专注于自然语言处理领域的国际学术会议。第二届国际中文分词竞赛ICWB2(International Chinese Word Segmentation Bakeoff 2)于2005年夏季在韩国济州岛举行,结果在IJCNLP’05会议上举办的第四届SIGHAN研讨会上展示。参赛者使用提供的语料库(来自台湾中央研究院CKIP、香港特别行政区城市大学、中国北京大学和微软中国研究院)来训练和测试他们的中文分词系统。竞赛的目标是提高中文分词的准确性和效率,评估和比较不同的中文分词算法和技术,并推动相关技术的发展。

ICWB2是SIGHAN Bakeoff系列竞赛的一部分,这些竞赛专注于不同的自然语言处理任务,如词性标注、命名实体识别等。通过这些竞赛,研究者可以比较他们的方法与其他研究者的方法,从而推动整个领域的技术进步。

二、数据集内容

ICWB2-pku数据集基于北京大学提供的这份中文分词数据集基础上进行修改,改为了json格式,并从训练集中划出一部分作为验证集。

基本信息

ICWB2-pku数据集基本信息
发布时间:2005年
格式:json
训练集大小:18,055行
验证集大小:1000行
测试集大小:1,944行

数据结构

ICWB2-pku数据集包括三个文件:

train.json:训练集
dev.json:开发验证调整集
test.json:测试集

ICWB2-pku数据集中的数据格式通常是以JSON或其他结构化文本格式存储的,以便于计算机程序读取和处理。JSON对象包含了两个主要字段:“text”和“label”。

数据格式说明

  • “text”字段:包含需要进行分词的原始中文文本。
  • “label”字段:包含对应于“text”字段中每个字符的分词标签。这些标签通常遵循特定的标注体系,用于指示字符是属于一个词的开始(B)、词的中间(M)、词的结尾(E)还是单独的一个词(S)。

示例分析

以你给出的文本为例:

{
  "text": "站在两个世纪的交接点上 , 人们在思索 : 新世纪的曙光带给这个世界的是些什么 ? 明天地球上将发生些什么事 ? 人类的生活会变得怎样 ?",
  "label": "S S S S B E S B E S B M E S S B E S B E S S B E S B E S S B E B E S S S B E S B E B E S S B E S B E S S S B E S B E S S S B E S"
}
  • “text”字段内容
    • 这是一段完整的中文句子,描述了人们在世纪之交的思索和对未来的疑问。
  • “label”字段内容
    • 每个字符后面跟着一个标签,描述该字符在词中的位置。
    • 例如,“站”字的标签是“S”,表示它是一个单独的词;“两个”中的“两”字标签是“B”,表示词的开始,“个”字标签是“E”,表示词的结束;”世纪”的标签是: B E;”交接”的标签: B E。

数据集使用协议

ICWB2数据集及其相关资源为非商业使用(non-commercial)提供免费获取途径,但使用时需遵守其使用条件。

源数据地址:http://sighan.cs.uchicago.edu/bakeoff2005/

三、参考资料

Second International Chinese Word Segmentation Bakeoff

详解 SIGHAN05 的目录结构

四、获取案例套件

需要登录后才允许下载文件包。登录

发表评论