合集:行业AI数据集精选
精选医疗行业最受欢迎40+自然语言处理数据集,这些数据集来自具有重要影响力的学会、会议、数据库、期刊、国内外AI竞赛组织方、Github和Kaggle等数据集托管方。
一、医学组织
参考文章:医疗行业最受欢迎100+计算机视觉数据集 – 甲壳虫AI案例数据集和论文
获取医疗行业众多具有重要影响力的学会、会议、数据库和期刊。
二、数据集明细
A、汇总
总仓库数: 43 个
星标数分布:
- ⭐ 1000+: 9 个 (20.9%)
- ⭐ 500-999: 5 个 (11.6%)
- ⭐ 100-499: 29 个 (67.4%)
B、临床医学 (11个)
1. KBQA-for-Diagnosis
- 星标数: ⭐ 1,487
- 简介: Knowledge Graph,Question Answering System,基于知识图谱和向量检索的医疗诊断问答系统
- 主题: 未提供
- 协议: 未提供 所有者: wangle1218
- 链接: https://github.com/wangle1218/KBQA-for-Diagnosis
2. Healthcare Dataset
- 星标数: ⭐ 943
- 简介: 多类别分类问题的虚拟数据
- 主题: healthcare, health, nlp, classification, text pre-processing
- 协议: CC0: Public Domain 所有者: Prasad Patil
- 链接: https://kaggle.com/datasets/prasad22/healthcare-dataset
3. CKG
- 星标数: ⭐ 587
- 简介: 临床知识图谱(CKG)是一个具有双重目标的平台:1)构建一个包含实验数据及从多种生物医学数据库导入数据的图数据库;2)利用图谱中所有信息实现知识发现的自动化。
- 主题: 未提供
- 协议: MIT License 所有者: MannLabs
- 链接: https://github.com/MannLabs/CKG
4. MedQuAD
- 星标数: ⭐ 445
- 简介: 美国国立卫生研究院(NIH)12个网站构建的47,457组医学问答数据集
- 主题: clinical-nlp, medical-informatics, medical-nlp, natural-language-processing, question-answering
- 协议: Other 所有者: abachaa
- 链接: https://github.com/abachaa/MedQuAD
5. Doctor
- 星标数: ⭐ 345
- 简介: 基于知识图谱的医学诊断系统。Medical Diagnosis System Based on Knowledge Map.(欢迎Star,🚫禁止Fork)
- 主题: d3, elasticsearch, java, mysql, neo4j
- 协议: GNU General Public License v3.0 所有者: onblog
- 链接: https://github.com/onblog/Doctor
6. UCI ML Drug Review dataset
- 星标数: ⭐ 320
- 简介: Over 200,000 patient drug reviews
- 主题: health, medicine, computer science, exploratory data analysis, text mining
- 协议: Other (specified in description) 所有者: Jessica Li
- 链接: https://kaggle.com/datasets/jessicali9530/kuc-hackathon-winter-2018
7. Awesome-Medical-Healthcare-Dataset-For-LLM
- 星标数: ⭐ 317
- 简介: 精选医疗/健康领域大型语言模型热门数据集、模型与论文列表
- 主题: 未提供
- 协议: MIT License 所有者: onejune2018
- 链接: https://github.com/onejune2018/Awesome-Medical-Healthcare-Dataset-For-LLM
8. Healthcare NLP: LLMs, Transformers, Datasets
- 星标数: ⭐ 227
- 简介: 推动医疗保健领域数据科学发展的模型与医疗数据
- 主题: health, medicine, nlp, deep learning, text
- 协议: CC BY-SA 4.0 所有者: JohnM
- 链接: https://kaggle.com/datasets/jpmiller/layoutlm
9. GPT-2-Based-Medical-Dialogue-System
- 星标数: ⭐ 205
- 简介: 基于GPT-2语言模型构建的医疗问答系统,该系统通过海量医患对话语料进行微调训练。该系统支持多轮对话交互,并提供命令行与网页双端交互界面。
- 主题: flask, gpt2, python, pytorch, transformer
- 协议: 未提供 所有者: Haohao-end
- 链接: https://github.com/Haohao-end/GPT-2-Based-Medical-Dialogue-System
10. mednli
- 星标数: ⭐ 133
- 简介: MedNLI – 临床领域的自然语言推理数据集
- 主题: 未提供
- 协议: 未提供 所有者: jgc128
- 链接: https://github.com/jgc128/mednli
11. Depression: Reddit Dataset (Cleaned)
- 星标数: ⭐ 119
- 简介: 约7000条经过清洗的抑郁症相关Reddit标记数据集
- 主题: healthcare, nlp, classification, text
- 协议: CC0: Public Domain 所有者: InFamousCoder
- 链接: https://kaggle.com/datasets/infamouscoder/depression-reddit-cleaned
C、生物医学 (2个)
1. awesome-drug-discovery-knowledge-graphs
- 星标数: ⭐ 249
- 简介: 本资源集收录了与药物发现知识图谱相关的研究论文、数据集及软件工具。该资源集作为《药物发现相关生物医学数据集综述:知识图谱视角》(《生物信息学简报》,2022年)一文的配套资料。
- 主题: awesome-list, drug-discovery, drug-discovery-knowledge-graph, knowledge-graph
- 协议: Apache License 2.0 所有者: AstraZeneca
- 链接: https://github.com/AstraZeneca/awesome-drug-discovery-knowledge-graphs
2. Bio-Epidemiology-NER
- 星标数: ⭐ 133
- 简介: 从文本语料库中识别生物医学实体。
- 主题: biomedical, epidemiology, ner, nlp, transformers
- 协议: 未提供 所有者: dreji18
- 链接: https://github.com/dreji18/Bio-Epidemiology-NER
D、通用医学 (17个)
1. COVID-19 Open Research Dataset Challenge (CORD-19)
- 星标数: ⭐ 11,306
- 简介: 一场由AI2、CZI、MSR、乔治城大学、NIH及白宫共同参与的AI挑战赛
- 主题: public health, biology, business, computer science, nlp
- 协议: Other (specified in description) 所有者: Allen Institute For AI
- 链接: https://kaggle.com/datasets/allen-institute-for-ai/CORD-19-research-challenge
2. QASystemOnMedicalKG
- 星标数: ⭐ 7,213
- 简介: A tutorial and implement of disease centered Medical knowledge graph and qa system based on it。知识图谱构建,自动问答,基于kg的自动问答。以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务。
- 主题: 未提供
- 协议: 未提供 所有者: liuhuanyong
- 链接: https://github.com/liuhuanyong/QASystemOnMedicalKG
3. awesome_Chinese_medical_NLP
- 星标数: ⭐ 2,556
- 简介: 中文医学NLP公开资源整理:术语集/语料库/词向量/预训练模型/知识图谱/命名实体识别/QA/信息抽取/模型/论文/etc
- 主题: dataset, dictionary, knowledge-graph, medical, model
- 协议: 未提供 所有者: GanjinZero
- 链接: https://github.com/GanjinZero/awesome_Chinese_medical_NLP
4. Chinese-medical-dialogue-data
- 星标数: ⭐ 1,661
- 简介: Chinese medical dialogue data 中文医疗对话数据集
- 主题: 未提供
- 协议: MIT License 所有者: Toyhom
- 链接: https://github.com/Toyhom/Chinese-medical-dialogue-data
5. CareGPT
- 星标数: ⭐ 1,010
- 简介: 🌞 CareGPT (关怀GPT)是一个医疗大语言模型,同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含LLM的训练、测评、部署等以促进医疗LLM快速发展。Medical LLM, Open Source Driven for a Healthy Future.
- 主题: baichuan, gpt, large-language-models, llama, llama2
- 协议: MIT License 所有者: WangRongsheng
- 链接: https://github.com/WangRongsheng/CareGPT
6. PrimeKG
- 星标数: ⭐ 719
- 简介: 精准医学知识图谱(PrimeKG)
- 主题: bioinformatics, dataset, graph-machine-learning, knowledge-graph, network-medicine
- 协议: MIT License 所有者: mims-harvard
- 链接: https://github.com/mims-harvard/PrimeKG
7. cyber-doctor
- 星标数: ⭐ 382
- 简介: 赛博医生项目——”赛博华佗“,基于多模态大模型的多功能智能体,一键搭建本地多模态大模型。接入医疗健康相关的知识图谱和知识库后可以进行疾病初诊,病历分析,专业知识问答等功能,成为你的私人医生。赛博华佗项目能帮助实现医疗资源的跨地域传播,让更多人借助大模型改善健康水平。”Cyber Huatuo” – Easy to build a personal doctor agent based on LLM and Knowledge Graph/Knowledge Database.
- 主题: ai, ai-agents, chatbot, kag, llm
- 协议: GNU General Public License v3.0 所有者: Warma10032
- 链接: https://github.com/Warma10032/cyber-doctor
8. Existing-Medical-QA-Datasets
- 星标数: ⭐ 318
- 简介: 医学领域中的多模态问答:现有数据集与系统综述
- 主题: bionlp, computer-vision, consumer-health-questions, datasets, medical-informatics
- 协议: 未提供 所有者: abachaa
- 链接: https://github.com/abachaa/Existing-Medical-QA-Datasets
9. medal
- 星标数: ⭐ 285
- 简介: 专为医学领域自然语言理解预训练而构建的大型医学文本数据集,旨在解决缩写歧义问题。
- 主题: 未提供
- 协议: 未提供 所有者: McGill-NLP
- 链接: https://github.com/McGill-NLP/medal
10. Doctor-Friende
- 星标数: ⭐ 284
- 简介: Rasa-Doctor-Friende。一款基于Neo4j知识图谱与Rasa框架的中文医疗聊天机器人。
- 主题: 未提供
- 协议: MIT License 所有者: pengyou200902
- 链接: https://github.com/pengyou200902/Doctor-Friende
11. medmcqa
- 星标数: ⭐ 262
- 简介: 一个大规模(194k)的多选题问答(MCQA)数据集,旨在解决现实世界中的医学入学考试问题。
- 主题: bionlp, dataset, leaderboard, medical-dataset, medical-datasets
- 协议: MIT License 所有者: medmcqa
- 链接: https://github.com/medmcqa/medmcqa
12. chinese-medical-dataset
- 星标数: ⭐ 257
- 简介: [updating] Chinese Medical Dataset 致力于详细整理所有现有中文医学数据集,包括详细的数据汇总、数据示例、下载链接等。
- 主题: ai-for-science, chinese-medical-dataset
- 协议: 未提供 所有者: Mengqi97
- 链接: https://github.com/Mengqi97/chinese-medical-dataset
13. Medical Transcriptions
- 星标数: ⭐ 250
- 简介: 从mtsamples.com抓取的医疗转录数据
- 主题: health, medicine, nlp
- 协议: CC0: Public Domain 所有者: Tara Boyle
- 链接: https://kaggle.com/datasets/tboyle10/medicaltranscriptions
14. Medical-Robot-AI
- 星标数: ⭐ 216
- 简介: 基于Rasa框架实现的智能医疗机器人 功能包含: 医药问答 智能问药 疾病诊断 病症查询 症状查询 闲聊 天气查询 语音对话 使用手段包括: rasa框架 知识图谱 neo4j数据库 语音识别 语音合成 开放API 等功能
- 主题: 未提供
- 协议: GNU General Public License v3.0 所有者: LuoFanA595
- 链接: https://github.com/LuoFanA595/Medical-Robot-AI
15. Apollo
- 星标数: ⭐ 199
- 简介: 多语言医学:模型、数据集、基准与代码
- 主题: llm, medical, open-source
- 协议: Apache License 2.0 所有者: FreedomIntelligence
- 链接: https://github.com/FreedomIntelligence/Apollo
16. llm-medical-data
- 星标数: ⭐ 144
- 简介: llm-medical-data:用于大模型微调训练的医疗数据集
- 主题: 未提供
- 协议: 未提供 所有者: donote
- 链接: https://github.com/donote/llm-medical-data
17. Symptom2Disease
- 星标数: ⭐ 106
- 简介: 疾病与自然语言症状描述
- 主题: diseases, nlp, classification, deep learning, health conditions
- 协议: CC0: Public Domain 所有者: Niyar R Barman
- 链接: https://kaggle.com/datasets/niyarrbarman/symptom2disease
E、其他医学资源 (13个)
1. funNLP
- 星标数: ⭐ 79,562
- 简介: 中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码正则匹配、清华大学XLORE:中英文跨语言百科知识图谱、清华大学人工智能技术系列报告、自然语言生成、NLU太难了系列、自动对联数据及机器人、用户名黑名单列表、罪名法务名词及分类模型、微信公众号语料、cs224n深度学习自然语言处理课程、中文手写汉字识别、中文自然语言处理 语料/数据集、变量命名神器、分词语料库+代码、任务型对话英文数据集、ASR 语音数据集 + 基于深度学习的中文语音识别系统、笑声检测器…
- 主题: 未提供
- 协议: 未提供 所有者: fighting41love
- 链接: https://github.com/fighting41love/funNLP
2. QASystemOnMedicalGraph
- 星标数: ⭐ 1,403
- 简介: 该项目是基于医疗领域知识图谱的问答系统。实现比较简单。
- 主题: 未提供
- 协议: 未提供 所有者: zhihao-chen
- 链接: https://github.com/zhihao-chen/QASystemOnMedicalGraph
3. RAGQnASystem
- 星标数: ⭐ 1,126
- 简介: 本项目设计了一个基于 RAG 与大模型技术的医疗问答系统,利用 DiseaseKG 数据集与 Neo4j 构 建知识图谱,结合 BERT 的命名实体识别和 34b 大模型的意图识别,通过精确的知识检索和问答生成, 提升系统在医疗咨询中的性能,解决大模型在医疗领域应用的可靠性问题。
- 主题: 未提供
- 协议: 未提供 所有者: honeyandme
- 链接: https://github.com/honeyandme/RAGQnASystem
4. chatbot-base-on-Knowledge-Graph
- 星标数: ⭐ 790
- 简介: 使用深度学习方法解析问题 知识图谱存储 查询知识点 基于医疗垂直领域的对话系统
- 主题: 未提供
- 协议: 未提供 所有者: baiyang2464
- 链接: https://github.com/baiyang2464/chatbot-base-on-Knowledge-Graph
5. Annotated Corpus for Named Entity Recognition
- 星标数: ⭐ 655
- 简介: 经过特征工程处理的语料库,已标注IOB和词性标签。
- 主题: literature, business, finance, linguistics
- 协议: Database: Open Database, Contents: Database Contents 所有者: Abhinav Walia
- 链接: https://kaggle.com/datasets/abhinavwalia95/entity-annotated-corpus
6. Resume Dataset
- 星标数: ⭐ 361
- 简介: 一份包含PDF格式及字符串格式的简历集合,用于数据提取。
- 主题: business, nlp, text mining, text, spaCy
- 协议: CC0: Public Domain 所有者: Snehaan Bhawal
- 链接: https://kaggle.com/datasets/snehaanbhawal/resume-dataset
7. KnowledgeGraph_NER
- 星标数: ⭐ 247
- 简介: 中文医学知识图谱命名实体识别,包括bi-LSTM+CRF,transformer+CRF等模型
- 主题: 未提供
- 协议: 未提供 所有者: pumpkinduo
- 链接: https://github.com/pumpkinduo/KnowledgeGraph_NER
8. Chatbot dataset
- 星标数: ⭐ 199
- 简介: 大学聊天机器人数据集
- 主题: universities and colleges, nlp, json, nltk, python
- 协议: Database: Open Database, Contents: Database Contents 所有者: Nirali vaghani
- 链接: https://kaggle.com/datasets/niraliivaghani/chatbot-dataset
9. MedicalInsuranceKG
- 星标数: ⭐ 136
- 简介: 医疗保险领域知识图谱
- 主题: 未提供
- 协议: 未提供 所有者: AdiaLoveTrance
- 链接: https://github.com/AdiaLoveTrance/MedicalInsuranceKG
10. KGData
- 星标数: ⭐ 122
- 简介: 行业知识图谱,关系抽取,数据清洗,ncov,疫情数据,百科,医疗,保险,汽车,垃圾分类,产业链,投资,高考,行业专家圈子,CXO圈子
- 主题: cxo
- 协议: MIT License 所有者: chriswangweb
- 链接: https://github.com/chriswangweb/KGData
11. Doctor
- 星标数: ⭐ 118
- 简介: 基于知识图谱的分布式智能医疗诊断系统
- 主题: 未提供
- 协议: Apache License 2.0 所有者: torome
- 链接: https://github.com/torome/Doctor
12. KBQA-study
- 星标数: ⭐ 112
- 简介: 基于医疗知识图谱的问答系统
- 主题: 未提供
- 协议: Apache License 2.0 所有者: DeqianBai
- 链接: https://github.com/DeqianBai/KBQA-study
13. PRDECT-ID: Indonesian Emotion Classification
链接: https://kaggle.com/datasets/jocelyndumlao/prdect-id-indonesian-emotion-classification
星标数: ⭐ 107
简介: 情感分析标注评论
主题: nlp, text mining, neural networks, online communities
协议: CC0: Public Domain 所有者: Jocelyn Dumlao