医疗行业最受欢迎20个自然语言处理数据集

合集:行业AI数据集精选

精选医疗行业最受欢迎100+自然语言处理数据集,这些数据集来自具有重要影响力的学会、会议、数据库、期刊、国内外AI竞赛组织方、Github和Kaggle等数据集托管方。

一、医学组织

参考文章:医疗行业最受欢迎100+计算机视觉数据集 – 甲壳虫AI案例数据集和论文

获取医疗行业众多具有重要影响力的学会、会议、数据库和期刊。

二、数据集明细

汇总

总仓库数: 20 个

星标数分布:

  • ⭐ 1000+: 1 个 (5.0%)
  • ⭐ 500-999: 2 个 (10.0%)
  • ⭐ 100-499: 17 个 (85.0%)

临床医疗 (8个)

1. Healthcare Dataset
2. MedQuAD
  • 星标数: ⭐ 445
  • 简介: 美国国立卫生研究院(NIH)12个网站构建的47,457组医学问答数据集
  • 主题: clinical-nlp, medical-informatics, medical-nlp, natural-language-processing, question-answering
  • 协议: Other 所有者: abachaa 托管方: github
  • 链接: https://github.com/abachaa/MedQuAD
3. UCI ML Drug Review dataset
4. Awesome-Medical-Healthcare-Dataset-For-LLM
5. Healthcare NLP: LLMs, Transformers, Datasets
  • 星标数: ⭐ 227
  • 简介: 推动医疗健康领域数据科学发展的模型与医疗数据
  • 主题: health, medicine, nlp, deep learning, text
  • 协议: CC BY-SA 4.0 所有者: JohnM 托管方: kaggle
  • 链接: URL: https://kaggle.com/datasets/jpmiller/layoutlm
6. GPT-2-Based-Medical-Dialogue-System
  • 星标数: ⭐ 202
  • 简介: 基于GPT-2语言模型构建的医疗问答系统,该系统通过海量医患对话语料进行微调训练。该系统支持多轮对话交互,并提供命令行与网页双端交互界面。
  • 主题: flask, gpt2, python, pytorch, transformer
  • 协议: 未提供 所有者: Haohao-end 托管方: github
  • 链接: https://github.com/Haohao-end/GPT-2-Based-Medical-Dialogue-System
7. mednli
  • 星标数: ⭐ 133
  • 简介: MedNLI – 临床领域的自然语言推理数据集
  • 主题: 未提供
  • 协议: 未提供 所有者: jgc128 托管方: github
  • 链接: https://github.com/jgc128/mednli
8. Depression: Reddit Dataset (Cleaned)

生物医学 (1个)

1. Bio-Epidemiology-NER
  • 星标数: ⭐ 133
  • 简介: 从文本语料库中识别生物医学实体。
  • 主题: biomedical, epidemiology, ner, nlp, transformers
  • 协议: 未提供 所有者: dreji18 托管方: github
  • 链接: https://github.com/dreji18/Bio-Epidemiology-NER

通用医学 (7个)

1. COVID-19 Open Research Dataset Challenge (CORD-19)
2. Existing-Medical-QA-Datasets
  • 星标数: ⭐ 317
  • 简介: 医学领域的多模态问答:现有数据集与系统综述
  • 主题: bionlp, computer-vision, consumer-health-questions, datasets, medical-informatics
  • 协议: 未提供 所有者: abachaa 托管方: github
  • 链接: https://github.com/abachaa/Existing-Medical-QA-Datasets
3. medal
  • 星标数: ⭐ 285
  • 简介: 专为医学领域自然语言理解预训练而构建的大型医学文本数据集,旨在解决缩写歧义问题。
  • 主题: 未提供
  • 协议: 未提供 所有者: McGill-NLP 托管方: github
  • 链接: https://github.com/McGill-NLP/medal
4. medmcqa
  • 星标数: ⭐ 262
  • 简介: 一个大规模(194k)的多项选择题问答(MCQA)数据集,旨在解决现实世界中的医学入学考试问题。
  • 主题: bionlp, dataset, leaderboard, medical-dataset, medical-datasets
  • 协议: MIT License 所有者: medmcqa 托管方: github
  • 链接: https://github.com/medmcqa/medmcqa
5. Medical Transcriptions
6. Apollo
  • 星标数: ⭐ 199
  • 简介: 多语言医学:模型、数据集、基准与代码
  • 主题: llm, medical, open-source
  • 协议: Apache License 2.0 所有者: FreedomIntelligence 托管方: github
  • 链接: https://github.com/FreedomIntelligence/Apollo
7. Symptom2Disease

发表评论