合集:行业AI数据集精选
精选医疗行业最受欢迎100+自然语言处理数据集,这些数据集来自具有重要影响力的学会、会议、数据库、期刊、国内外AI竞赛组织方、Github和Kaggle等数据集托管方。
一、医学组织
参考文章:医疗行业最受欢迎100+计算机视觉数据集 – 甲壳虫AI案例数据集和论文
获取医疗行业众多具有重要影响力的学会、会议、数据库和期刊。
二、数据集明细
汇总
总仓库数: 20 个
星标数分布:
- ⭐ 1000+: 1 个 (5.0%)
- ⭐ 500-999: 2 个 (10.0%)
- ⭐ 100-499: 17 个 (85.0%)
临床医疗 (8个)
1. Healthcare Dataset
- 星标数: ⭐ 941
- 简介: 多类别分类问题的虚拟数据
- 主题: healthcare, health, nlp, classification, text pre-processing
- 协议: CC0: Public Domain 所有者: Prasad Patil 托管方: kaggle
- 链接: URL: https://kaggle.com/datasets/prasad22/healthcare-dataset
2. MedQuAD
- 星标数: ⭐ 445
- 简介: 美国国立卫生研究院(NIH)12个网站构建的47,457组医学问答数据集
- 主题: clinical-nlp, medical-informatics, medical-nlp, natural-language-processing, question-answering
- 协议: Other 所有者: abachaa 托管方: github
- 链接: https://github.com/abachaa/MedQuAD
3. UCI ML Drug Review dataset
- 星标数: ⭐ 320
- 简介: 超过20万条患者用药评价
- 主题: health, medicine, computer science, exploratory data analysis, text mining
- 协议: Other (specified in description) 所有者: Jessica Li 托管方: kaggle
- 链接: URL: https://kaggle.com/datasets/jessicali9530/kuc-hackathon-winter-2018
4. Awesome-Medical-Healthcare-Dataset-For-LLM
- 星标数: ⭐ 317
- 简介: 精选医疗/健康领域大型语言模型(LLMs)常用数据集、模型与论文清单
- 主题: 未提供
- 协议: MIT License 所有者: onejune2018 托管方: github
- 链接: https://github.com/onejune2018/Awesome-Medical-Healthcare-Dataset-For-LLM
5. Healthcare NLP: LLMs, Transformers, Datasets
- 星标数: ⭐ 227
- 简介: 推动医疗健康领域数据科学发展的模型与医疗数据
- 主题: health, medicine, nlp, deep learning, text
- 协议: CC BY-SA 4.0 所有者: JohnM 托管方: kaggle
- 链接: URL: https://kaggle.com/datasets/jpmiller/layoutlm
6. GPT-2-Based-Medical-Dialogue-System
- 星标数: ⭐ 202
- 简介: 基于GPT-2语言模型构建的医疗问答系统,该系统通过海量医患对话语料进行微调训练。该系统支持多轮对话交互,并提供命令行与网页双端交互界面。
- 主题: flask, gpt2, python, pytorch, transformer
- 协议: 未提供 所有者: Haohao-end 托管方: github
- 链接: https://github.com/Haohao-end/GPT-2-Based-Medical-Dialogue-System
7. mednli
- 星标数: ⭐ 133
- 简介: MedNLI – 临床领域的自然语言推理数据集
- 主题: 未提供
- 协议: 未提供 所有者: jgc128 托管方: github
- 链接: https://github.com/jgc128/mednli
8. Depression: Reddit Dataset (Cleaned)
- 星标数: ⭐ 119
- 简介: 约7000条经过清洗的抑郁症相关Reddit标记数据集
- 主题: healthcare, nlp, classification, text
- 协议: CC0: Public Domain 所有者: InFamousCoder 托管方: kaggle
- 链接: URL: https://kaggle.com/datasets/infamouscoder/depression-reddit-cleaned
生物医学 (1个)
1. Bio-Epidemiology-NER
- 星标数: ⭐ 133
- 简介: 从文本语料库中识别生物医学实体。
- 主题: biomedical, epidemiology, ner, nlp, transformers
- 协议: 未提供 所有者: dreji18 托管方: github
- 链接: https://github.com/dreji18/Bio-Epidemiology-NER
通用医学 (7个)
1. COVID-19 Open Research Dataset Challenge (CORD-19)
- 星标数: ⭐ 11,306
- 简介: 一场由AI2、CZI、MSR、乔治城大学、NIH及白宫共同参与的AI挑战赛
- 主题: public health, biology, business, computer science, nlp
- 协议: Other (specified in description) 所有者: Allen Institute For AI 托管方: kaggle
- 链接: URL: https://kaggle.com/datasets/allen-institute-for-ai/CORD-19-research-challenge
2. Existing-Medical-QA-Datasets
- 星标数: ⭐ 317
- 简介: 医学领域的多模态问答:现有数据集与系统综述
- 主题: bionlp, computer-vision, consumer-health-questions, datasets, medical-informatics
- 协议: 未提供 所有者: abachaa 托管方: github
- 链接: https://github.com/abachaa/Existing-Medical-QA-Datasets
3. medal
- 星标数: ⭐ 285
- 简介: 专为医学领域自然语言理解预训练而构建的大型医学文本数据集,旨在解决缩写歧义问题。
- 主题: 未提供
- 协议: 未提供 所有者: McGill-NLP 托管方: github
- 链接: https://github.com/McGill-NLP/medal
4. medmcqa
- 星标数: ⭐ 262
- 简介: 一个大规模(194k)的多项选择题问答(MCQA)数据集,旨在解决现实世界中的医学入学考试问题。
- 主题: bionlp, dataset, leaderboard, medical-dataset, medical-datasets
- 协议: MIT License 所有者: medmcqa 托管方: github
- 链接: https://github.com/medmcqa/medmcqa
5. Medical Transcriptions
- 星标数: ⭐ 250
- 简介: 从mtsamples.com抓取的医疗转录数据
- 主题: health, medicine, nlp
- 协议: CC0: Public Domain 所有者: Tara Boyle 托管方: kaggle
- 链接: URL: https://kaggle.com/datasets/tboyle10/medicaltranscriptions
6. Apollo
- 星标数: ⭐ 199
- 简介: 多语言医学:模型、数据集、基准与代码
- 主题: llm, medical, open-source
- 协议: Apache License 2.0 所有者: FreedomIntelligence 托管方: github
- 链接: https://github.com/FreedomIntelligence/Apollo
7. Symptom2Disease
- 星标数: ⭐ 106
- 简介: 疾病与自然语言症状描述
- 主题: diseases, nlp, classification, deep learning, health conditions
- 协议: CC0: Public Domain 所有者: Niyar R Barman 托管方: kaggle
- 链接: URL: https://kaggle.com/datasets/niyarrbarman/symptom2disease