生物和通用医学领域最受欢迎60+机器学习数据集

合集:行业AI数据集精选

本文精选生物和通用医学领域最受欢迎60+机器学习数据集,这些数据集来自具有重要影响力的学会、会议、数据库、期刊、国内外AI竞赛组织方、Github和Kaggle等数据集托管方。

一、医学组织

参考文章:医疗行业最受欢迎100+计算机视觉数据集 – 甲壳虫AI案例数据集和论文

获取医疗行业众多具有重要影响力的学会、会议、数据库和期刊。

二、数据集明细

A、生物医学 (3个)

1. BioNEV
  • 星标数: ⭐ 230
  • 简介: 图嵌入评估 / 《生物医学网络上的图嵌入:方法、应用与评估》(Bioinformatics 2020)相关代码与数据集
  • 主题: biomedical-graphs, biomedical-networks, deepwalk, gae, graph-embedding
  • 协议: MIT License 所有者: xiangyue9607
  • 链接: https://github.com/xiangyue9607/BioNEV
2. End ALS Kaggle Challenge
  • 星标数: ⭐ 197
  • 简介: 共享数据并众包关键诊断查询
  • 主题: universities and colleges, genetics, biology, health, medicine
  • 协议: Other (specified in description) 所有者: ALS Group
  • 链接: https://kaggle.com/datasets/alsgroup/end-als
3. Mice Protein Expression

B、通用医学 (57个)

1. Awesome-Medical-Dataset
2. Life Expectancy (WHO)
3. UNCOVER COVID-19 Challenge
4. Medical Insurance Cost Dataset
5. Lung Cancer Prediction
6. Mental Health
7. MedTrinity-25M
  • 星标数: ⭐ 404
  • 简介: [ICLR 2025] 本文为论文《MedTrinity-25M:面向医学领域的大规模多粒度标注多模态数据集》的官方代码库。
  • 主题: dataset, mllms, multimodality
  • 协议: 未提供 所有者: UCSC-VLAA
  • 链接: https://github.com/UCSC-VLAA/MedTrinity-25M
8. PromptCBLUE
  • 星标数: ⭐ 391
  • 简介: PromptCBLUE:一个用于中文医疗领域多任务与少样本学习的大规模指令调优数据集
  • 主题: 未提供
  • 协议: 未提供 所有者: michael-wzhu
  • 链接: https://github.com/michael-wzhu/PromptCBLUE
9. Zhongjing
  • 星标数: ⭐ 388
  • 简介: 基于LLaMa的中文医疗ChatGPT,通过大规模预训练语料库和多轮对话数据集进行训练。
  • 主题: 未提供
  • 协议: Apache License 2.0 所有者: SupritYoung
  • 链接: https://github.com/SupritYoung/Zhongjing
10. COVID-19 Corona Virus India Dataset
11. vindr-lab
  • 星标数: ⭐ 372
  • 简介: 医疗人工智能数据平台,以精简流程与先进标注功能,助力构建高质量数据集与算法。
  • 主题: 未提供
  • 协议: MIT License 所有者: vinbigdata-medical
  • 链接: https://github.com/vinbigdata-medical/vindr-lab
12. Disease Prediction Using Machine Learning
13. Huatuo-26M
14. 🧠 Alzheimer’s Disease Dataset 🧠
15. Data-Science-for-COVID-19
16. COVID-19 Symptoms Checker
17. MedReason
  • 星标数: ⭐ 257
  • 简介: MedReason:通过知识图谱引导大型语言模型中的事实医学推理步骤
  • 主题: medical-dataset, medical-large-language-models, reasoning, reasoning-models
  • 协议: 未提供 所有者: UCSC-VLAA
  • 链接: https://github.com/UCSC-VLAA/MedReason
18. Health Nutrition and Population Statistics
19. Brain Stroke Dataset
20. Awesome-Medical-VLMs-and-Datasets
21. 🫀 Heart Disease Dataset
  • 星标数: ⭐ 214
  • 简介: 综合数据集,整合自五个流行的心脏病数据集。
  • 主题: medicine, classification, binary classification, drugs and medications, heart conditions
  • 协议: Attribution 4.0 International (CC BY 4.0) 所有者: mexwell
  • 链接: https://kaggle.com/datasets/mexwell/heart-disease-dataset
22. Brain stroke prediction dataset
23. Diabetes Dataset – Pima Indians
  • 星标数: ⭐ 173
  • 简介: 分析糖尿病数据库
  • 主题: statistical analysis, data analytics, tabular, health conditions, diabetes
  • 协议: CC0: Public Domain 所有者: Ms. Nancy Al Aswad
  • 链接: https://kaggle.com/datasets/nancyalaswad90/review
24. Health Insurance Coverage
25. Body signal of smoking
26. mcp-simple-pubmed
27. Heart Disease
  • 星标数: ⭐ 162
  • 简介: 健康研究之心血管疾病数据
  • 主题: exploratory data analysis, data cleaning, data visualization, data analytics, heart conditions
  • 协议: Other (specified in description) 所有者: Oktay Ördekçi
  • 链接: https://kaggle.com/datasets/oktayrdeki/heart-disease
28. Memory Test on Drugged Islanders Data
29. Malaria Dataset
30. Smoking and Drinking Dataset with body signal
31. Parkinson’s Disease Data Set
32. Depression Dataset
33. medkit-pharmacy-app
  • 星标数: ⭐ 136
  • 简介: 本应用旨在指导用户在家中使用药物治疗各类疾病的症状。应用内运用了少量动画效果,并采用Firebase作为数据库支持。
  • 主题: dart, flutter, medical-application, pharmacy
  • 协议: 未提供 所有者: mhmzdev
  • 链接: https://github.com/mhmzdev/medkit-pharmacy-app
34. World Bank WDI 2.12 – Health Systems
35. Breast Cancer
36. Genomics of Drug Sensitivity in Cancer (GDSC)
37. Food Ingredients and Allergens
38. Medical Insurance Premium Prediction
39. Data on COVID-19 (coronavirus)
40. Drosophila Melanogaster Genome
41. Kidney Stone Prediction based on Urine Analysis
42. Pakistan Corona Virus Dataset
43. Medical Insurance Cost Prediction
44. Lifestyle and Sleep Patterns
45. ReasonMed
  • 星标数: ⭐ 113
  • 简介: ReasonMed:一个包含37万条多智能体生成的数据集,旨在推动医学推理研究
  • 主题: 未提供
  • 协议: 未提供 所有者: alibaba-damo-academy
  • 链接: https://github.com/alibaba-damo-academy/ReasonMed
46. Global Health Statistics
47. Eye Tracking Autism
48. Digital Lifestyle Benchmark Dataset
49. A-Z Medicine Dataset of India
50. COVID vaccination vs. mortality
51. Causes of Death in World
52. ADHD | Mental Health
  • 星标数: ⭐ 105
  • 简介: 注意力缺陷多动障碍与常见精神障碍:对南非大学新生学业成就的影响
  • 主题: universities and colleges, mental health, diseases
  • 协议: Attribution 4.0 International (CC BY 4.0) 所有者: Mohamadreza Momeni
  • 链接: https://kaggle.com/datasets/imtkaggleteam/adhd-mental-health
53. Vaccination against Covid-19
54. medical-ai-experiments
  • 星标数: ⭐ 101
  • 简介: 一个用于存放个人尝试超越医疗数据集最新技术水平的代码库。
  • 主题: artificial-intelligence, attention-mechanism, deep-learning, medicine
  • 协议: MIT License 所有者: lucidrains
  • 链接: https://github.com/lucidrains/medical-ai-experiments
55. EEG Muse2 Motor imagery brain electrical activity
56. 🩺📊 Cancer Prediction Dataset 🌟🔬
57. Life expectancy & Socio-Economic (world bank)

C、其他医学资源 (5个)

1. Diabetes Dataset
2. [NeurIPS 2020] Data Science for COVID-19 (DS4C)
4. Diabetes Dataset
3. Covid Cases and Deaths WorldWide
4. Face Mask Detection Dataset
5. Parkinson’s Disease (PD) classification

发表评论