合集:行业AI数据集精选
本文精选生物和通用医学领域最受欢迎60+机器学习数据集,这些数据集来自具有重要影响力的学会、会议、数据库、期刊、国内外AI竞赛组织方、Github和Kaggle等数据集托管方。
一、医学组织
参考文章:医疗行业最受欢迎100+计算机视觉数据集 – 甲壳虫AI案例数据集和论文
获取医疗行业众多具有重要影响力的学会、会议、数据库和期刊。
二、数据集明细
A、生物医学 (3个)
1. BioNEV
- 星标数: ⭐ 230
- 简介: 图嵌入评估 / 《生物医学网络上的图嵌入:方法、应用与评估》(Bioinformatics 2020)相关代码与数据集
- 主题: biomedical-graphs, biomedical-networks, deepwalk, gae, graph-embedding
- 协议: MIT License 所有者: xiangyue9607
- 链接: https://github.com/xiangyue9607/BioNEV
2. End ALS Kaggle Challenge
- 星标数: ⭐ 197
- 简介: 共享数据并众包关键诊断查询
- 主题: universities and colleges, genetics, biology, health, medicine
- 协议: Other (specified in description) 所有者: ALS Group
- 链接: https://kaggle.com/datasets/alsgroup/end-als
3. Mice Protein Expression
- 星标数: ⭐ 130
- 简介: 在大脑皮层中测得的77种蛋白质表达水平
- 主题: biology, health, multiclass classification, health conditions
- 协议: CC0: Public Domain 所有者: Ruslan Klymentiev
- 链接: https://kaggle.com/datasets/ruslankl/mice-protein-expression
B、通用医学 (57个)
1. Awesome-Medical-Dataset
- 星标数: ⭐ 1,741
- 简介: 精选医疗数据集资源合集。
- 主题: 未提供
- 协议: 未提供 所有者: openmedlab
- 链接: https://github.com/openmedlab/Awesome-Medical-Dataset
2. Life Expectancy (WHO)
- 星标数: ⭐ 1,363
- 简介: 影响预期寿命因素的统计分析
- 主题: global, health, social science, data cleaning
- 协议: Other (specified in description) 所有者: KumarRajarshi
- 链接: https://kaggle.com/datasets/kumarajarshi/life-expectancy-who
3. UNCOVER COVID-19 Challenge
- 星标数: ⭐ 1,354
- 简介: 联合国新冠肺炎数据探索与研究网络
- 主题: public health, business, computer science, covid19
- 协议: Data files © Original Authors 所有者: Roche Data Science Coalition
- 链接: https://kaggle.com/datasets/roche-data-science-coalition/uncover
4. Medical Insurance Cost Dataset
- 星标数: ⭐ 513
- 简介: 根据人口统计和生活方式因素预测健康保险费用
- 主题: health, artificial intelligence, regression, insurance, python
- 协议: CC0: Public Domain 所有者: Mosap Abdel-Ghany
- 链接: https://kaggle.com/datasets/mosapabdelghany/medical-insurance-cost-dataset
5. Lung Cancer Prediction
- 星标数: ⭐ 423
- 简介: 空气污染、酒精、吸烟与肺癌风险
- 主题: earth and nature, pollution, physical science, health, cancer
- 协议: Other (specified in description) 所有者: The Devastator
- 链接: https://kaggle.com/datasets/thedevastator/cancer-patients-and-air-pollution-a-new-link
6. Mental Health
- 星标数: ⭐ 411
- 简介: 心理健康是人民生活和社会的重要组成部分。
- 主题: mental health
- 协议: Other (specified in description) 所有者: Mohamadreza Momeni
- 链接: https://kaggle.com/datasets/imtkaggleteam/mental-health
7. MedTrinity-25M
- 星标数: ⭐ 404
- 简介: [ICLR 2025] 本文为论文《MedTrinity-25M:面向医学领域的大规模多粒度标注多模态数据集》的官方代码库。
- 主题: dataset, mllms, multimodality
- 协议: 未提供 所有者: UCSC-VLAA
- 链接: https://github.com/UCSC-VLAA/MedTrinity-25M
8. PromptCBLUE
- 星标数: ⭐ 391
- 简介: PromptCBLUE:一个用于中文医疗领域多任务与少样本学习的大规模指令调优数据集
- 主题: 未提供
- 协议: 未提供 所有者: michael-wzhu
- 链接: https://github.com/michael-wzhu/PromptCBLUE
9. Zhongjing
- 星标数: ⭐ 388
- 简介: 基于LLaMa的中文医疗ChatGPT,通过大规模预训练语料库和多轮对话数据集进行训练。
- 主题: 未提供
- 协议: Apache License 2.0 所有者: SupritYoung
- 链接: https://github.com/SupritYoung/Zhongjing
10. COVID-19 Corona Virus India Dataset
- 星标数: ⭐ 378
- 简介: 各邦/联邦属地/国家首都辖区的新冠肺炎数据
- 主题: arts and entertainment, india, diseases, public health
- 协议: Other (specified in description) 所有者: Devakumar K. P.
- 链接: https://kaggle.com/datasets/imdevskp/covid19-corona-virus-india-dataset
11. vindr-lab
- 星标数: ⭐ 372
- 简介: 医疗人工智能数据平台,以精简流程与先进标注功能,助力构建高质量数据集与算法。
- 主题: 未提供
- 协议: MIT License 所有者: vinbigdata-medical
- 链接: https://github.com/vinbigdata-medical/vindr-lab
12. Disease Prediction Using Machine Learning
- 星标数: ⭐ 350
- 简介: 运用机器学习和深度学习模型对42种疾病进行分类!
- 主题: diseases, earth and nature, biology, education, medicine
- 协议: Database: Open Database, Contents: Database Contents 所有者: KAUSHIL268
- 链接: https://kaggle.com/datasets/kaushil268/disease-prediction-using-machine-learning
13. Huatuo-26M
- 星标数: ⭐ 321
- 简介: 最大规模的中文医疗问答数据集:包含26,000,000个问答对。
- 主题: 未提供
- 协议: 未提供 所有者: FreedomIntelligence
- 链接: https://github.com/FreedomIntelligence/Huatuo-26M
14. 🧠 Alzheimer’s Disease Dataset 🧠
- 星标数: ⭐ 300
- 简介: 阿尔茨海默病综合健康信息
- 主题: mental health, health, classification, tabular, health conditions
- 协议: Attribution 4.0 International (CC BY 4.0) 所有者: Rabie El Kharoua
- 链接: https://kaggle.com/datasets/rabieelkharoua/alzheimers-disease-dataset
15. Data-Science-for-COVID-19
- 星标数: ⭐ 276
- 简介: 韩国COVID-19数据集与综合医疗数据集及可视化工具
- 主题: 未提供
- 协议: 未提供 所有者: ThisIsIsaac
- 链接: https://github.com/ThisIsIsaac/Data-Science-for-COVID-19
16. COVID-19 Symptoms Checker
- 星标数: ⭐ 269
- 简介: 预测某人是否感染了冠状病毒?
- 主题: categorical, biology, health, classification, health conditions
- 协议: GPL 2 所有者: Bilal Hungund
- 链接: https://kaggle.com/datasets/iamhungundji/covid19-symptoms-checker
17. MedReason
- 星标数: ⭐ 257
- 简介: MedReason:通过知识图谱引导大型语言模型中的事实医学推理步骤
- 主题: medical-dataset, medical-large-language-models, reasoning, reasoning-models
- 协议: 未提供 所有者: UCSC-VLAA
- 链接: https://github.com/UCSC-VLAA/MedReason
18. Health Nutrition and Population Statistics
- 星标数: ⭐ 242
- 简介: 全球人类健康状况
- 主题: nutrition, health, demographics
- 协议: Unknown 所有者: World Bank
- 链接: https://kaggle.com/datasets/theworldbank/health-nutrition-and-population-statistics
19. Brain Stroke Dataset
- 星标数: ⭐ 234
- 简介: 脑卒中数据集分类预测
- 主题: health, intermediate, advanced, binary classification, health conditions
- 协议: Database: Open Database, Contents: Database Contents 所有者: Jillani SofTech
- 链接: https://kaggle.com/datasets/jillanisofttech/brain-stroke-dataset
20. Awesome-Medical-VLMs-and-Datasets
- 星标数: ⭐ 219
- 简介: 一份专为医学报告生成和视觉问答定制的视觉语言模型列表;以及一份医学视觉语言数据集列表。
- 主题: 未提供
- 协议: 未提供 所有者: lab-rasool
- 链接: https://github.com/lab-rasool/Awesome-Medical-VLMs-and-Datasets
21. 🫀 Heart Disease Dataset
- 星标数: ⭐ 214
- 简介: 综合数据集,整合自五个流行的心脏病数据集。
- 主题: medicine, classification, binary classification, drugs and medications, heart conditions
- 协议: Attribution 4.0 International (CC BY 4.0) 所有者: mexwell
- 链接: https://kaggle.com/datasets/mexwell/heart-disease-dataset
22. Brain stroke prediction dataset
- 星标数: ⭐ 182
- 简介: 脑卒中预测数据集
- 主题: health, medicine, beginner, binary classification, heart conditions
- 协议: CC0: Public Domain 所有者: Izzet Turkalp Akbasli
- 链接: https://kaggle.com/datasets/zzettrkalpakbal/full-filled-brain-stroke-dataset
23. Diabetes Dataset – Pima Indians
- 星标数: ⭐ 173
- 简介: 分析糖尿病数据库
- 主题: statistical analysis, data analytics, tabular, health conditions, diabetes
- 协议: CC0: Public Domain 所有者: Ms. Nancy Al Aswad
- 链接: https://kaggle.com/datasets/nancyalaswad90/review
24. Health Insurance Coverage
- 星标数: ⭐ 170
- 简介: 《平价医疗法案》实施前后的保险覆盖率
- 主题: health
- 协议: CC0: Public Domain 所有者: US Department of Health and Human Services
- 链接: https://kaggle.com/datasets/hhs/health-insurance
25. Body signal of smoking
- 星标数: ⭐ 169
- 简介: 通过生命体征识别吸烟者(二分类问题)
- 主题: health, medicine, classification, tabular, binary classification
- 协议: CC0: Public Domain 所有者: kukuroo3
- 链接: https://kaggle.com/datasets/kukuroo3/body-signal-of-smoking
26. mcp-simple-pubmed
- 星标数: ⭐ 162
- 简介: 用于搜索和查询PubMed医学论文/研究数据库的MCP服务器
- 主题: 未提供
- 协议: MIT License 所有者: andybrandt
- 链接: https://github.com/andybrandt/mcp-simple-pubmed
27. Heart Disease
- 星标数: ⭐ 162
- 简介: 健康研究之心血管疾病数据
- 主题: exploratory data analysis, data cleaning, data visualization, data analytics, heart conditions
- 协议: Other (specified in description) 所有者: Oktay Ördekçi
- 链接: https://kaggle.com/datasets/oktayrdeki/heart-disease
28. Memory Test on Drugged Islanders Data
- 星标数: ⭐ 150
- 简介: 《快乐与悲伤记忆启动下新岛民抗焦虑药物使用情况分组研究》
- 主题: mental health, drugs and medications
- 协议: CC BY-SA 4.0 所有者: Steve Ahn
- 链接: https://kaggle.com/datasets/steveahn/memory-test-on-drugged-islanders-data
29. Malaria Dataset
- 星标数: ⭐ 149
- 简介: 2010年各国病例数量
- 主题: diseases, health
- 协议: Other (specified in description) 所有者: Devakumar K. P.
- 链接: https://kaggle.com/datasets/imdevskp/malaria-dataset
30. Smoking and Drinking Dataset with body signal
- 星标数: ⭐ 145
- 简介: 利用身体信号数据预测吸烟者和饮酒者。
- 主题: health, medicine, classification, binary classification
- 协议: CC BY-NC-SA 4.0 所有者: Soo.Y
- 链接: https://kaggle.com/datasets/sooyoungher/smoking-drinking-dataset
31. Parkinson’s Disease Data Set
- 星标数: ⭐ 145
- 简介: 检测帕金森病——Python机器学习项目
- 主题: diseases, earth and nature, health, health conditions
- 协议: Database: Open Database, Contents: Database Contents 所有者: Vikas Ukani
- 链接: https://kaggle.com/datasets/vikasukani/parkinsons-disease-data-set
32. Depression Dataset
- 星标数: ⭐ 140
- 简介: 用于分析健康、生活方式及社会经济因素的综合数据集
- 主题: mental health, health, psychology, drugs and medications, diabetes
- 协议: CC BY-SA 4.0 所有者: AnthonyTherrien
- 链接: https://kaggle.com/datasets/anthonytherrien/depression-dataset
33. medkit-pharmacy-app
- 星标数: ⭐ 136
- 简介: 本应用旨在指导用户在家中使用药物治疗各类疾病的症状。应用内运用了少量动画效果,并采用Firebase作为数据库支持。
- 主题: dart, flutter, medical-application, pharmacy
- 协议: 未提供 所有者: mhmzdev
- 链接: https://github.com/mhmzdev/medkit-pharmacy-app
34. World Bank WDI 2.12 – Health Systems
- 星标数: ⭐ 132
- 简介: 2016年世界发展指标
- 主题: health, covid19
- 协议: Attribution 4.0 International (CC BY 4.0) 所有者: Dan Evans
- 链接: https://kaggle.com/datasets/danevans/world-bank-wdi-212-health-systems
35. Breast Cancer
- 星标数: ⭐ 126
- 简介: 威斯康星州乳腺癌(诊断)数据集
- 主题: medicine, cancer
- 协议: Other (specified in description) 所有者: Mohamadreza Momeni
- 链接: https://kaggle.com/datasets/imtkaggleteam/breast-cancer
36. Genomics of Drug Sensitivity in Cancer (GDSC)
- 星标数: ⭐ 126
- 简介: 探索1000多种癌细胞系的药物敏感性模式
- 主题: biology, health, cancer
- 协议: GPL 3 所有者: Samira Alipour
- 链接: https://kaggle.com/datasets/samiraalipour/genomics-of-drug-sensitivity-in-cancer-gdsc
37. Food Ingredients and Allergens
- 星标数: ⭐ 126
- 简介: 此功能适用于过敏原检测模型及成分相似性分析。
- 主题: health, computer science, exploratory data analysis, classification, food
- 协议: CC0: Public Domain 所有者: Laksika Tharmalingam
- 链接: https://kaggle.com/datasets/uom190346a/food-ingredients-and-allergens
38. Medical Insurance Premium Prediction
- 星标数: ⭐ 125
- 简介: 预测年度医疗保险费用(₹)
- 主题: finance, health, beginner, intermediate, tabular
- 协议: CC0: Public Domain 所有者: Tejashvi
- 链接: https://kaggle.com/datasets/tejashvi14/medical-insurance-premium-prediction
39. Data on COVID-19 (coronavirus)
- 星标数: ⭐ 124
- 简介: 《我们的数据世界》提供的COVID-19(冠状病毒)数据
- 主题: medicine, covid19
- 协议: Attribution 4.0 International (CC BY 4.0) 所有者: Bojan Tunguz
- 链接: https://kaggle.com/datasets/tunguz/data-on-covid19-coronavirus
40. Drosophila Melanogaster Genome
- 星标数: ⭐ 124
- 简介: 探索常见果蝇的注释基因组
- 主题: biology, medicine
- 协议: CC0: Public Domain 所有者: Myles O’Neill
- 链接: https://kaggle.com/datasets/mylesoneill/drosophila-melanogaster-genome
41. Kidney Stone Prediction based on Urine Analysis
- 星标数: ⭐ 118
- 简介: 开发机器学习/深度学习模型以预测肾结石的发生。
- 主题: health
- 协议: Unknown 所有者: Vuppala Adithya Sairam
- 链接: https://kaggle.com/datasets/vuppalaadithyasairam/kidney-stone-prediction-based-on-urine-analysis
42. Pakistan Corona Virus Dataset
- 星标数: ⭐ 116
- 简介: 城市时序动态更新
- 主题: health, computer science, covid19
- 协议: Data files © Original Authors 所有者: Zeeshan-ul-hassan Usmani
- 链接: https://kaggle.com/datasets/zusmani/pakistan-corona-virus-citywise-data
43. Medical Insurance Cost Prediction
- 星标数: ⭐ 114
- 简介: 使用机器学习预测医疗保险费用的数据集
- 主题: artificial intelligence, exploratory data analysis, data visualization, linear regression, matplotlib
- 协议: MIT 所有者: M Rahul Vyas
- 链接: https://kaggle.com/datasets/rahulvyasm/medical-insurance-cost-prediction
44. Lifestyle and Sleep Patterns
- 星标数: ⭐ 114
- 简介: 睡眠中的健康模式
- 主题: health and fitness, exercise, health, data cleaning, data visualization
- 协议: CC0: Public Domain 所有者: Minahil Fatima
- 链接: https://kaggle.com/datasets/minahilfatima12328/lifestyle-and-sleep-patterns
45. ReasonMed
- 星标数: ⭐ 113
- 简介: ReasonMed:一个包含37万条多智能体生成的数据集,旨在推动医学推理研究
- 主题: 未提供
- 协议: 未提供 所有者: alibaba-damo-academy
- 链接: https://github.com/alibaba-damo-academy/ReasonMed
46. Global Health Statistics
- 星标数: ⭐ 112
- 简介: 全球健康统计:各国疾病流行率、治疗与结果分析
- 主题: health, artificial intelligence, computer science, cancer, covid19
- 协议: CC0: Public Domain 所有者: MalaiarasuGRaj
- 链接: https://kaggle.com/datasets/malaiarasugraj/global-health-statistics
47. Eye Tracking Autism
- 星标数: ⭐ 112
- 简介: 眼动追踪数据集以支持自闭症谱系障碍研究
- 主题: mental health, eyes and vision
- 协议: CC BY-SA 4.0 所有者: Mohamadreza Momeni
- 链接: https://kaggle.com/datasets/imtkaggleteam/eye-tracking-autism
48. Digital Lifestyle Benchmark Dataset
- 星标数: ⭐ 108
- 简介: 探究屏幕使用时间与数字行为对心理健康的影响
- 主题: mental health, education, electronics, health conditions
- 协议: Attribution 4.0 International (CC BY 4.0) 所有者: Tarek Masryo
- 链接: https://kaggle.com/datasets/tarekmasryo/digital-health-and-mental-wellness
49. A-Z Medicine Dataset of India
- 星标数: ⭐ 106
- 简介: 该数据集包含超过25万条对抗疗法药物数据及其定价信息。
- 主题: india, health, real estate, medicine, intermediate
- 协议: CC BY-SA 4.0 所有者: Shudhanshu Singh
- 链接: https://kaggle.com/datasets/shudhanshusingh/az-medicine-dataset-of-india
50. COVID vaccination vs. mortality
- 星标数: ⭐ 106
- 简介: 在死亡人数统计旁,您还可以查看新冠疫苗接种比例及进展。
- 主题: global, public health, health, medicine, public safety
- 协议: CC0: Public Domain 所有者: Sina Karaji
- 链接: https://kaggle.com/datasets/sinakaraji/covid-vaccination-vs-death
51. Causes of Death in World
- 星标数: ⭐ 105
- 简介: 人们因何而逝?
- 主题: medicine, drugs and medications, cancer
- 协议: Other (specified in description) 所有者: Mohamadreza Momeni
- 链接: https://kaggle.com/datasets/imtkaggleteam/causes-of-death-in-world
52. ADHD | Mental Health
- 星标数: ⭐ 105
- 简介: 注意力缺陷多动障碍与常见精神障碍:对南非大学新生学业成就的影响
- 主题: universities and colleges, mental health, diseases
- 协议: Attribution 4.0 International (CC BY 4.0) 所有者: Mohamadreza Momeni
- 链接: https://kaggle.com/datasets/imtkaggleteam/adhd-mental-health
53. Vaccination against Covid-19
- 星标数: ⭐ 102
- 简介: 每周更新的COVID-19数据允许进行追溯性修正。
- 主题: europe, medicine, intermediate, advanced, estonian
- 协议: CC BY-SA 3.0 所有者: Olaf Yunus Laitinen Imanov
- 链接: https://kaggle.com/datasets/olaflundstrom/vaccination-against-covid-19
54. medical-ai-experiments
- 星标数: ⭐ 101
- 简介: 一个用于存放个人尝试超越医疗数据集最新技术水平的代码库。
- 主题: artificial-intelligence, attention-mechanism, deep-learning, medicine
- 协议: MIT License 所有者: lucidrains
- 链接: https://github.com/lucidrains/medical-ai-experiments
55. EEG Muse2 Motor imagery brain electrical activity
- 星标数: ⭐ 101
- 简介: 所收集的30份CSV文件来自19名健康受试者(12名男性,7名女性)。
- 主题: neuroscience, medicine, time series analysis, feature engineering, feature extraction
- 协议: MIT 所有者: ScorpioDagger
- 链接: https://kaggle.com/datasets/muhammadatefelkaffas/eeg-muse2-motor-imagery-brain-electrical-activity
56. 🩺📊 Cancer Prediction Dataset 🌟🔬
- 星标数: ⭐ 100
- 简介: 根据医疗与生活方式数据预测癌症风险
- 主题: earth and nature, tabular, binary classification, health conditions, cancer
- 协议: Attribution 4.0 International (CC BY 4.0) 所有者: Rabie El Kharoua
- 链接: https://kaggle.com/datasets/rabieelkharoua/cancer-prediction-dataset
57. Life expectancy & Socio-Economic (world bank)
- 星标数: ⭐ 100
- 简介: 2000-2019年全球预期寿命与社会经济变量关系研究
- 主题: global, health, social science, economics, time series analysis
- 协议: World Bank Dataset Terms of Use 所有者: Shritej Shrikant Chavan
- 链接: https://kaggle.com/datasets/mjshri23/life-expectancy-and-socio-economic-world-bank
C、其他医学资源 (5个)
1. Diabetes Dataset
- 星标数: ⭐ 1,699
- 简介: 糖尿病患者数据
- 主题: india, data visualization, tabular, diabetes, pandas
- 协议: CC0: Public Domain 所有者: Akshay Dattatray Khare
- 链接: https://kaggle.com/datasets/akshaydattatraykhare/diabetes-dataset
2. [NeurIPS 2020] Data Science for COVID-19 (DS4C)
- 星标数: ⭐ 1,632
- 简介: DS4C:韩国COVID-19数据科学项目
- 主题: universities and colleges, biology, data visualization, tabular, covid19
- 协议: CC BY-NC-SA 4.0 所有者: datartist
- 链接: https://kaggle.com/datasets/kimjihoo/coronavirusdataset
4. Diabetes Dataset
- 星标数: ⭐ 938
- 简介: 该数据集最初来源于美国国家糖尿病、消化与肾脏疾病研究所。
- 主题: diabetes
- 协议: CC0: Public Domain 所有者: Mehmet Akturk
- 链接: https://kaggle.com/datasets/mathchi/diabetes-data-set
3. Covid Cases and Deaths WorldWide
- 星标数: ⭐ 567
- 简介: 各国或地区报告病例与死亡人数
- 主题: law, exploratory data analysis, data visualization, data analytics, covid19
- 协议: CC0: Public Domain 所有者: Mrityunjay Pathak
- 链接: https://kaggle.com/datasets/themrityunjaypathak/covid-cases-and-deaths-worldwide
4. Face Mask Detection Dataset
- 星标数: ⭐ 257
- 简介: 口罩的20个类别
- 主题: 未提供
- 协议: CC0: Public Domain 所有者: Wobot Intelligence
- 链接: https://kaggle.com/datasets/wobotintelligence/face-mask-detection-dataset
5. Parkinson’s Disease (PD) classification
- 星标数: ⭐ 103
- 简介: 从帕金森病患者的语音录音中提取特征。
- 主题: diseases, computer science, classification, feature engineering
- 协议: Unknown 所有者: Dipayan Biswas
- 链接: https://kaggle.com/datasets/dipayanbiswas/parkinsons-disease-speech-signal-features