传统机器学习技术主要解决的问题和方案

人工智能主要包括自然语言处理、计算机视觉和传统机器学习(非多层神经网络)三个领域。基于自然语言处理技术又衍生出AI逻辑推理和AI智能体技术。以下为传统机器学习技术主要解决的问题和方案。

传统机器学习(Traditional Machine Learning)是指依赖人工特征工程和统计学习方法的模型,通常适用于中小规模数据集,且对计算资源需求较低。在传统机器学习领域主要解决的问题包括:回归预测问题、时序预测问题、分类问题、聚类问题。

深度学习(Deep Learning)是机器学习的一个子领域,其核心思想是通过多层神经网络(Deep Neural Networks) 自动学习数据的多层次特征表示,从而实现对复杂模式(如图像、语音、文本等)的高效建模和预测。

1、回归预测问题

回归预测问题(Regression):是指在机器学习和统计学中,你想要预测一个连续的数值型结果的问题。这与分类问题不同,分类问题是预测离散的标签或类别。回归模型的目标是找到输入特征变量/解释变量 X与连续型输出变量/响应变量 y 之间的关系,并用这种关系来预测新的数据点的输出值。

回归(Regression )一词最早由英国统计学家弗朗西斯·高尔顿(Francis Galton)在19世纪提出。其本意是“倒退”或“返回”。他研究父母与子女的身高关系时发现,子女的身高会向平均身高“回归”(Regression to the Mean),即极端值后代的身高会趋向整体均值。虽然现代回归分析已超越这一特定现象,但名称保留了下来。

回归问题的一些典型场景包括:

  1. 房价预测:根据房屋的大小、位置、年龄和其他特征来预测其市场价格。
  2. 股票价格预测:基于各种金融指标和历史数据来预测股票的未来价格。
  3. 气温预测:根据气候数据、时间和其他环境因素来预测未来的气温。
  4. 销售预测:企业根据季节性因素、市场趋势、促销活动等来预测未来的销售额。
  5. 医疗领域:根据病人的年龄、体重、病史和检查结果来预测疾病的发展或药物的剂量。
  6. 能源消耗:预测建筑物的能源效率,根据气候控制设置来优化能源使用。
  7. 保险行业:根据驾驶员的年龄、驾驶记录和其他因素来计算保险费用。
  8. 教育研究:预测学生的考试成绩,基于学习习惯、以往的成绩和参与度等因素。
  9. 供应链管理:预测产品的需求量,以便更好地管理库存和物流。
  10. 经济增长预测:基于历史经济数据和政策变化来预测国家或地区的经济增长率。

典型的回归问题算法包括:

  • 线性回归(Linear Regression)
  • 岭回归(Ridge Regression)/ Lasso回归
  • 回归树(Regression Trees)
  • 梯度提升树(GBDT、XGBoost)

浏览回归预测案例:回归预测问题 – 甲壳虫AI(竞赛)案例精选

2、时序预测问题

时序预测问题是指基于历史时间序列数据,预测未来时间点的数值或趋势的一类问题。其核心特点是数据点按时间顺序排列,且通常存在时间依赖性(如趋势、周期性等)。

关键特征

  1. 时间依赖性:当前值与过去值相关(如股票价格受前一天影响)
  2. 趋势性:长期上升/下降趋势(如GDP增长)
  3. 季节性:固定周期的重复模式(如气温的年度周期)
  4. 噪声干扰:数据中的随机波动

应用场景

  • 短期预测:电力负荷预测(LSTM)
  • 长期趋势:人口增长预测(Prophet)
  • 高频数据:股票价格预测(TCN)
  • 多变量时序:气象预测(Transformer)

评估指标

  • MAE(平均绝对误差):鲁棒性强
  • RMSE(均方根误差):惩罚大误差
  • MAPE(平均绝对百分比误差):相对误差度量
  • sMAPE(对称MAPE):解决零值问题

时序预测问题和回归预测问题有什么本质区别?

两者的核心区别在于对数据的假设:回归预测假设每个数据点都是独立的,而时序预测则是利用数据之间的相关性进行预测。

时间序列分析主要用于预测和揭示时间序列数据中的趋势、季节性等特征,帮助我们了解数据的演变规律和未来的走势。通过时间序列分析,我们可以预测未来一段时间内的气温、股票价格等,帮助决策者做出合理的决策。然而,线性回归分析主要用于确定自变量和因变量之间的关系,根据自变量的变化来预测因变量的数值。线性回归可以帮助我们了解变量之间的关联程度和影响因素,例如经济学中研究收入与消费之间的关系、医学中研究体重与身高之间的关系等。

浏览时序预测案例:时序预测问题 – 甲壳虫AI(竞赛)案例精选

3、分类问题

分类问题(Classification):是机器学习中的一种基本任务,它涉及识别数据项并归类到两个或多个预定义的类别或标签中。这个过程类似于我们日常生活中的决策和归类行为,比如将邮件分为“垃圾邮件”和“非垃圾邮件”,或者将图片分类为“猫”、“狗”或“车”。

分类问题的主要特点包括:

  • 标签化输出:分类问题的输出是离散的标签,而不是连续的数值。
  • 监督学习:分类通常在监督学习的框架下进行,意味着训练数据包括输入特征和对应的标签。
  • 模式识别:分类器学习如何根据输入数据的特征识别和区分不同的类别。
  • 可扩展性:分类问题可以应用于包含大量类别的数据集。

分类问题的类型:

  • 二分类问题:数据只有两个类别,如“正面”和“负面”,“是”和“否”,“通过”和“未通过”。
  • 多分类问题:数据有超过两个类别,如动物分类(猫、狗、鸟等)。
  • 不平衡分类问题:数据集中某些类别的样本数量远多于其他类别。
  • 层次分类问题:类别之间存在层次或嵌套关系,如生物分类(界、门、纲等)。
  • 多标签分类问题:一个数据项可以同时属于多个类别,如一篇文章可能同时属于“政治”和“国际”类别。

分类问题的应用场景:

  1. 垃圾邮件过滤:将电子邮件分类为“垃圾邮件”或“非垃圾邮件”。
  2. 医疗诊断:根据症状和检查结果诊断疾病。
  3. 图像识别:识别图像中的对象属于哪个类别。
  4. 情感分析:判断文本(如产品评论)的情感倾向是正面还是负面。
  5. 语音识别:将语音转换为文本,并识别说话人的性别或情绪状态。

解决分类问题的方法:

  • 逻辑回归:适用于线性可分的二分类问题。
  • 决策树:通过一系列是非问题递归地划分数据。
  • 支持向量机:找到数据点之间的最优边界。
  • 随机森林:集成多个决策树以提高分类的准确性和鲁棒性。
  • 神经网络:特别是深度学习模型,能够处理复杂的非线性关系。

分类问题是机器学习中最常见和基础的问题之一,广泛应用于商业、科研和日常生活中。随着技术的发展,分类算法变得更加精确和高效,能够处理越来越复杂的数据集。

浏览分类问题案例:识别分类问题 – 甲壳虫AI(竞赛)案例精选

4、聚类问题

聚类问题(Clustering):是机器学习和数据挖掘中的一个无监督学习任务,它涉及将数据集中的样本分组,使得同一组内的样本相似度高,而不同组之间的样本相似度低。聚类的目的在于发现数据内在的结构和模式。

聚类问题的主要特点:

  • 无监督学习:聚类不需要预先标记的训练数据,算法自行发现数据的分组。
  • 分组:算法将数据点划分为若干个组或“簇”。
  • 相似度度量:聚类算法根据相似度度量(如距离或密度)来评估数据点之间的关系。
  • 簇内紧密度:同一簇内的数据点应该尽可能紧密相连。
  • 簇间分离度:不同簇之间的数据点应该尽可能分开。

聚类问题的应用场景:

  • 市场细分:根据客户的购买行为、偏好等特征将客户分组,以实现更精准的市场定位和营销策略。
  • 社交网络分析:在社交网络中发现社区结构,识别紧密联系的群体或个体。
  • 生物信息学:对基因表达数据进行聚类,以发现具有相似表达模式的基因。
  • 图像分割:在图像处理中,将图像分割成不同的区域,以便于进一步分析或识别。
  • 异常检测:识别数据集中的异常或离群点,如信用卡欺诈检测或网络安全。
  • 文档聚类:对文本数据进行聚类,以发现主题相似的文档,用于信息检索和文档组织。
  • 客户细分:在零售业中,根据客户的购买历史和偏好进行细分,以提供个性化的服务或产品推荐。
  • 天文数据分析:对星系或恒星进行聚类,以研究它们的形成和演化。
  • 产品推荐系统:通过分析用户的购买行为,将用户和产品分组,以提供个性化推荐。
  • 声音和信号处理:对声音信号进行聚类,以识别不同类型的声音或模式。

常见的聚类算法:

  • K均值聚类(K-Means Clustering):通过迭代选择簇中心和分配数据点到最近的簇中心。
  • 层次聚类(Hierarchical Clustering):创建一个簇的层次结构,可以是凝聚的(自底向上)或分裂的(自顶向下)。
  • DBSCAN(Density-Based Spatial Clustering of Applications with Noise):基于密度的聚类算法,可以发现任意形状的簇并识别离群点。
  • 高斯混合模型(Gaussian Mixture Models, GMM):使用概率模型来表示数据的聚类结构。

聚类问题是探索性数据分析的重要工具,它帮助我们理解数据的本质特征和内在联系,而无需依赖预先定义的标签。随着数据量的增长和计算能力的提升,聚类算法在各个领域中的应用越来越广泛。

浏览聚类问题案例:聚类问题 – 甲壳虫AI(竞赛)案例精选

引用资料:

发表评论