机器学习的任务范式

人工智能是一种技术,它的目标是让机器具备像人一样的思考、学习和解决问题的能力。机器学习是实现人工智能的一种技术方法。它的核心理念是:让机器通过学习数据中的规律,自己学会完成任务。从“机器学习的任务范式”或“学习信号的来源”角度进行的分类,分为监督学习、无监督学习、强化学习,它们共同构成了机器学习方法论的主体,并与深度学习这种强大的实现工具相结合,驱动了现代AI的发展。

一、监督学习

监督学习是一种通过分析带有明确标签的示例数据来进行建模的学习方式。其输入数据不仅包含特征信息(通常记为X),还包含每个样本对应的“正确答案”或目标值(通常记为Y)。学习的目标是发现从输入X到输出Y之间的内在映射关系或规律,从而构建一个能够对新出现的、未见过的输入数据做出准确预测或判断的模型。这个过程类似于一位学生使用一本附有标准答案的习题集进行学习:学生通过反复练习习题,并即时对照参考答案,来理解题目与答案之间的对应规则,最终掌握独立解答新题目的能力。监督学习的典型任务包括分类(如判断邮件是否为垃圾邮件)和回归(如预测房屋价格)。

1、回归预测问题

回归预测问题(Regression):是指在机器学习和统计学中,你想要预测一个连续的数值型结果的问题。这与分类问题不同,分类问题是预测离散的标签或类别。回归模型的目标是找到输入特征变量/解释变量 X与连续型输出变量/响应变量 y 之间的关系,并用这种关系来预测新的数据点的输出值。

回归(Regression )一词最早由英国统计学家弗朗西斯·高尔顿(Francis Galton)在19世纪提出。其本意是“倒退”或“返回”。他研究父母与子女的身高关系时发现,子女的身高会向平均身高“回归”(Regression to the Mean),即极端值后代的身高会趋向整体均值。虽然现代回归分析已超越这一特定现象,但名称保留了下来。

回归问题的一些典型场景包括:

  1. 房价预测:根据房屋的大小、位置、年龄和其他特征来预测其市场价格。
  2. 股票价格预测:基于各种金融指标和历史数据来预测股票的未来价格。
  3. 气温预测:根据气候数据、时间和其他环境因素来预测未来的气温。
  4. 销售预测:企业根据季节性因素、市场趋势、促销活动等来预测未来的销售额。
  5. 医疗领域:根据病人的年龄、体重、病史和检查结果来预测疾病的发展或药物的剂量。
  6. 能源消耗:预测建筑物的能源效率,根据气候控制设置来优化能源使用。
  7. 保险行业:根据驾驶员的年龄、驾驶记录和其他因素来计算保险费用。
  8. 教育研究:预测学生的考试成绩,基于学习习惯、以往的成绩和参与度等因素。
  9. 供应链管理:预测产品的需求量,以便更好地管理库存和物流。
  10. 经济增长预测:基于历史经济数据和政策变化来预测国家或地区的经济增长率。

典型的回归问题算法包括:

  • 线性回归(Linear Regression)
  • 岭回归(Ridge Regression)/ Lasso回归
  • 回归树(Regression Trees)
  • 梯度提升树(GBDT、XGBoost)

浏览回归预测案例:回归预测问题 – 甲壳虫AI案例精选

2、时序预测问题

时序预测问题是指基于历史时间序列数据,预测未来时间点的数值或趋势的一类问题。其核心特点是数据点按时间顺序排列,且通常存在时间依赖性(如趋势、周期性等)。

关键特征

  1. 时间依赖性:当前值与过去值相关(如股票价格受前一天影响)
  2. 趋势性:长期上升/下降趋势(如GDP增长)
  3. 季节性:固定周期的重复模式(如气温的年度周期)
  4. 噪声干扰:数据中的随机波动

应用场景

  • 短期预测:电力负荷预测(LSTM)
  • 长期趋势:人口增长预测(Prophet)
  • 高频数据:股票价格预测(TCN)
  • 多变量时序:气象预测(Transformer)

评估指标

  • MAE(平均绝对误差):鲁棒性强
  • RMSE(均方根误差):惩罚大误差
  • MAPE(平均绝对百分比误差):相对误差度量
  • sMAPE(对称MAPE):解决零值问题

时序预测问题和回归预测问题有什么本质区别?

两者的核心区别在于对数据的假设:回归预测假设每个数据点都是独立的,而时序预测则是利用数据之间的相关性进行预测。

时间序列分析主要用于预测和揭示时间序列数据中的趋势、季节性等特征,帮助我们了解数据的演变规律和未来的走势。通过时间序列分析,我们可以预测未来一段时间内的气温、股票价格等,帮助决策者做出合理的决策。然而,线性回归分析主要用于确定自变量和因变量之间的关系,根据自变量的变化来预测因变量的数值。线性回归可以帮助我们了解变量之间的关联程度和影响因素,例如经济学中研究收入与消费之间的关系、医学中研究体重与身高之间的关系等。

浏览时序预测案例:时序预测问题 – 甲壳虫AI案例精选

3、分类问题

分类问题(Classification):是机器学习中的一种基本任务,它涉及识别数据项并归类到两个或多个预定义的类别或标签中。这个过程类似于我们日常生活中的决策和归类行为,比如将邮件分为“垃圾邮件”和“非垃圾邮件”,或者将图片分类为“猫”、“狗”或“车”。

分类问题的主要特点包括:

  • 标签化输出:分类问题的输出是离散的标签,而不是连续的数值。
  • 监督学习:分类通常在监督学习的框架下进行,意味着训练数据包括输入特征和对应的标签。
  • 模式识别:分类器学习如何根据输入数据的特征识别和区分不同的类别。
  • 可扩展性:分类问题可以应用于包含大量类别的数据集。

分类问题的类型:

  • 二分类问题:数据只有两个类别,如“正面”和“负面”,“是”和“否”,“通过”和“未通过”。
  • 多分类问题:数据有超过两个类别,如动物分类(猫、狗、鸟等)。
  • 不平衡分类问题:数据集中某些类别的样本数量远多于其他类别。
  • 层次分类问题:类别之间存在层次或嵌套关系,如生物分类(界、门、纲等)。
  • 多标签分类问题:一个数据项可以同时属于多个类别,如一篇文章可能同时属于“政治”和“国际”类别。

分类问题的应用场景:

  1. 垃圾邮件过滤:将电子邮件分类为“垃圾邮件”或“非垃圾邮件”。
  2. 医疗诊断:根据症状和检查结果诊断疾病。
  3. 图像识别:识别图像中的对象属于哪个类别。
  4. 情感分析:判断文本(如产品评论)的情感倾向是正面还是负面。
  5. 语音识别:将语音转换为文本,并识别说话人的性别或情绪状态。

解决分类问题的方法:

  • 逻辑回归:适用于线性可分的二分类问题。
  • 决策树:通过一系列是非问题递归地划分数据。
  • 支持向量机:找到数据点之间的最优边界。
  • 随机森林:集成多个决策树以提高分类的准确性和鲁棒性。
  • 神经网络:特别是深度学习模型,能够处理复杂的非线性关系。

分类问题是机器学习中最常见和基础的问题之一,广泛应用于商业、科研和日常生活中。随着技术的发展,分类算法变得更加精确和高效,能够处理越来越复杂的数据集。

浏览分类问题案例:分类问题 – 甲壳虫AI案例精选

二、无监督学习

无监督学习则是一种在没有预先提供标签或明确答案指导的情况下,仅从数据本身探索其内在结构与模式的学习方式。其输入数据只包含特征信息(X),而没有对应的目标标签(Y)。学习的目标并非进行预测,而是自主地从数据中发现有意义的模式,例如将数据自然地划分成不同的群组、简化数据的复杂维度以揭示其主要特征,或是学习数据本身的概率分布以生成新的样本。这个过程可以比喻为老师提供给学生的是一堆未经过任何分类、也没有标准答案的混杂文章。学生需要依靠自己分析,发现哪些文章在主题或内容上彼此相似并将其归为一类(即聚类),或者从大量文本中提炼出少数几个核心话题与概念(即降维或主题发现)。无监督学习的常见应用包括客户分群、异常检测以及数据可视化前的预处理等。

1、聚类问题

聚类问题(Clustering):是机器学习和数据挖掘中的一个无监督学习任务,它涉及将数据集中的样本分组,使得同一组内的样本相似度高,而不同组之间的样本相似度低。聚类的目的在于发现数据内在的结构和模式。

聚类问题的主要特点:

  • 无监督学习:聚类不需要预先标记的训练数据,算法自行发现数据的分组。
  • 分组:算法将数据点划分为若干个组或“簇”。
  • 相似度度量:聚类算法根据相似度度量(如距离或密度)来评估数据点之间的关系。
  • 簇内紧密度:同一簇内的数据点应该尽可能紧密相连。
  • 簇间分离度:不同簇之间的数据点应该尽可能分开。

聚类问题的应用场景:

  • 市场细分:根据客户的购买行为、偏好等特征将客户分组,以实现更精准的市场定位和营销策略。
  • 社交网络分析:在社交网络中发现社区结构,识别紧密联系的群体或个体。
  • 生物信息学:对基因表达数据进行聚类,以发现具有相似表达模式的基因。
  • 图像分割:在图像处理中,将图像分割成不同的区域,以便于进一步分析或识别。
  • 异常检测:识别数据集中的异常或离群点,如信用卡欺诈检测或网络安全。
  • 文档聚类:对文本数据进行聚类,以发现主题相似的文档,用于信息检索和文档组织。
  • 客户细分:在零售业中,根据客户的购买历史和偏好进行细分,以提供个性化的服务或产品推荐。
  • 天文数据分析:对星系或恒星进行聚类,以研究它们的形成和演化。
  • 产品推荐系统:通过分析用户的购买行为,将用户和产品分组,以提供个性化推荐。
  • 声音和信号处理:对声音信号进行聚类,以识别不同类型的声音或模式。

常见的聚类算法:

  • K均值聚类(K-Means Clustering):通过迭代选择簇中心和分配数据点到最近的簇中心。
  • 层次聚类(Hierarchical Clustering):创建一个簇的层次结构,可以是凝聚的(自底向上)或分裂的(自顶向下)。
  • DBSCAN(Density-Based Spatial Clustering of Applications with Noise):基于密度的聚类算法,可以发现任意形状的簇并识别离群点。
  • 高斯混合模型(Gaussian Mixture Models, GMM):使用概率模型来表示数据的聚类结构。

聚类问题是探索性数据分析的重要工具,它帮助我们理解数据的本质特征和内在联系,而无需依赖预先定义的标签。随着数据量的增长和计算能力的提升,聚类算法在各个领域中的应用越来越广泛。

浏览聚类问题案例:聚类问题 – 甲壳虫AI案例精选

2、降维问题

所谓 “降维问题” ,直观理解就是:我们拥有的数据特征(维度)太多、太复杂,以至于我们无法有效地处理、可视化或理解它们,甚至会影响后续聚类等任务的效果。

具体来说,它包含以下几个层面的“问题”:

  • “维度灾难”:数据点分布在高维空间的各个角落,变得极其稀疏。这会导致许多基于距离的算法(如K-Means聚类)失效,因为在高维空间中,所有点之间的距离都趋于相似,难以区分。要覆盖整个高维空间所需的样本数量呈指数级增长,而我们的数据量往往是有限的。
  • 计算与存储成本高:特征越多,模型计算复杂度越高,需要的内存和存储空间也越大。
  • 难以可视化和理解:人类最多能直观理解三维空间。当特征成百上千时,我们无法直接观察数据的结构和分布,难以发现潜在的模式、群组或异常点。
  • 特征冗余与噪声:很多特征可能是高度相关的(例如,“身高(厘米)”和“身高(英寸)”),这带来了冗余信息。有些特征可能对揭示数据本质结构没有帮助,反而是噪声,会干扰我们对真实模式的识别。

所以,降维的根本目标是:在尽可能保留原始数据最重要结构和信息(如方差、数据点之间的关系、聚类结构)的前提下,将数据从高维空间映射到一个更低维度的空间。

三、强化学习

强化学习(Reinforcement Learning)是一种机器学习任务范式,它让智能体(Agent)通过与环境互动来学习如何做出最优决策。核心思想是”试错学习”——像人类或动物一样,通过行动的结果来调整策略。

强化学习系统通常由五个基本要素构成:

  • 智能体:做出决策和学习的主体。
  • 环境:智能体所处的外部世界,会对智能体的动作做出反应。
  • 状态:在某个时刻,环境情况的描述。智能体根据状态做决策。
  • 动作:智能体可以做出的选择。
  • 奖励:环境反馈给智能体的一个标量信号,表示上一个动作在某个状态下的即时好坏。智能体的终极目标就是最大化累积奖励(总回报)。

它们之间的交互流程形成一个循环:

  1. 智能体在时间 t 观察到环境的状态 S_t。
  2. 智能体根据策略选择一个动作 A_t。
  3. 环境接收到动作 A_t,发生变化,进入新的状态 S_{t+1}。
  4. 环境给出一个即时奖励 R_{t+1} 反馈给智能体。
  5. 循环继续…

这个循环就是 “状态 → 动作 → 奖励 → 新状态” 的持续过程。

与监督学习不同,没有现成的“输入-输出”标注数据(即没有老师告诉你每个状态下什么动作是100%正确的)。智能体只能通过与环境的交互,从稀疏且延迟的“奖励”信号中自己摸索规律。与无监督学习不同,不是要发现数据的隐藏结构(如聚类、降维),而是有一个非常明确的优化目标——最大化累积奖励。奖励信号是学习的唯一指导。

引用资料:

发表评论