通八洲科技

深入理解机器学习与监督式学习:神经网络基础与模型训练详解 作业帮网站推广怎么做的

日期:2026-02-03 03:50 / 作者:网络

目录

第1章 什么是损失函数 1.1 什么是机器学习

【人工智能-深度学习-8】:神经网络基础知识-机器学习、深度学习模型、模型训练_文火冰堂(王文冰)的博客-CSDN博客

1.2 什么是监督机器学习?

百度百科:监督学习(英文: )是机器学习中的一种方法,可以从训练数据中学习或建立一种模式(函数/模型),并根据该模式推断新的实例。

训练数据由输入对象(通常是向量)和预期输出组成。

函数的输出可以是连续值(称为回归分析),也可以预测分类标签(称为分类)。

白话:所谓监督学习,给定的数据集和对应的标准答案,也就是标签。未来让机器从数据集的标准答案中学习。

其中,数据集用{Xi}表示,对应的标签值也称为样本值,期望值用{Yi}表示。

神经网络模型利用当前参数对数据集{Xi}进行运算和预测,得到的输出值为{}。

也就是说,监督室的学习是指有标准答案的学习。

标准答案格式:

注:标签值、样本值、期望值并不是没有任何误差的期望值,而是人工采样值,是表面现象下的参考值,内涵上不一定是正规值。

1.3 什么是损失函数?

监督学习本质上是给定一系列训练样本{Xi},试图学习样本的映射关系{Xi -> Yi},使得给定a,即使这不在训练样本{Xi -> Yi}中,它仍然可以获得其输出值 {} 尽可能接近真实的 {} 输出。

损失函数(Loss)是这个过程中的关键组成部分。用于衡量模型的预测输出{}与样本真实值{Yi}之间的差异,并指示模型的优化方向:对于给定的样本{Xi}具有最小的误差,即预测输出 {} 与样本的真实值 {Yi} 尽可能接近和相似。损失值越小,相似度越高,误差越小。

在实际工程中,由于{}是未知的,因此在监督学习中,将样本标签{Yi}作为样本数据集{Xi}的真实值! ! ! !

由于实际样本数据集不是单个数据,因此损失函数实际上是所有样本误差的平均值,它反映了模型对样本数据集中所有样本的预测映射关系{Xi -> },以及与已知的样本标签。 {Xi -> }整体的相似度,而不是个别样本的相似度! ! ! !

在同一应用场景下,描述相似程度的损失数学函数是不同的。

在不同的应用场景下,描述相似程度的损失数学函数是不同的。

因此,损失函数也多种多样,如均方误差损失、平均绝对误差损失、平均误差损失、huber损失、分位数损失loss、交叉熵损失函数Cross Loss、铰链损失Hinge Loss等。

不同损失函数的基本函数表达、原理和特点都不相同。

因此,损失函数研究的是如何表达两个函数之间相似程度的数学表达式(XY的映射关系称为函数)。

因此,损失函数研究的是:如何表达两个函数之间距离的数学表达式(XY的映射关系称为函数)。

1.4 本文重点讨论:

均方误差损失、平均绝对误差损失、平均误差损失和 huber 损失。

这些损失函数主要用于线性拟合或线性回归,而不是逻辑分类。

评论:

本文也表述为

第 2 章 平均误差损失 (MAE) 2.1 概述

描述两个函数之间的距离最容易想到的是:在相同的 Xi 输入下,两个函数的输出 Yi 之差的绝对值。平均绝对误差损失就是基于这种考虑。

2.2 损失函数的数学表达式

其数学函数表达式为:

平均绝对误差损失也称为 L1 损失。

2.3 损失函数的几何和意义

从上图可以看出:

2.4 特点 第 3 章 平均误差损失(MSE) 3.1 概述 3.2 损失函数的数学表达式

均方误差损失也称为 L2 损失。

3.3 损失函数的几何和意义

(1) 单变量模型

(2)多元函数

从上图可以看出:

3.4 特点第4章MSE和MAE的比较

上图将 MAE 和 MSE 损失绘制到同一张图中。

第 5 章 平滑平均绝对误差 Huber 损失 (SMAE) 5.1 概述

MSE损失收敛快但容易受到影响。

MAE 对更稳健,但收敛速度较慢。

Huber Loss 是结合了 MSE 和 MAE 的损失函数,并利用了两者的优点。它也称为平均误差损失 (SMAE)。

它的原理和规则很简单:

当样本Xi的误差小于1或接近0时,使用MSE计算其误差。

当样本Xi的误差大于1或更大时,使用MAE计算其误差。

SMAE的优点和缺点:

优点是:训练后获得较高的模型精度,训练后的模型与目标的相似度较高。

缺点是牺牲了模型训练时间,模型收敛速度比MSE慢,模型训练时间较长。

同一个函数如何能同时表达上述规则呢?

5.2 SMAE损失函数的数学表达——方法1

(1)数学表达式

(2)几何图形及物理意义

(三)主要优缺点

优点:该方法简单明了。

缺点:规则僵化、不可控、不可调整。损失函数的来源只能根据|Yi-|之间的关系来选择和(Yi-)^2,是否是|Yi-|或 (Yi-)^2。

SMAE没有对上述方法进行采样,而是采用了更灵活的解决方案,如下方法2:

5.2 SMAE损失函数的数学表达——方法2

(1)数学表达式

或表示为:

该方法的特点:

(2)几何图形及物理意义

5.3 特点

使用 MSE 训练神经网络的一个大问题是其梯度持续较大,这可能导致在使用梯度下降训练结束时丢失最小值。对于 MSE,当损失接近最小值时,梯度会减小,从而变得更加准确。

Huber 损失在这种情况下非常有用,因为它围绕递减梯度的最小值弯曲。它对异常值的鲁棒性比 MSE 更强。因此,它结合了MSE和MAE的优异性能。然而,Huber损失的问题是我们可能需要训练超参数delta,这是一个迭代过程。

作者主页(文火冰堂硅基工坊):文火冰堂(王文兵)的博客_文火冰堂硅基工坊_CSDN博客