首页 >> 大全

李宏毅机器学习第二周_分类与回归问题

2024-01-05 大全 33 作者:考证青年

目录

摘要

一、预测神奇宝贝

一、什么是

二、

三、预测步骤

一、Step1:定义一个Model

二、Step2: of

三、Step3:

四、该在训练集与测试集上的表现

五、其他因素

二、分类神奇宝贝

一、什么是

二、

三、

(1) 有均值μ和协方差矩阵Σ决定

(2)如何计算出均值μ和协方差矩阵Σ

(3)公式

(4)

(5)Do

(6) Model

(7)Three steps:

(8)

总结

摘要

在本周的学习中,通过两个案例(预测的CP值以及某只所属的类)来学习到了回归与分类问题,并了解到回归与分类可应用的一些领域,比如分类可应用于 (信用贷款判定), (医疗诊断), (手写识别);回归可应用于Stock (股市预测),(推荐)等领域。

一、预测神奇宝贝 一、什么是

回归的主要思想是:通过已知数据集中变量间的相关性,来建立一条最佳拟合曲线,使得这条曲线上的点到观测数据的距离总和最小。这条最佳拟合曲线就是回归函数,可以用于预测新数据的变量输出。

二、

由进化前的一系列数据来估算在进化之后的CP值。首先应该定义一个函数,这个函数的输入是的属性,如

就是这只进化前的cp值;

就是这只的物种;

就是这只的生命值;

分别是这只的重量以及高度。然后输入这些数值之后,经过这个函数的处理,得到一个进化后的预测CP值。

三、预测步骤 一、Step1:定义一个Model

首先定义了一组函数,这组函数中的未知参数可以是任意值,然后根据这些具有不同参数的 model,通过输入x的属性(包括cp值,重量,高度等)来得到一个进化后的预测cp值。

二、Step2: of

(1)评估这些函数的好坏,每一个函数输入相应的特征值之后,得到的预测值与真实值相比较,来计算误差的大小,从而判断该函数在训练数据上的好坏。

(2)上图是一组进化之前与进化之后的CP值的真实数据所绘制的图。

(3)定义Loss,Loss的输入也是一组,然后它的输出可以看出这组输入的好坏。通过MSE的方式来计算误差,然后把这10只的误差相加得到输出。

由 Model得到的预测值最接近真实值的是在本图中蓝色系的那片区域中。

三、Step3:

通过不断的求偏导来迭代更新未知参数的值,这就是梯度下降的本质,然后步长的大小主要就是由超参数与在该点的偏导数决定。从而得到最佳的未知参数,以更准确的预测数据。

在这里更新参数时采用的是最小二乘法,采用最小二乘法时用的是平方而不采用绝对值的原因有以下几种:

1. 平方误差能更好地惩罚较大的误差。因为平方运算会扩大较大的误差值,使其对目标函数的影响更大。这可以促使模型更加关注那些预测误差较大的数据点,在更新参数时提供更大的修正量,加速学习速度。

2. 平方误差导数易求,利于求解更新方向。平方函数是凸函数,具有唯一最小值,其导数表达式简单。而绝对值函数的导数在0点不可导,不利于求解最速下降方向,会使更新过程复杂化。

3. 平方误差通常会产生更小的loss,这意味着模型可以达到更小的训练误差。

4. 平方误差更加稳定。当真实值和预测值较大时,平方误差的增长速度会慢于绝对值误差。这使得平方误差对异常值不那么敏感,参数更新更加稳定。而绝对值误差可能会由于个别极值点而起伏较大,使更新过程不稳定。

5. 平方误差具有更好的统计性质。最小二乘估计量是最优线性无偏估计量,具有最小方差。这使得它在统计上更加可靠,参数估计结果也更加可信。

四、该在训练集与测试集上的表现

我们从梯度下降更新参数,得到最优的一组参数,然后该函数在训练数据上的表现如下图

然后定义的这个Model在测试数据上的表现如下图:

我们发现误差还是比较大的,可能我们定义的 Model比较简单,所以我们想到去定义更复杂的Model。

比如说我们想到把一次函数改为二次函数,然后也是通过定义Loss,梯度下降的方法,得到以下结果:

我们可以发现结果好了很多,但是如果再把model复杂化,比如说用到三次函数,效果会不会更好呢?经过尝试,我们发现三次函数的表现在测试数据上甚至比二次函数的表现更差,这是原因很简单,就是发生了过拟合现象。

五、其他因素

每一只都有其他的属性,不仅仅只有cp值,比若说重量和高度等,那么这些因素会不会影响到进化后的CP值呢?

那么我们根据这个想法重新来定义:

step1:重新设计Model

step2:

在深度学习中, 是一种用来防止过拟合的技术。它的主要作用是:1. 减小模型的参数,简化模型复杂度,从而提高模型的泛化能力。2. 在训练数据上增加一定的惩罚项或约束,防止模型过于复杂,以更好地拟合测试数据。常见的 方法有:1. L1 正则化:在损失函数中增加所有参数的绝对值之和,使许多参数缩减为 0,从而实现参数剪裁的目的。2. L2 正则化:在损失函数中增加所有参数的平方之和,使大的参数值变小,起到收缩参数的效果。这是最常用的正则化方法。

在这个Loss函数中,加入了一个

,这样的话,如果设置一个比较大的

,那么Loss 中影响更大的

这一项,所以把

设置的很小,甚至非常接近0的话,那么当参数改变时,对L的影响就会比较小,如果输入的时候有其他干扰的话,比较平滑的就不会有很大的影响,从而给我们一个比较好的结果。但是不是越大的

越好,因为

越大就会接近一条直线了,得到的结果就不会很好,如下图:

二、分类神奇宝贝 一、什么是

分类是一种基本的机器学习任务,主要用于将实例划分到不同的类别中。它通过训练分类算法来建立分类模型,然后使用该模型对新数据进行分类预测。

二、

(1)定义一个,然后输入一个皮卡丘,得到的输出就是雷电属性;输入一个杰尼龟,得到的输出就是水属性;输入是妙蛙草,输出就是草属性。

(2)那么如何把皮卡丘,杰尼龟这些作为输入,输入到函数中呢,我们想到是否可以用这些的属性值。比如说的总数值,HP值,攻击力,防御值,特殊攻击值,特殊防御值以及速度等信息,我们可以尝试把这些信息作为输入,然后从而得到相应的分类。

那么一个理想的替代方案如下所示:

(3)一共有两个Box 1和Box 2,从Box1抽球的概率

,从Box2抽球的概率是

;从Box1中抽出的球是蓝色球的概率是

,绿色球的概率是

,从Box2中抽出的球是蓝色球的概率是

,绿色球的概率是

。那么我们就可以计算抽中的蓝色球来自

的概率。

(4)我们也可以把这种方法用到二元分类当中,假设有两个类与,通过输入属性值,然后得到输入哪个类的概率,从而预测该输入哪个类。每一个x都是一个,我们想要的结果就是这只是属于还是,要想求得这个值,我们需要求得下图中红色方框中的值。

定义的一个 Model

(5)如果说是Water系,是普通系的,一共有140个,输入Water系的有79只,输入普通系的有61只,那我们就可以计算出抽中的是与的概率。

(6)我们可以通过一些特征值来预测一只的分类情况,如下图所示,每一只由考虑防御值以及特殊防御值这两个特征值,蓝色的点是训练数据中的79只水系。现在我们要考虑从水系中取到橙色的点(从未在训练数据中出现过)的概率,这个概率肯定不是0,只是概率可能比较小。红色圈中的都是来自 ,那么如何由这79只得到这个 。

三、 (1) 有均值μ和协方差矩阵Σ决定

输入的值为的属性,输出为取样到宝可梦的概率。高斯分布的均值μ由两个变量的均值描述,其方差由变量的协方差矩阵

回归分类算法__回归算法和分类算法

进行描述,协方差矩阵表示的是两个变量之间的关系。

不同的

和不同的

会有不同的分布

(2)如何计算出均值μ和协方差矩阵Σ

(3)公式

如果我们根据这79只估计出这个的

,那么如果我们来一个新的x,那么我们把x代入这个公式,就会得到这个这个x是否为水系的可能性。

(4)

我们从图中可以看出,圆形区域中出这79个点的概率会大于椭圆形区域出这79个点的概率,所以不同的

和不同的

会得到不同的可能性,我们就需要找到可以是可能性最大的

假设我们有79只水系,然后就计算某个生成这79个点的几率是最大的。计算步骤就是x1这个点在这个上的值乘上x2在这个上的值一直乘到第79只在这个上的值。我们的目的就是计算出最大的

结果如下图所示:

(5)Do

我们已知在水系和普通系中分别最好的

,因此我们便可以计算出 x是的概率,如果概率大于0.5,我们就把它认为是属于水系。

我们可以看到在测试集上正确率只有47%,这是我们考虑了2种属性的情况,如果我们考虑7种属性的话,那么正确率会达到54%

(6) Model

如果我们两个不同的Class,使用相同的协方差

,可以减少模型的参数,然后再重新计算可能性最大的参数

以及

通过测试集上的数据进行测试后,我们会发现使用7种属性在这种模型上的正确率可以达到73%

(7)Three steps:

(8)

总结

在分类中,步骤也分为3步,它只是定义的不是 model,而是一个得到输出值是一个概率可能性的,定义好model之后也是去调整未知参数,找到最优的

,从而使我们得到比较好的预测结果。下周我将对逻辑回归展开学习。

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了