首页 >> 大全

1.2 基本术语

2023-09-16 大全 34 作者:考证青年

1.2 基本术语

前面引言没什么好记录的,先从基本术语开始记录吧。
PS: 本文仅做自己学习记录所用,有错误欢迎指出。 

1.2.1 有关数据的术语 数据集(data set):包含多组关于一个事件或对象的描述的记录。样本():数据集中每一条记录都可以算作样本。特征():反映事件或对象在某个方面的表现或者性质的事项被称为特征。维数():每个样本所具有的d个特征称为样本的维数。 1.2.2 有关模型学习过程的术语 训练集( set):用于模型训练所使用的数据集。假设():学得模型对应了关于数据的某种潜在规律。测试集( set):学得模型后,使用其进行预测的样本称为测试集。

第一章后续的感觉没有什么好记录,主要还得结合书上的例子和语句自己理解。

2.1 经验误差与过拟合 误差(error):学习器的实际预测输出与样本的真实输出之间的差异称为误差(Error)。通俗来说就是你预测的输出和实际标签或者输出的差异。训练误差( error)或经验误差( error):学习器的在训练集上的误差就被称作训练误差。过拟合和欠拟合:过拟合和欠拟合是一组相反的概念,模型在训练集上表现得很好,但是在测试集上表现的不好,这种情况我们就可以认为学习器是一种过拟合状态。相反,对训练样本的一般性质尚未学好的情况被称为欠拟合。需要解释的是,无论何种情况,过拟合是无法彻底避免的,我们智能使用合适的方法手段,减少其风险。 2.2 几种数据集处理方法 方法名称方法介绍

留出法

将数据集D划分为两个互斥的集合,按这种方式取很多次,得到的结果取平均值作为实验评估结果

交叉验证法

先将数据集D划分为k个大小相似的互斥子集,然后每次使用k-1个子集的并集作为训练集,余下的做测试集,最终返沪这k个测试结果的均值

还有个自助法,我自己也没有很明确的理解,大致就是一种可重复采样的概念,将重复采样做多次取不同的数据。自助法在集成学习上比较常见。这边就不做记录,具体记录我就留在集成学习那部分里面。

2.3 性能度量 2.3.1 混淆矩阵

关于这一部分我觉得有几个概念真的很不好理解,但是真正理解了的话,其实也很好理解。反正就是只可意会,不可言传。下面就来介绍一下这几个概念。

术语基本速度多少_

下面是分类结果的混淆矩阵:

其他的一些相关度量标准

度量标准定义公式

错误率

分类错误的样本数占样本总数的比例

精度

分类正确的样本数占样本总数的比例

查准率(准确率)

真正的正例样本占预测为正例样本的比例

T P T P + F P \frac{TP}{TP+FP} TP+FPTP​

查全率(召回率)

预测正确的正例样本占真正正例总样本的比例

T P T P + F N \frac{TP}{TP+FN} TP+FNTP​

一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。关于这部分在我学习的时候有过相关讨论,关于下图查全率和查准率,是一条**不严格递减(非单调的、不平滑的)**的曲线,在下图中是比较理想化的状态,在一般的机器学习过程中,曲线总是会在某一局部会产生波动。

关于平衡点这个概念,其实是有计算方法的,就是看曲线和y=x这条直线的相交的点就是BEP点的值,也就是“查准率=查全率”的点。接下来的记录就记在下一节里面啦。

敬请期待,啃瓜记录(二)。

如果大家觉得感兴趣的话,可以关注一下我的公众号一颗程序树。

!]()

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了