1.2 基本术语

2023-09-16 大全 34 作者：考证青年

1.2 基本术语

前面引言没什么好记录的，先从基本术语开始记录吧。
PS: 本文仅做自己学习记录所用，有错误欢迎指出。

1.2.1 有关数据的术语数据集(data set)：包含多组关于一个事件或对象的描述的记录。样本()：数据集中每一条记录都可以算作样本。特征()：反映事件或对象在某个方面的表现或者性质的事项被称为特征。维数()：每个样本所具有的d个特征称为样本的维数。 1.2.2 有关模型学习过程的术语训练集( set)：用于模型训练所使用的数据集。假设()：学得模型对应了关于数据的某种潜在规律。测试集( set)：学得模型后，使用其进行预测的样本称为测试集。

第一章后续的感觉没有什么好记录，主要还得结合书上的例子和语句自己理解。

2.1 经验误差与过拟合误差(error)：学习器的实际预测输出与样本的真实输出之间的差异称为误差(Error)。通俗来说就是你预测的输出和实际标签或者输出的差异。训练误差( error)或经验误差( error)：学习器的在训练集上的误差就被称作训练误差。过拟合和欠拟合：过拟合和欠拟合是一组相反的概念，模型在训练集上表现得很好，但是在测试集上表现的不好，这种情况我们就可以认为学习器是一种过拟合状态。相反，对训练样本的一般性质尚未学好的情况被称为欠拟合。需要解释的是，无论何种情况，过拟合是无法彻底避免的，我们智能使用合适的方法手段，减少其风险。 2.2 几种数据集处理方法方法名称方法介绍

留出法

将数据集D划分为两个互斥的集合，按这种方式取很多次，得到的结果取平均值作为实验评估结果

交叉验证法

先将数据集D划分为k个大小相似的互斥子集，然后每次使用k-1个子集的并集作为训练集，余下的做测试集，最终返沪这k个测试结果的均值

还有个自助法，我自己也没有很明确的理解，大致就是一种可重复采样的概念，将重复采样做多次取不同的数据。自助法在集成学习上比较常见。这边就不做记录，具体记录我就留在集成学习那部分里面。

2.3 性能度量 2.3.1 混淆矩阵

关于这一部分我觉得有几个概念真的很不好理解，但是真正理解了的话，其实也很好理解。反正就是只可意会，不可言传。下面就来介绍一下这几个概念。

术语基本速度多少_

下面是分类结果的混淆矩阵：

其他的一些相关度量标准

度量标准定义公式

错误率

分类错误的样本数占样本总数的比例

精度

分类正确的样本数占样本总数的比例

查准率(准确率)

真正的正例样本占预测为正例样本的比例

T P T P + F P \frac{TP}{TP+FP} TP+FPTP

查全率(召回率)

预测正确的正例样本占真正正例总样本的比例

T P T P + F N \frac{TP}{TP+FN} TP+FNTP

一般来说，查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。关于这部分在我学习的时候有过相关讨论，关于下图查全率和查准率，是一条**不严格递减(非单调的、不平滑的)**的曲线，在下图中是比较理想化的状态，在一般的机器学习过程中，曲线总是会在某一局部会产生波动。

关于平衡点这个概念，其实是有计算方法的，就是看曲线和y=x这条直线的相交的点就是BEP点的值，也就是“查准率=查全率”的点。接下来的记录就记在下一节里面啦。

敬请期待，啃瓜记录（二）。

如果大家觉得感兴趣的话，可以关注一下我的公众号一颗程序树。

!]()

tags: 样本误差术语模型曲线

1.2 基本术语

基于WebGL的仓储粮食温度可视化 ThingJS

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

On the Opportunities and Risks of Founda

科技云报道：数智化这道升维题，云计算能答好吗？

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

1.2 基本术语

基于WebGL的仓储粮食温度可视化 ThingJS

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

On the Opportunities and Risks of Founda

科技云报道：数智化这道升维题，云计算能答好吗？

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡