首页 >> 大全

计算思维与数据科学①

2023-12-08 大全 27 作者:考证青年

1、数据采集

2、什么是数据预处理:将原始数据转换为可以理解的格式或便于我们处理的格式。

数据清洗:由脏数据到干净数据 数据集成 数据变换 数据归约

3、对原始数据进行审核:完整性、准确性、适用性、时效性

4、脏数据:数据会存在缺失值、重复值、不一致(矛盾、对立、不相容)、含噪声、维度高。

5、缺失属性处理:

1、不处理,直接使用含有缺失值的特征;

2、删除含有缺失值的特征;

3、缺失值补全,平均值插补、同类平均值补全、极大似然估计、压缩感知、矩阵补全。

建模预测:利用机器学习算法对缺失值预测。

高维映射:映射至高维空间采用独热码编码。

多重插补:估计值加不同噪音,选取合适值。

6、独热码(One-Hot ):对于某个特征,如果它有m个可能值,其独热码为一个m位二元特征,且独热码取值互斥,每次只有一个激活,呈现了稀疏性。

独热码解决了分类器不好处理离散属性数据的问题,在一定程度上也起到扩充特征的作用。

7、数据标准化:把数据的值按行(或列)

a)统一映射到某个特定区间,如[-1,1]

b)统一映射到某种分布,如标准正态分布

意义:(1)无量纲化,便于不同单位或量级的指标能够比较和加权。

(2)避免数值过大导致内存溢出

(3)减弱异常值在计算中的不良影响

(4)加速梯度下降法(特征归一化)的收敛速度(椭圆VS圆)

离差标准化

,适用于数据集中的情况

Z-Score标准化

,适用于近似高斯分布的数据

log函数标准化

,适用于数据分布较大,数据要≥1

计算思维中的科学思维_科学思维计算数据怎么写_

L2范数归一化

变换

,普通数值—》概率值

8、数据集的平衡化处理

(1)欠采样 RUS、、ENN、

(2)过采样 SMOTE、

(3)生成合成数据

(4)异常检测

9、代价敏感建模:假阳性假阴性的预测成本不同,因此给少数类样本分配较高的误分类代价,而给少数类样本分配较少的误分类代价。

调整样本权重(调整错误分类的损失) 调整决策阈值 修改现有算法以对稀缺类更敏感

缺点:需要领域先验知识,不能泛化到不同任务,依赖于特定分类器。

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了