计算思维与数据科学①

2023-12-08 大全 27 作者：考证青年

1、数据采集

2、什么是数据预处理：将原始数据转换为可以理解的格式或便于我们处理的格式。

数据清洗：由脏数据到干净数据数据集成数据变换数据归约

3、对原始数据进行审核：完整性、准确性、适用性、时效性

4、脏数据：数据会存在缺失值、重复值、不一致（矛盾、对立、不相容）、含噪声、维度高。

5、缺失属性处理：

1、不处理，直接使用含有缺失值的特征；

2、删除含有缺失值的特征；

3、缺失值补全，平均值插补、同类平均值补全、极大似然估计、压缩感知、矩阵补全。

建模预测：利用机器学习算法对缺失值预测。

高维映射：映射至高维空间采用独热码编码。

多重插补：估计值加不同噪音，选取合适值。

6、独热码（One-Hot ）：对于某个特征，如果它有m个可能值，其独热码为一个m位二元特征，且独热码取值互斥，每次只有一个激活，呈现了稀疏性。

独热码解决了分类器不好处理离散属性数据的问题，在一定程度上也起到扩充特征的作用。

7、数据标准化：把数据的值按行（或列）

a）统一映射到某个特定区间，如[-1,1]

b）统一映射到某种分布，如标准正态分布

意义：（1）无量纲化，便于不同单位或量级的指标能够比较和加权。

（2）避免数值过大导致内存溢出

（3）减弱异常值在计算中的不良影响

（4）加速梯度下降法（特征归一化）的收敛速度（椭圆VS圆）

离差标准化

，适用于数据集中的情况

Z-Score标准化

，适用于近似高斯分布的数据

log函数标准化

，适用于数据分布较大，数据要≥1

计算思维中的科学思维_科学思维计算数据怎么写_

L2范数归一化

，

变换

，普通数值—》概率值

8、数据集的平衡化处理

（1）欠采样 RUS、、ENN、

（2）过采样 SMOTE、

（3）生成合成数据

（4）异常检测

9、代价敏感建模：假阳性假阴性的预测成本不同，因此给少数类样本分配较高的误分类代价，而给少数类样本分配较少的误分类代价。

调整样本权重（调整错误分类的损失）调整决策阈值修改现有算法以对稀缺类更敏感

缺点：需要领域先验知识，不能泛化到不同任务，依赖于特定分类器。

tags: 大数据科学思维计算科学科学

计算思维与数据科学①

欧洲核子研究组织如何预测新的流行数据集

python数据分析项目化教程,python数据分析项目总结

通往互联网金融的IT选择

第1章数据科学基础答案

42岁码农今年找工作记录

计算机促进气象学的发展

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

计算思维与数据科学①

欧洲核子研究组织如何预测新的流行数据集

python数据分析项目化教程,python数据分析项目总结

通往互联网金融的IT选择

第1章 数据科学基础答案

42岁码农今年找工作记录

计算机促进气象学的发展

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

第1章数据科学基础答案

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡