首页 >> 大全

数据挖掘的分析基础(利用函数计算,基本绘图函数、透视分析等基础方法)

2023-10-11 大全 20 作者:考证青年

一、数据的描述分析 1.基本统计量

提供了很多对数据进行分析的函数,描述统计量函数()可对数据做一基本描述,默认是分析计量数据的基本统计量。

变量进行基本统计分析的函数:

计数数据用途

()

一维频数表

()

二维列联表

()

多维透视

mean()

均值

()

位数

()

分位数

std()

标准差

1.1计数数据的汇总分析

统计学中把取值返回是有限个值或一个数列的变量成为离散变量,其中表示分类情况的数据又称为计数数据。

频数:绝对数

中的.value.()函数可对计数数据计算频数。

这是性别变量的频数分析,说明在52名学生中有男生27人,女生25人。

频率:相对数

这是性别的频率分析,说明在52名学生中男生占51.92%、女生占48.08%。

1.2计量数据的汇总分析

对于数值型数据,经常要分析它的集中趋势和离散程度。用来描述集中趋势的统计量主要有均值、中位数;描述离散程度的统计量主要有方差、标准差。中只需要一个函数就可以简单地得到这些结果。

计算均值、中位数、方差、表混插的函数分别是mean()、()、var()、std()。

1.2.1均数(算术平均数)

均数指一组数据的和初一这组数据的个数所得到的商,它反映了一组数据的总体水平。对于正态分布数据,通常计算其均数,来表示其集中趋势或平均水平。

1.2.2中位数

中位数是将一组数据按大小顺序排列,处于中间位置的一个数据(或中间两个数据的平均值)它反映了一组数据的集中趋势。对非正态分布数据,通常计算其红煨熟来表示其平均水平。

1.2.3极差

极差是一组数据中最大数据与最小数据的差,在统计中常用极差来刻画一组数据的离散程度,它反映的是变量分布的变异范围和离散程度,在总体中任何两个单位的数值之差都不能超过极差。

1.2.4方差

方差是个数据与平均数据的平方的均数,它表示数据离散程度和数据的波动大小。

1.2.5标准差

标准差是方差的算术平方根,作用等同于方差,但单位与源数据单位是一致的。对正态分布数据,通常计算其标准差来反映其变异水平。。

方差或标准差,是表示一组数据的波动性的指标,因此,通过方差或标准差可以判断一组数据的稳定性;方差或标准差越大,数据越不稳定;方差或标准差越小。数据越稳定。

1.2.6四分位数间距(IQR)

对非正态分布数据,通常计算其四分位数间距来反映其变异水平:IQR=Q3-Q1,其中,Q3和Q1分别为数据的第3分位数和第1分位数(或称75%和25%分位数)。提供了函数(),可对计量数据计算分位数。

1.2.7偏度(skew)

偏度是描述数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度亦称偏态、偏态系数,是表征概率分布密度曲线相对于均值不对称程度的特征数或特征量。主管看来就是密度函数曲线尾部的相对长度。

1.2.8峰度(kurt)

峰度与偏度类似,是描述总体中所有取值分布形态陡缓程度的统计量。

1.2.9自编计算基本统计量函数

def stats(x):stat=[x.count(),x.min(),x.quantile(0.25),x.mean(),x.median(),x.quantile(0.75),x.max(),x.max()-x.min(),x.var(),x.std(),x.skew(),x.kurt()]stat=pd.Series(stat,index=['Count','Min','Q1(25%)','Mean','Median','Q3(75%)','Max','Range','Var','Std','Skew','Kurt'])x.plot(kind='kde')   #拟合核密度kde 曲线return(stat)
stats(data.身高)

二、基本绘图函数 1.常用绘图函数

透视图函数是什么_函数透视图透视表_

是的基本绘画包,是的图形框架,类似于和R语言。它是中最著名的绘图包,提供了一整套和相似的命令API,十分适合交互式地进行制图。在绘制中文图形时,需要做一些基本设置。

. as plt #基本绘图包

plt.[‘font.sans-serif’]=[‘KaiTi’]; #黑体

plt.[‘axes.’]=False #正常显示图中负号

plt.(=(5,4)); #图形大小

常用的绘图函数:

计数数据用途

bar()

条图

pie()

饼图

plot()

线图

hist()

直方图

1.1计数数据的基本统计图

条图

条图的高度可以是频数或频率,图的形状看起来一样,但是刻度不一样,画条图的函数是bar()。在对分类数据作条图时,须先对原始数据分组,否则作出的不是分类数据的条图。

饼图

对分类数据还可以用饼图描述。饼图用于表示各类别的构成比情况,它以图形的总面积为100%,扇形面积的大小表示事物内部各组成部分所占的百分比。

1.2计量数据的基本统计图

线图

线图可以显示随时间而变化的连续数据,主要用于显示在相等时间间隔下数据的趋势。

直方图

直方图用于表示连续型变量的频数分布,常用于考察变量的分布是否服从某种分布类型,如正态分布。图形以矩形的面几表示各组段的频数(或频率),各矩形的面几总和为总频数(或等于1)。

散点图

散点图表示一个变量随另一个变量变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。

1.3图形参数设置 标题、标签、标尺及颜色

plt.xlim(),plt.ylim():设置横/纵坐标范围;

plt.(),plt.():设置坐标抽名称

plt.(),plt.():设置坐标轴刻度

参数用来控制图形的颜色,可简写为c,c=‘red’表示设置为红色。

线型和符号。

参数用来控制连线的线型(-:实现,–:虚线,.:点线)

参数用来控制符号的类型,例如,‘o’为绘制实心圆点图。

绘制函数附加图形

使用高级绘画函数可以画出一幅新图,而低级绘图函数只能作用于已有的图形之上.

 垂线:在纵坐标y处画垂直线(plt.axvline())水平线:在横坐标x处画水平线(plt.axhline())

文字函数

text(x,y,,…):在(x,y)处添加指定的文字。

图例

绘制图形后,可使用()函数给图形加图例。

1.4误差条图

误差条图是由代表及的线条组成,通常这些线条用于显示有关图中所显示的数据的标准差信息。

1.5多图

在下,对象可以包含多个子图(Axes),可以使用函数()快速绘制,其调用形式如下: (,,)

透视图函数是什么__函数透视图透视表

2.基于的绘图

数据框有行标签、列标签及分组信息等。

基本格式如下:

	DataFrame.plot(kind='line')kind: 图形类'line':(default)         #线图'bar':                   #垂直条图'barh' :                 #水平条图'hist' :                 #直方图'box'  :                 #箱线图'kde' :     			 #核密度估计图'area' :                 #面积图  'pie'  :                #饼图'scatter':               #散点图

2.1计量数据的绘图

2.2计数数据的绘图

二、数据的透视分析

数据透视分析通常是以透视表的形式进行的。透视表是一种交互式的表,可以进行某些计算,如求和与计算等。数据透视表可以动态地改变变量的布置,以便按照不同方式分析数据。

1.一维频数分析

频数分析,又称’次数分析‘,数据的统计整理方式之一。

一位频数分析即单变量数的透视表分析。

1.1计数数据的频数分析

下面是课程开设数据的频数表与条图

1.2计量数据的频数分析 身高数据的频数表与条图

支出数据的频数表与条图

2.二位聚集分析 2.1计数数据的列联表 二维列联表

()函数可以把双变量分类数据整理成二维表形式。

行和列的合计可使用参数=True.

用参数来计算边缘比例。

=’index‘:各数据占行的比例

=’‘:表示各数据占列的比列

=’all‘:表示各数据占总和的比例

复试条图

其中参数设置为False时,做出的图是分段式条图,为True时做出的图是并列式条图。

2.2计量数据的聚集表

分组()函数

提供了一项技术灵活高效的功能,通过它可以以一种自然的方式对数据集进行切片、切块、摘要等操作;根据一个或多个键拆分对象

按列分组

按分组统计

在分组结果的基础上应用size()、sum()、count()等统计函数,可分别统计分组数量、不同列的分组和、不同列的分组数量。

应用agg()函数计算统计量

应用apply()函数计算统计量

apply()函数不同于agg()函数的地方在于:前者作用域数据框的各个列,后者仅作用于指定的列。

3.多维透视分析 3.1计数数据的透视分析

用包的()函数生成各种统计表,可以达到Excel等电子表格的透视表功能。

3.2计量数据的透视分析

为要计算的统计量函数。

3.3复合数据的透视分析

这时的参数即是分类变量,也可以是数值变量。统计量函数可包括计数和计量函数,如长度、均值和标准差函数len、mean和std。

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了