数据挖掘的分析基础(利用函数计算,基本绘图函数、透视分析等基础方法)
一、数据的描述分析 1.基本统计量
提供了很多对数据进行分析的函数,描述统计量函数()可对数据做一基本描述,默认是分析计量数据的基本统计量。
对变量进行基本统计分析的函数:
计数数据用途
()
一维频数表
()
二维列联表
()
多维透视表
mean()
均值
()
中位数
()
分位数
std()
标准差
1.1计数数据的汇总分析
统计学中把取值返回是有限个值或一个数列的变量成为离散变量,其中表示分类情况的数据又称为计数数据。
频数:绝对数
中的.value.()函数可对计数数据计算频数。
这是性别变量的频数分析,说明在52名学生中有男生27人,女生25人。
频率:相对数
这是性别的频率分析,说明在52名学生中男生占51.92%、女生占48.08%。
1.2计量数据的汇总分析
对于数值型数据,经常要分析它的集中趋势和离散程度。用来描述集中趋势的统计量主要有均值、中位数;描述离散程度的统计量主要有方差、标准差。中只需要一个函数就可以简单地得到这些结果。
计算均值、中位数、方差、表混插的函数分别是mean()、()、var()、std()。
1.2.1均数(算术平均数)
均数指一组数据的和初一这组数据的个数所得到的商,它反映了一组数据的总体水平。对于正态分布数据,通常计算其均数,来表示其集中趋势或平均水平。
1.2.2中位数
中位数是将一组数据按大小顺序排列,处于中间位置的一个数据(或中间两个数据的平均值)它反映了一组数据的集中趋势。对非正态分布数据,通常计算其红煨熟来表示其平均水平。
1.2.3极差
极差是一组数据中最大数据与最小数据的差,在统计中常用极差来刻画一组数据的离散程度,它反映的是变量分布的变异范围和离散程度,在总体中任何两个单位的数值之差都不能超过极差。
1.2.4方差
方差是个数据与平均数据的平方的均数,它表示数据离散程度和数据的波动大小。
1.2.5标准差
标准差是方差的算术平方根,作用等同于方差,但单位与源数据单位是一致的。对正态分布数据,通常计算其标准差来反映其变异水平。。
方差或标准差,是表示一组数据的波动性的指标,因此,通过方差或标准差可以判断一组数据的稳定性;方差或标准差越大,数据越不稳定;方差或标准差越小。数据越稳定。
1.2.6四分位数间距(IQR)
对非正态分布数据,通常计算其四分位数间距来反映其变异水平:IQR=Q3-Q1,其中,Q3和Q1分别为数据的第3分位数和第1分位数(或称75%和25%分位数)。提供了函数(),可对计量数据计算分位数。
1.2.7偏度(skew)
偏度是描述数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度亦称偏态、偏态系数,是表征概率分布密度曲线相对于均值不对称程度的特征数或特征量。主管看来就是密度函数曲线尾部的相对长度。
1.2.8峰度(kurt)
峰度与偏度类似,是描述总体中所有取值分布形态陡缓程度的统计量。
1.2.9自编计算基本统计量函数
def stats(x):stat=[x.count(),x.min(),x.quantile(0.25),x.mean(),x.median(),x.quantile(0.75),x.max(),x.max()-x.min(),x.var(),x.std(),x.skew(),x.kurt()]stat=pd.Series(stat,index=['Count','Min','Q1(25%)','Mean','Median','Q3(75%)','Max','Range','Var','Std','Skew','Kurt'])x.plot(kind='kde') #拟合核密度kde 曲线return(stat)
stats(data.身高)
二、基本绘图函数 1.常用绘图函数
是的基本绘画包,是的图形框架,类似于和R语言。它是中最著名的绘图包,提供了一整套和相似的命令API,十分适合交互式地进行制图。在绘制中文图形时,需要做一些基本设置。
. as plt #基本绘图包
plt.[‘font.sans-serif’]=[‘KaiTi’]; #黑体
plt.[‘axes.’]=False #正常显示图中负号
plt.(=(5,4)); #图形大小
常用的绘图函数:
计数数据用途
bar()
条图
pie()
饼图
plot()
线图
hist()
直方图
1.1计数数据的基本统计图
条图
条图的高度可以是频数或频率,图的形状看起来一样,但是刻度不一样,画条图的函数是bar()。在对分类数据作条图时,须先对原始数据分组,否则作出的不是分类数据的条图。
饼图
对分类数据还可以用饼图描述。饼图用于表示各类别的构成比情况,它以图形的总面积为100%,扇形面积的大小表示事物内部各组成部分所占的百分比。
1.2计量数据的基本统计图
线图
线图可以显示随时间而变化的连续数据,主要用于显示在相等时间间隔下数据的趋势。
直方图
直方图用于表示连续型变量的频数分布,常用于考察变量的分布是否服从某种分布类型,如正态分布。图形以矩形的面几表示各组段的频数(或频率),各矩形的面几总和为总频数(或等于1)。
散点图
散点图表示一个变量随另一个变量变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。
1.3图形参数设置 标题、标签、标尺及颜色
plt.xlim(),plt.ylim():设置横/纵坐标范围;
plt.(),plt.():设置坐标抽名称
plt.(),plt.():设置坐标轴刻度
参数用来控制图形的颜色,可简写为c,c=‘red’表示设置为红色。
线型和符号。
参数用来控制连线的线型(-:实现,–:虚线,.:点线)
参数用来控制符号的类型,例如,‘o’为绘制实心圆点图。
绘制函数附加图形
使用高级绘画函数可以画出一幅新图,而低级绘图函数只能作用于已有的图形之上.
垂线:在纵坐标y处画垂直线(plt.axvline())水平线:在横坐标x处画水平线(plt.axhline())
文字函数
text(x,y,,…):在(x,y)处添加指定的文字。
图例
绘制图形后,可使用()函数给图形加图例。
1.4误差条图
误差条图是由代表及的线条组成,通常这些线条用于显示有关图中所显示的数据的标准差信息。
1.5多图
在下,对象可以包含多个子图(Axes),可以使用函数()快速绘制,其调用形式如下: (,,)
2.基于的绘图
数据框有行标签、列标签及分组信息等。
基本格式如下:
DataFrame.plot(kind='line')kind: 图形类'line':(default) #线图'bar': #垂直条图'barh' : #水平条图'hist' : #直方图'box' : #箱线图'kde' : #核密度估计图'area' : #面积图 'pie' : #饼图'scatter': #散点图
2.1计量数据的绘图
2.2计数数据的绘图
二、数据的透视分析
数据透视分析通常是以透视表的形式进行的。透视表是一种交互式的表,可以进行某些计算,如求和与计算等。数据透视表可以动态地改变变量的布置,以便按照不同方式分析数据。
1.一维频数分析
频数分析,又称’次数分析‘,数据的统计整理方式之一。
一位频数分析即单变量数的透视表分析。
1.1计数数据的频数分析
下面是课程开设数据的频数表与条图
1.2计量数据的频数分析 身高数据的频数表与条图
支出数据的频数表与条图
2.二位聚集分析 2.1计数数据的列联表 二维列联表
()函数可以把双变量分类数据整理成二维表形式。
行和列的合计可使用参数=True.
用参数来计算边缘比例。
=’index‘:各数据占行的比例
=’‘:表示各数据占列的比列
=’all‘:表示各数据占总和的比例
复试条图
其中参数设置为False时,做出的图是分段式条图,为True时做出的图是并列式条图。
2.2计量数据的聚集表
分组()函数
提供了一项技术灵活高效的功能,通过它可以以一种自然的方式对数据集进行切片、切块、摘要等操作;根据一个或多个键拆分对象
按列分组
按分组统计
在分组结果的基础上应用size()、sum()、count()等统计函数,可分别统计分组数量、不同列的分组和、不同列的分组数量。
应用agg()函数计算统计量
应用apply()函数计算统计量
apply()函数不同于agg()函数的地方在于:前者作用域数据框的各个列,后者仅作用于指定的列。
3.多维透视分析 3.1计数数据的透视分析
用包的()函数生成各种统计表,可以达到Excel等电子表格的透视表功能。
3.2计量数据的透视分析
为要计算的统计量函数。
3.3复合数据的透视分析
这时的参数即是分类变量,也可以是数值变量。统计量函数可包括计数和计量函数,如长度、均值和标准差函数len、mean和std。