【统计学笔记】数据分析必备技能2

【统计学笔记】数据分析必备技能2

如何描述数据分布的特征

数据分布特征,可以从数据的集中趋势,离中趋势,偏态和峰态阐述。

img点击并拖拽以移动

1、集中趋势

中位数、平均数、众数

2、离中趋势

方差、标准差、变异系数

变异系数:在概率论和统计学中,变异系数,又称“离散系数”、“变差系数”(英文:coefficient of variation),是概率分布离散程度的一个归一化量度,其定义为标准差{\displaystyle \ \sigma }与平均值{\displaystyle \ \mu }之比:

c_v = {\sigma \over \mu }

3、偏态和峰态

偏态和峰态是反映总体分布形态的指标,偏态反映数据分布不对称的方向和程度,峰态反映数据分布图形的尖峭程度或者扁平程度。

在这里插入图片描述点击并拖拽以移动

偏度分为两种:

  • 负偏态左偏态:左侧的尾部更长,分布的主体集中在右侧。
  • 正偏态右偏态:右侧的尾部更长,分布的主体集中在左侧。

如果分布对称,那么平均值=中位数,偏度为零(此外,如果分布为单峰分布,那么平均值=中位数=众数)。

img点击并拖拽以移动

偏态系数怎么求?

简单偏态系数计算公式为:

img点击并拖拽以移动

加权偏态系数计算公式为:

img点击并拖拽以移动

偏态系数的特征:
它是数据分布偏斜程度的测度;
偏态系数等于0时,对称分布;
偏态系数大于0时,为右偏分布;小于0时,为左偏分布。

峰态系数的特征:
它是数据分布尖峭程度的测度;
峰态系数等于0时,峰度适中;
峰态系数大于0时,为尖峰分布;小于0时,为偏平分布。

4、数据标准化的几种方法

能够去除数据的单位限制,将其转化为无单位的纯数值,便于不同单元或量级的指标能够进行比较和加权。
数据标准化常用方法:
(1)0-1标准化,也叫离差标准化,是对原始数据进行线性变换,使结果落到[0,1]区间。

在这里插入图片描述点击并拖拽以移动

(2)暴力的方法,直接将数据同时除以100倍,1000倍或者更多。
(3)2-score标准化,也叫标准差标准化。经过处理的数据X*符合标准正态分布,即均值为0,标准差为1。

在这里插入图片描述点击并拖拽以移动

相关资料:

数据分析|数据分布特征的描述

【数据挖掘知识点一】数据分布特征的描述

分析思维 第一篇:认识数据

参考资料:

《轻松驾驭统计学》

作者

terese

发布于

2020-02-10

更新于

2022-10-05

许可协议