【统计学笔记】数据分析必备技能2
如何描述数据分布的特征
数据分布特征,可以从数据的集中趋势,离中趋势,偏态和峰态阐述。
1、集中趋势
中位数、平均数、众数
2、离中趋势
方差、标准差、变异系数
变异系数:在概率论和统计学中,变异系数,又称“离散系数”、“变差系数”(英文:coefficient of variation),是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比:
3、偏态和峰态
偏态和峰态是反映总体分布形态的指标,偏态反映数据分布不对称的方向和程度,峰态反映数据分布图形的尖峭程度或者扁平程度。
偏度分为两种:
- 负偏态或左偏态:左侧的尾部更长,分布的主体集中在右侧。
- 正偏态或右偏态:右侧的尾部更长,分布的主体集中在左侧。
如果分布对称,那么平均值=中位数,偏度为零(此外,如果分布为单峰分布,那么平均值=中位数=众数)。
偏态系数怎么求?
简单偏态系数计算公式为:
加权偏态系数计算公式为:
偏态系数的特征:
它是数据分布偏斜程度的测度;
偏态系数等于0时,对称分布;
偏态系数大于0时,为右偏分布;小于0时,为左偏分布。
峰态系数的特征:
它是数据分布尖峭程度的测度;
峰态系数等于0时,峰度适中;
峰态系数大于0时,为尖峰分布;小于0时,为偏平分布。
4、数据标准化的几种方法
能够去除数据的单位限制,将其转化为无单位的纯数值,便于不同单元或量级的指标能够进行比较和加权。
数据标准化常用方法:
(1)0-1标准化,也叫离差标准化,是对原始数据进行线性变换,使结果落到[0,1]区间。
(2)暴力的方法,直接将数据同时除以100倍,1000倍或者更多。
(3)2-score标准化,也叫标准差标准化。经过处理的数据X*符合标准正态分布,即均值为0,标准差为1。
相关资料:
参考资料:
《轻松驾驭统计学》