【统计学笔记】数据分析必备技能1
一、为什么要学习统计学
存在图表玄机问题,在横向和纵向以及坐标轴上动手脚能够忽悠人
学习统计学,让我们理清思路,学会分析事物之间各种各样的关系,
例如A越多,B越多,这样的句子能说明A和B的相关性,不能说明因果关系,但因果关系一定是相关关系
🌰尼古拉斯凯奇在电影里出现的次数和淹死在游泳池里的人数相关性
全美滑雪场的总收入与被被单缠死的人数的相关性
所以两件事的相关性很强,同时放在一起有意义,才能被我们利用
所以学习统计学,让我们理清思路,学会分析事物之间各种各样的关系
- 打破权威
常见的如何分辨数据的真假方法?
- 谁说的?
- 数据从哪里来的?
- 数据有遗漏吗?
- 是否有人偷换了概念?
- 数据有意义吗?
- 数据分析
学习统计,揭示数据后的真实含义,找到真相
二、统计小百科
1. 概率和机会
概率:描述某件事情出现的可能性的大小;
概率与机会的关系:概率描述了某件事情发生的机会的多少,0-1之间;
条件概率:在某种条件或者信息下对事件发生的可能性大小称为条件概率;
相关事件:如果几个事件互相有影响,则为相关事件,即一件事件的发生与否会影响另一件事件的发生概率;
独立事件:如果几个事件互不影响,则为独立事件,即无论其他事件发生与否,某个事件的发生概率保持不变
互斥事件:事件A和事件B不可能同时发生,互斥事件即AB同时发生的概率为0,即P(AB)=0;
2. 统计是什么
统计是一门收集数据,处理和分析数据,解释数据并从数据中得出结论的科学
统计方法分为描述统计和推断统计
描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法,目的是为了描述数据特征,找到数据的基本规律
比如,df.describe()得出的结果
什么是推断统计?参数估计+假设检验
推断统计是如何利用样本数据来推断总体特征的方法
参数估计:利用样本信息估计总体特征,比如从样本均值估计总体均值
假设检验:利用样本信息判断对总体的假设是否成立,比如小概率事件,比如反证法
3.变量和常量
变量与常量:都是统计学研究的对象特征,在数量指标中,不变的数量指标称为常量或参数,可变的数量指标称为变量。
- 按变量值是否连续:
分为连续变量和离散变量。离散变量指数值只能用自然数或整数单位计,如人数等;连续变量指在一定区间内可以任意取值的变量,其数值是连续不断的,如身高,血压,体重等。
区分:连续变量是一直叠加上去的,是逐渐增长的,增长量可以划分为固定的单位,即1,2,3…;离散变量是对所有统计对象的计数,增长量是非固定的,不是逐渐增长的。
- 按变量值是否能量化:
分为定性变量与定量变量。可以由数字量化的变量就是定量变量,无法用数字表示的变量就是定性变量,如性别,观点等。
4.数据有几种类型
按不同类型分类
- 按计量层次:分为数值型(如成绩100分),分类型(如性别分男女),顺序型(如等级分一等、二等、三等)
注意,不同类型数据可以相互转化的
- 按时间状况:分为截面数据和时序数据。
截面数据指在同一时间,由不同统计单位和相同统计指标组成的一组数据,例如股票数据。不要求统计对象及其范围相同,但要求统计时间相同。
时序数据是在不同时间点上收集到的数据,该类数据反映的是某一现象等随时间的变化状态或程度。如每天气温
5、易混淆的统计术语
- 绝对数与相对数
绝对数:反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标
相对数:指由两个有联系的指标对比计算而得到的数值
- 频数与频率
频数:一组数据中个别数据重复出现的次数(绝对数)
频率:每个小组的频数与数据总和的比值,它代表的是某组在总体中出现的频繁程度(百分数表示,是相对数)
- 百分比与百分点
百分比:表示一个数是另一个数的百分之几,也称百分率或百分数,通常采用%表示,属于相对数
百分点:指以百分数的形式表示的相对指标的变动幅度,比如增长几个百分点
- 比例与比率
比例:指在总体中,各部分数值占全部数值的比重,它反映的是总体的构成和结构
比率:是不同类别数值的对比,它反映的是一个整体中各部分之间的关系
总结,比例指部分占总体的比重,比率指各部分之间的对比
- 倍数与番数
倍数:一个数除以另一个数所得的商
番数:指原来数量的2的N次方,即翻一番 等于 原来的2倍,翻两番 等于 原来的4倍
- 同比与环比
同比:目的是为了与历史同时期进行比较,该指标主要反映的是事物发展的相对情况。比如2019年1月与2018年1月对比。
环比:目的是为了与前一个统计时期进行比较得到的数值,该指标主要反映的是事物逐期发展的情况,比如2019年2月与2019年1月对比。
三、数据抽样
1、数据的收集和整理
2、收集数据时的误差
3、常用的抽样方法
4、设计调查问卷的原则
四、图表的使用
1、如何选择合适的图表
1. 展示比较
展示比较,包括基于分类的比较和基于时间的比较。
基于分类的比较:横轴一般是各个分类
- 不等宽柱形图(常见外企报表):多个项目,两个维度
图表必杀技:一个简洁的Excel不等宽柱形图制作技巧https://www.jianshu.com/p/ba9fd549be9a
默认情况下,柱形图 柱体的宽度是相同的,但调成不等宽,高度和宽度都有意义了
因为宽度不一致,所以不等宽柱形图具有普通柱形图没有的优势:那就是一张图可以展现两个维度但内容,提供了一种展示 数据新的角度
eg:适用于多个项目或主体在两个维度上(营业额和增长率)比较数据,提供了一种展示数据的新的角度。
- 条形图:多个项目,少数分类
eg:适用于多个项目(各个品牌)少数分类(线上线下)基于变量(客单价)的比较。
- 柱形图:少数项目,少数分类
eg :适用于少数分类(线上线下)少数项目(各品牌),基于变量(件单价)的比较。
基于时间的比较:横轴一般为各个时间点
- 雷达图
适用于展示多个项目(各个网站)的某个变量,基于某个周期(各月份)内的比较。
- 曲线图
适用于展示多个项目(各类目)的某个变量(市场份额)基于少数周期(各月份)的比较。
- 散点图
适用于展示某两个变量(业务收入和广告支出)之间的联系。
- 气泡图
适用于展示三个变量(上新款数,单款库存深度和总库存件数)之间的联系。
2. 展示分布
展示分布包括展示单变量的分布,多变量的分布等。
- 直方图
适用于展示单个变量(学生分数)的少数数据分布。
- 正态分布图
适用于展示单个变量(评分)的多个数据点分布。
- 散点图
适用于展示某2个变量(顾客满意度与浏览时间)的数据点的分布。
- 曲面图
适用于展示某3个变量(x,y,z)的数据点的分布。
- 热力图
热图的重要用处就是展现不同指标、不同样本等之间的相关性。
3. 展示构成
展示构成包括展示随时间变化的构成和静态构成。
1.随时间变化的构成
- 堆积百分比柱形图
适用于展示各个项目(各类目)随时间变化的百分比(销售占比)结构。
- 堆积柱形图
适用于展示各个项目(各类目)随着时间变化的销售结构。
- 堆积百分比面积图
适用于展示各个项目(各类目)随时间变化的百分比(销售占比)结构。
- 堆积面积图
适用于展示各个项目(各类目)随时间变化的销售结构。
堆积百分比面积图相比较于堆积百分比柱形图更适用于展示多周期的构成。堆积百分比面积图与堆积面积图的区别在于堆积百分比面积图体现的是相对差异,堆积面积图体现的是绝对差异。
4. 静态构成
- 饼图
适用于展示各个项目(三明治销售额等)占总体(午餐销售额)的比例
- 瀑布图
适用于直观的展示各个项目(各种费用和各种税务等)占总体(年收入)的构成。
- 复合堆积百分比柱形图
适用于展示某个项目构成(总销量)的构成(奶制品的销量)
2、有效图表的几个基本要素
第一,坐标轴必须标记
第二,标题要提炼出重点
第三,备注数据来源,保证可信度
第四,同比数据的解读很重要
同比数据解读:首先同比数据的对比最好转化为每单位净增长数据,比如某个网点的平均增加比,单店比,同店同比更有意义。其次同比增长高,不一定是值得庆贺的,也可能是因为去年表现太差,导致同比增幅大,所以,对比的基数也很重要。
3、增强图表表达力的几种方法
常见的做法有以下几种:
- 改造饼图
使用创意图例联系主题,赋予创意
- 改造柱形图或条形图
经常用小汽车、小房子、小树、小人、银币等图片替换
最好使用透明的矢量图
- 改造面积图
常见的有钞票、黄金、油枪、国旗等
填充曲线图下的面积图
- 使用logo等形象化图表对象
比如使用公司logo、国旗来表示分类标签
- 用地图来加强图表
- 合理的图表修饰
创意活泼的方式修饰图表
- 变换百分比的表现形式
4、可视化图表的几个注意事项
使用图片加强图表时,需注意:
不要使用office自带的或者其他劣质的剪贴画,使用高质量的图片
所使用的图片与图表的主题有较好的相关性,寓意准确,恰当无异议
图片的色彩要与图片协调,可以从图片中提取颜色来做图表
- 饼图的顺序要得当
- 在折线尽量避免用虚线
- 数据的罗列要尽可能的符合逻辑
对类目按字母排序
- 确保数据不会因为设计而丢失或者覆盖
在面积图使用透明效果
- 图表应尽力避免耗费读者过多的精力
添加辅助的图形元素来使数据更易于理解,比如在散点图中增加趋势线
- 确保图表的呈现要符合实际情况
气泡的大小应该和数值一样
在热图中尽力避免使用不同的颜色,可以使用单一颜色不同深浅
柱形图柱子之间的间距不宜过宽或者过窄,最好调整为宽的1/2
数据的对比要直观的呈现差异
尽量避免使用三维图,2D为王道
5、选对图表
数据可视化:如何用好数据可视化图表数据可视化图表,你选对了吗?
《七天数据可视化之旅》木东居士《七天数据可视化之旅》第一天 数据可视化过程