【统计学笔记】数据分析必备技能3
课程思维导图
一、为什么要学习统计学
- https://blog.csdn.net/sinat_41942988/article/details/104345963
- 1、图标的玄机
- 数据标准化
- 捏造趋势
- 如果数据波动性很大,只挑选x轴中对自己有利的数据,就会改变数据的趋势,比如只挑选奇数项
- 学习统计学,既可以用来揭露谎言,也可以瞒天过海
- 2、被混淆的因果关系
- 3、打破权威
- 4、数据分析
二、统计小百科
- 1、概率和机会
- 2、统计是什么
- 3、变量和常量
- 4、数据有几种类型
- 5、易混淆的统计术语
三、数据抽样
1、数据的收集和整理
全面抽查和抽样调查
全面调查和抽样调查是数据收集过程中常用的2种方法
全面调查
全面调查是对调查对象逐个排查
缺点
- 耗费人力,物力,财力
- 调查时间长
优点
- 得到的数据全面
适用场景
比如:假设要了解本校篮球队12名队员的身高状况
- 范围较小
- 容易掌控
- 不具有破坏性
- 可操作性强
抽样调查(常用)
从总体中,抽取若干个体(即样本)进行调查
优点
- 耗费的人力物力财力少
- 大量节约时间
缺点
- 需要具有足够有代表性的样本
- 具有不稳定性,容易有所偏差
适用场景
比如:假设要了解一批灯泡的使用寿命
- 两个原则:范围广,工作量大
区分总体、个体、样本、样本容量
随机样本
在抽取样本时,如果总体中的每一个体都有同等机会被选到样本中,这种抽样称为简单随机抽样,这样得到的样本,称为随机样本总体和样本的关系是什么?
选取样本的注意事项
- 样本的选取直接影响分析结果
- 一般情况下样本容易出现以下问题
- 抽取的样本量过小
- 选取的样本主体不均
有些说谎者为了制造某种统计结果而故意选择对结果有利的样本主体
2、收集数据时的误差
什么是抽样误差?
- 抽样样本小
- 样本主体不均
什么是未响应误差?
抽样调查中,人们因为种种原因没有对调查做出反应,这种误差称为未响应误差什么是响应误差?
抽样调查中,人们因为种种原因没有真实反映他们对观点,这种误差称为响应误差
🌰
小结
- 抽样误差是由于抽样方法所导致的系统误差,在抽样中不可避免
- 响应误差和未响应误差是由于主观因素导致的,他们都会影响对真实世界的了解,在设计调查方案和进行调查过程中要尽量避免
3、常用的抽样方法
随机抽样
是指将调查总体的观察个体全部编号,再随机抽取部分观察个体,组成样本
- 优点
- 缺点
分层抽样
先把要研究的总体按照某些性质分类,再再各类中分别抽取样本
- 优点
- 样本代表性好,抽样误差减少
- 缺点
- 抽样过程繁杂
- 优点
整群抽样
是指先把总体分成若干群,再从这些群中抽取几群;然后再在这些抽取的群中对个体进行简单随机抽样
- 优点
- 便于组织、节省经费
- 缺点
- 抽样误差大于单纯随机抽样
- 优点
系统抽样
先把总体中的每个单元编号,然后随机选取其中之一,作为抽样的开始点进行抽样,通常从开始点开始按照编号进行所谓等距抽样
- 优点
- 易于理解、简便易行
- 缺点
- 总体有周期或增减趋势时,易产生偏差
- 优点
4、设计调查问卷的原则
- 合理性
密切与调查主题相关 - 逻辑性
- 明确性
- 全面性
- 非诱导性
- 合理性
四、描述统计—图表描述
1、数据的计量尺度
定类尺度
指的是按照某种属性对事物进行平行的分类
- 定类尺度的最大特点是数据的类型没有顺序和大小区分
- 案例
定序尺度
不仅对事物分成不同类型,还进行了排序
- 不仅能够量化数据,还能够测量不同类型的顺序,但这些类别具体差别多少不能测量
定距尺度
不仅能将事物区分为不同类型,并进行了排序而且还可以准确地指出类别之间的差距是多少
- 最大的特点是可加减,不仅能比较各类事物的优劣还能计算出事物之间具体查多少
- 定距尺度能对事物进行更准确的测度
定比尺度
不仅能将事物区分为不同类型,并进行了排序,而且可以测量不同变量之间的比例关系
- 最大的特点是可以进行加减乘除四则运算
- 与定距尺度属于同一层次
2、定类数据的图表描述
统计各个类别的频数和频率,用饼图、柱形图表示频率分布
eg:
- spss实操演示
3、定序数据的图表描述
- 定类尺度的数据描述和定序尺度的数据描述都是用【频数分布表】、【饼图】和【条形图】这三种方式来表示,只不过定类数据的分类之间是平行关系,定序数据的各个分类之间进行来排序而已
- spss实操演示
4、定距数据的图表描述
案例
描述定距数据
点线图
- 优点
- 点线图这种表达方式不仅简化了数据,而且没有任何信息损失,它适用于变量取值较少时使用
- 优点
茎叶图
- 优点
- 茎叶图既展示了分布形状又有原始数据,能够展示数据的全貌
- 优点
直方图
- 优点:适用于大量观测的情况,能很好地显示频数分布状况
- 缺点:会丢失很多数据的细节
盒形图
定距数据几种图示方法比较
实操演示
用SPSS对定距数据做图表描述
5、多变量数据的图表描述
- 散点图
适用于两个变量的描述 - 气泡图
适用于三个变量的描述 - 雷达图
适用于三个及以上变量的描述 - spss实操演练
- 散点图
6、如何选择合适的图表
- https://blog.csdn.net/sinat_41942988/article/details/104289633
- 如何选择合适的图表
- 展示比较
- 基于分类的比较
- 基于时间的比较
- 展示分布
- 单个变量
- 2个变量
- 3个变量
- 展示联系
- 2个变量的联系
- 3个变量的联系
- 展示构成
- 随时间变化
- 静态
- 展示比较
7、有效图表的几个基本要素
第一,坐标轴必须标记
第二,标题要提炼出重点,不要用模棱两可的标题
第三,备注数据来源,保证可信度
第四,同比数据的解读很重要
小总结
8、增强图表表达力的几种方法
改造饼图
使用创意图例联系主题,赋予创意
eg
改造柱形图或条形图
经常用小汽车、小房子、小树、小人、银币等图片替换
最好使用透明的矢量图
eg
改造面积图
- 常见的有钞票、黄金、油枪、国旗等
- 填充曲线图下的面积图
使用logo等形象化图表对象
比如使用公司logo、国旗来表示分类标签
eg
用地图来加强图表
eg
合理的图表修饰
创意活泼的方式修饰图表
eg
变换百分比的表现形式
9、可视化图表的几个注意事项
不要使用office自带的或者其他劣质的剪贴画,使用高质量的图片
所使用的图片与图表的主题有较好的相关性,寓意准确,恰当无异议
图片的色彩要与图片协调,可以从图片中提取颜色来做图表
饼图的顺序要得当
在折线图尽量避免用虚线
数据的罗列要尽可能的符合逻辑
- 对类目按字母排序
确保数据不会因为设计而丢失或者覆盖
- 在面积图使用透明效果
图表应尽力避免耗费读者过多的精力
- 添加辅助的图形元素来使数据更易于理解,比如在散点图中增加趋势线
确保图表的呈现要符合实际情况
- 气泡的大小应该和数值一样
在热图中尽力避免使用不同的颜色,可以使用单一颜色不同深浅
柱形图柱子之间的间距不宜过宽或者过窄,最好调整为宽的1/2
数据的对比要直观的呈现差异
尽量避免使用三维图,2D为王道
可视化图表实质在于用一种更加有助于理解和引导的方式去表达信息,尽可能减轻用户获取信息的成本
五、描述统计-统计量描述
- https://blog.csdn.net/sinat_41942988/article/details/104351729
- 1、集中趋势
- 2、离中趋势
- 3、偏态和峰态
- 4、数据标准化的几种方法
六、推断统计-参数估计
1、概率和概率分布
确定性现象
- 必然事件
- 概率为1
- 不可能事件
- 概率为0
- 必然事件
不确定现象(随机现象)
随机现象可能发生的结果,称为随机事件
随机现象可以通过随机试验来研究
随机试验
随机变量
随机试验的偶然性和规律性
- 偶然性(一次试验)
在一次随机试验中,可能出现这种结果,也可能出现那种结果,具体出现什么结果具有偶然性 - 规律性(大量重复试验)
偶然中包含着某种必然和规律
- 偶然性(一次试验)
概率和概率分布就是为了研究这种大量重复试验下产生的规律
概率的定义
数量指标,用来描述随机事件发生的可能性大小
2、点估计和区间估计
参数和统计量
参数
统计量
点估计-点估计量
样本均值被称为总体均值的点估计量
点估计值仅仅是总体均值的一个近似值,它没有反映出这个近似值的误差范围,使用起来把握不大
区间估计
定义
置信区间
置信水平
显著性水平
显著性水平指的是总体参数落在置信区间外的可能性大小置信水平+显著性水平=1
3、总体参数的估计
样本统计量
- 样本均值
- 样本方差
- 样本比例
样本统计量估计总体参数
样本均值估计总体均值
样本方差估计总体方差
- 样本方差会小于总体方差
样本比例估计总体比例
要点
4、三大抽样分布
总体分布
样本分布
定义:样本分布指的是单个样本中各个观察值的分布,当样本容量逐渐增大时,样本分布会逐渐接近总体分布抽样分布
定义
为什么要研究抽样分布?
几个常用的抽样分布
卡方分布(x^2分布)
定义
卡方分布常用于假设检验和置信区间的计算
T分布
定义
F分布
定义
F分布主要用于方差分析,协方差分析和回归分析的分析
正态分布
图形特点
由两个参数确定,一个是均值,另一个是标准差
均值决定量图形的中心位置
标准差决定了图形峰的陡峭程度,标准差越大,说明数据的离散程度越大,数据越分散,曲线就会越扁平
标准正态分布
标准正态分布的概率密度函数用,分布函数用F(X)表示
对于分布函数F(X),有F(-X)=1-F(X)
通过标准正态分布函数的数值表查找概率值P
经验法则
一般的正态分布函数求它的概率值,先转化为标准正态分布
区别
- 案例-调查一所中学所有学生的身高
- 总体分布
- 总体分布往往是未知的,很多场合不可能获得对所有元素的观察值
- 样本分布
- 抽样分布
- 样本均值的概率分布,就是均值的抽样分布
- 案例-调查一所中学所有学生的身高
5、样本估计量的抽样分布
中心极限定理
内容
样本均值的分布
- 无论总体是什么分布,只要N足够大,样本均值的抽样分布就会接近正态分布
样本均值的抽样分布与总体分布的关系
- 1、当总体分布服从正态分布时,任意一个样本,无论总体容量多大,样本均值都服从正态分布
- 2、当总体分布是非正态分布时,只有样本足够大(一般N>30),我们就认为样本均值服从正态分布
- 3、当总体分布是非正态分布时,如果样本是小样本(N<30),样本均值的分布不服从正态分布
样本均值的抽样分布应用
样本均值的抽样分布
定义
样本比例的抽样分布
样本比例定义
样本比例的抽样分布定义
定义
应用样本比例的抽样分布应用
根据小概率事件原理,不可能发生的事发生了,就可以推翻原假设;
比如说假设这个平均寿命为60,平均寿命低于57为小概率事件,但是发生了小概率事件,那么原假设就不正确
样本方差的抽样分布
- 用样本方差去推断总体方差就必须知道样本方差的抽样分布
七、推断统计-假设检验
假设检验是除了参数估计的另一种统计推断方法
1、假设检验的原理
小概率思想+反证法
小概率思想
反证法
如果P则非Q,反证法是用到它的逆否命题:如果Q则非P
2、原假设与备择假设的确定
原假设
原假设是研究者想收集证据证明不正确的假设
除非有足够的证据进行反驳,否则你将接受这个断言
备择假设
备择假设是研究者想收集证明其正确的假设原假设和备择假设的设置要符合这样的原则:先确定备择假设,再根据对立面确定原假设
3、假设检验的基本概念
统计推断的特点就是得出这个结论有很大可能性,但依然有一定但错误率
假设检验的类型
总体均值的检验
Z检验:一般用于大样本(即样本容量大雨30)的均值差异性检验
T检验:用于小样本的均值检验,而且T检验可以在总体方差不知道的情况下检验样本平均数的显著性
- 在T检验之前有时候会用到F检验,它是对两个总体的方差是否有显著性差异所进行的检验,所以又称为方差齐性检验
总体比例检验
- 用到的是Z检验
总体方差检验
- 用的是F检验和卡方检验
假设检验中的两类错误
第一类:原假设正确,应当接受却拒绝了原假设
第二类:原假设错误,应当拒绝却没有拒绝原假设
两类错误的关系
显著性水平是用来确定是否接受原假设的概率标准,表示下总结的可靠程度,并不能做出绝对肯定或绝对否定的结论
常用的显著性水平
单侧检验和双侧检验
在做假设检验时,需要选择单侧检验还是双侧检验
单侧检验
定义:再分布的一侧检验小概率事件发生的概率
适用范围:如果统计指标只有上限或只有下限,则用单侧检验
单侧检验(左侧)
单侧检验(右侧)
双侧检验
定义:在分布的两端检验小概率事件发生的概率
适用范围:如果统计指标的范围在一个区间内,则用双侧检验
解析
P值
定义:
4、总体均值的检验-Z检验
5、总体均值的检验-T检验
6、总体方差和总体比例的检验
总体方差的检验
两种情况
- F检验
- X^2检验
八、相关分析和回归分析
1、变量之间的关系
确定性的关系:函数关系
- 函数关系的特点
变量之间是一一对应的确定关系Y随X一起变化,并完全依赖于x各观测点落在一条直线上
- 函数关系的特点
非确定性的关系:相关关系
相关关系又可以分为因果关系和平行关系
相关关系的特点?
相关关系有哪些类型?
相关关系不等于存在实际关系 数学关系不等于实际关系
正线性相关
正相关不一定就是正线性相关,还要看具体的函数f(x)是一次函数、二次函数还是其他
负线性相关
不相关
因果关系(回归分析)
一种原因引起的结果
多种原因引起的结果
变量之间互为因果
回归分析确定
- 首要确定自变量和因变量
平行关系(相关分析)
总结
案例分析
进行天晴时数和听众人数的回归分析,求误差最小的最佳拟合函数
先求x和y的均值,再求最佳拟合线的斜率b,再求a
有一种方法可以用于衡量直线拟合的程度——计算相关系数
相关系数
- 如果R=-1,则数据完全负线性相关
- 如果R=1,则数据完全正线性相关
- 如果R=0,不存在相关关系
计算公式
spass相关分析案例
2、相关分析和回归分析
3、如何求最佳拟合线
4、相关系数
5、SPSS实操案例分析
九、方差分析
- 1、为什么要进行方差分析
- 2、什么是方差分析
- 3、单因素方差分析
- 4、双因素方差分析
- 无交互作用的双因素方差分析
- 有交互作用的双因素方差分析
- 5、SPSS实操案例分析
十、主成分分析
- 1、主成分分析的原理
- 2、主成分分析的几何解释
- 3、SPSS主成分分析案例
十一、因子分析
- 1、因子分析的原理
- 2、SPSS因子分析案例
十二、聚类分析
- 1、什么是聚类
- 2、关于聚类分析
- 3、SPSS系统聚类案例分析
参考课程:
轻松驾驭统计学—数据分析必备技能