【读书总结】《谁说菜鸟不会数据分析》1-4章
第一章 数据分析那些事儿
1、数据分析是什么
数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
2、数据分析六部曲 P17
a. 明确分析思路和目的
使数据体系结构化
以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这样才能确保数据分析维度的完整性,分析结果的有效性及准确性。
b. 收集数据 P20
收集常用数据资源网站,数据库、互联网、公开出版物、市场调查
c. 处理数据
数据清洗、数据转化、数据提取、数据计算
这里涉及数据清洗基本功
d. 分析数据
数据分析是指利用适当的分析方法和工具,对处理的数据进行分析,提取有价值对信息,形成有效结论的过程
这里涉及数据分析工具的使用及数据分析方法,如果涉及数据挖掘,还需了解算法
基本分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等
高级等分析方法:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。
e. 数据展现
涉及数据可视化基本功
f. 撰写报告
对整个数据分析过程的总结和呈现。通过报告,把数据分析起因、过程、结果及建议完整地呈现出来,供决策者参考。
需要明确结论,建议,图文并茂
3、数据分析师的职业要求
懂业务、懂管理、懂分析、懂工具、懂设计
4、常用的指标和术语 P32
各种平均数(算数平均数、加权平均数、几何平均数、调和平均数)、绝对数和相对数、百分比和百分点、频数和频率、环比和同比、倍数和番数、百分比和百分点、
百分点是不同时期以百分数的形式表示的相对指标的变动幅度,比如今年比去年上涨了17个百分点
比例是部分比整体,比率是部分比部分
5、小结
数据分析三字经
第二章 结构为王——确定分析思路
在正确的分析方法论下开展分析。
数据分析方法论主要用来指导数据分析师进行一个完整的数据分析,它更多的是指数据分析思路。
1、常用的数据分析方法论 P40
a. PEST分析法
b. 5W2H分析法
5W2H分析法是从回答中发现解决问题的线索的方法,即何因(why)、何事(what)、何人(who)、何时(when)、何地(where)、如何做(how)、何价(how much),这就构成了5W2H的总框架。该方法简单方便,容易理解,广泛应用于企业营销管理活动等方面。比如用户行为分析、业务专题分析。
eg:
c. 逻辑树分析法
逻辑树分析法是将一个已知问题当成树干,然后考虑这个问题和哪些问题有关。每想到一点,就给这个问题所在的树干加一个树枝,并标明树枝代表什么问题。逻辑树方法又称问题树、演绎树或分解树。可用于业务问题专题分析。
逻辑树的适用要遵循以下原则:
要素化:把相同问题归纳总结成要素
框架化:将各个要素组成框架,遵守 不重不漏的原则
关联化:框架内的各元素保持必要的相互关系,简单不孤立
eg.逻辑树分析法在利润分析中的应用
c. 4P营销理论
4P营销理论产生于20世纪60年代的美国,它随着营销组合理论的提出而出现。它将营销要素概括为四类:产品(product)、价格(price)、渠道(place)、促销(promotion)。
d. 用户行为理论
用户使用行为是指用户为获取、使用物品或服务所采用的各种行动,一般按照以下过程:对产品有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠实用户。
eg:用户使用理论在网站分析中的应用
第三章 数据准备
1、理解数据
2、数据来源
对数据表的要求:
如何将二维表转换为一维表?
导入各种数据?
问卷录入要求?不同题型录入方法?
多选题的录入方法:二分法和多重分类法。
第四章 数据处理
1、何为数据处理
a. “三心二意”处理数据
b. 数据处理的内容
第一步,数据清洗,将重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除。
第二部,数据加工。提取我们想要的信息,需要对字段进行信息提取、计算、分组、转换等加工
常见数据错误识别:
2、数据清洗
清除数据包括:清除重复数据、填充缺失数据、处理错误数据
a. 重复数据处理
- 使用COUNTIF函数
重复次数COUNTIF(A:A,A2)
第几次出现COUNTIF(A$2:A2,A2)
excel绝对引用、相对引用和混合引用的区别?
相对引用,填充的公式里的行号和列号会随着单元格的改变而改变,这就是相对引用。
绝对引用,加$的行或列号不变,快捷键F4帮助用户迅速切换相对引用、绝对引用和混合引用
$A1在行号前面加了一个$符号,行号就固定不变了
A$1 在列号前面加了 美元符号,列号就固定不变了。
使用条件格式
“开始”→“条件格式”→“突出显示单元格规格”→“重复值”
- 用菜单操作来筛选,“数据”→“排序与筛选”→ 高级
b. 缺失值处理
- 定位输入
开始-编辑-定位条件-空值
- 处理缺失值
方法一:样本平均值代替缺失值
方法二:用统计模型计算出来的值去代替缺失值,常使用的模型有:回归模型、判别模型等,这需要专业的数据分析软件
方法三:将缺失值删除
方法四:将缺失值保留,仅在相应的分析中做必要的排除。当调查的样本量比较大,缺失值的数量又不是很多,且变量之间也不存在高度相关的情况下,采用这种方法处理比较可行。
- control+enter一次性填充缺失值
先control选中全部缺失值,在最后一个选中单元格输入内容,按control+enter一次性填充。
- 查找替换
当缺失值是以错误标识符出现时可以使用查找替换处理
c. 检查数据逻辑错误
具体情况具体分析,可以利用IF、OR、AND函数检查或标记错误
比如,问卷题目为多选题限选3项,且为二分法。
IF(COUNTIF(B2:G2,”<>0”)>3,”false”,”true”)
3、数据加工 P82
四大数据加工技巧
a. 数据抽取
数据抽取是指保留原数据表中某些字段的部分信息,组成一个新字段。
- 字段分列
函数法:常用函数LEFT,RIGHT
- 字段合并
b. 数据计算
- 简单计算
- 函数计算
AVERAGE,AUM,MAX,MIN函数
- 日期计算
DATE,YEAR,MONTH,DAY,DATEIF函数
c. 数据分组
d. 数据转换
HLOOKUP函数、SEARCH函数
4、数据抽样
RAND()函数进行随机抽样,RAND()生成0-1间的随机数
表示a—b间的随机数,RAND()*(b-a)+a;表示60-70的数,INT(RAND()*10+60)
参考资料:
《谁说菜鸟不会数据分析》(入门篇)
【读书总结】《谁说菜鸟不会数据分析》1-4章
https://teresesong.github.io/2020/01/17/2020-01-17-【读书总结】《谁说菜鸟不会数据分析》1-4章/