目录
两个问题:
一、建设数仓:数据采集
数据存储——数据清洗——数据加工——数据分析——数据应用

二、数据分析:数据分析的原理
数据分析的流程
数据分析的方法
数据分析如何在非数据岗位发挥价值
数据分析的普及
数据分析是什么?
1、现状描述:通过数据进行量化,客观反应业务的当前状况
2、提出假设:依据业务变化提出假设,并进行验证,
3、结果应用:将验证的结果应用到产品的迭代,业务的优化。
两个问题:
1: 3年前销售,运营等人员需要会数据分析吗?
答:(不需要)
2: 今天销售,运营等人员需要会数据分析吗?
答:(需要)
3: 不需要数据分析的销售(3年前)
把考虑的因素列举下:
卖什么(产品)
多少钱(价格)
卖给谁(用户)
如何卖(电话+微信)
如何找客户(渠道)
如何转化(活动)
如何复购(留存)
按照逻辑拆解问题,问题就直观了!

三年前的销售:
1、每天都有大量的新用户;
2、每个用户联系两三次就可以进行转化,如果转化不了就放弃了;
3、挑选意向客户完全是凭经验;
今天的销售
今天的销售理解指标常见指标:邀约转化率,到店转化率,下单转化率,支付转化率,投诉率等懂数据+做报表现在对销售的考核都是业绩+工作量考核+各种转化率挑选用户没有新增客户,全部是之前的客户,需要从大量的客户中,找出有意向的客户分析用户分析客户的年龄,地区,爱好,习惯等用户标签非数据岗位人员从不需要会数据分析到需要数据分析,这三年发生了什么,三年前互联网企业处于高速发展中,公司之间的竞争是流量的竞争,追的是速度,为了加快速度,就需要大规模招人,一人负责一块工作,大家相互配合,快速发展。今天流量见顶,企业增长受阻,业务持续发展就要庞大的数据量进行精细化运营(比如三年前路上都是黄金,要想挣钱就是看谁跑的快,谁拣的自己多,今天是路上的黄金捡完了,只能从土里挑了,这时就看谁挑的仔细了)。
根据麦肯锡权威预测2025年中国大数据人才缺口将达到220万。数据分析已逐渐成为各行业必备的通用能力。数据分析已不是某一个固定的职位,而是大数据,人工智能时代的通用能力(其实很多岗位已经在接触数据分析了,只不过做很浅而已,大家经常用的excel做表,作图,分析出一些原因)。
我们很多岗位工作中用到的数据很多是从系统中下载的,系统中的数据有时候并不能满足我们的工作,我们就要提出需求优化系统,下面给大家介绍下系统中数据的由来
建数仓
系统数据的由来
数据采集——数据存储——数据清洗——数据加工——数据分析——数据应用
数据采集:
1、梳理好我们工作中需要用的数据,进行埋点;
2、确定好需要埋点的数据以后,开发同学会写代码进行采集,原来好比照相机(点击一步给拍下来一步),比如我们用到的用户所在的城市,怎么获取到这个城市信息呢,在登录app的时候,app会调去网络信息,然后获取ip地址,每个ip地址都有对应的地理位置,依据ip地址找到对应的城市信息。
数据存储:
我们挣的钱都知道存储在银行卡里,采集的数据肯定也得找个地方存储,之前我们是存储在excel中(存储得数据量小,容易丢失,并且不容易操作和回溯)所以现在都存储在服务器里(存储数量大,不容易丢失,方便回溯)。数据存储在服务器上得数据库,数据库里数据表中;
服务器:可以理解为电脑,小公司一般一台服务器就够了,大公司需要多台服务器,好比公司一个员工的话一台电脑就够了,多个员工就需要多台电脑。
数据库:相当于文件夹,我们在日常工作中会在电脑上有很多excel表,word文档,ppt等资料,通常为按照一定的特征将其放到一个文件夹中(比如张三的资料,李四的资料等),
数据库和文件夹一样,也是分类存储。
数据表:相当于excel表
由此我们知道一台电脑上有多个文件夹,一个文件夹里有多个excel表,一个excel里有多条数据,同理一个服务器上有多个数据库,一个数据库有多张数据表,一张数据表有多条数据;

数据清洗:
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等(我们在拍照的时候会设置连拍,拍完后就会发现有些动作被拍了好几张,我们只保留最好看的一张,其他的删除,不会留着占内存,同样道理我们再采集数据的时候也会存在这种现象,然后保留其中一条数据,避免占用内存和影响数据的准确性)

数据加工:
数据规整:针对混乱格式的日志进行字段提取、格式转换,获取结构化数据以支持后续的流处理、数据仓库计算。数据富化:对日志(例如订单日志)和维表(例如用户信息表)进行字段连接(JOIN),为日志添加更多维度的信息,用于数据分析。

数据流转:通过跨地域加速功能将海外地域的日志传输到中心地域,实现全球日志集中化管理。
数据脱敏:对数据中包含的密码、手机号、地址等敏感信息进行脱敏。

数据过滤:过滤出关键服务的日志,用于重点分析。

数据分析:计算,分析,图表,建模,
数据应用:BI系统,推荐算法等
数据分析解决问题的原理:
确定目的(发现问题)——结合业务——影响因素——得出结论——优化影响因素——解决问题
(有的老师讲 已发现问题——结合现实——数据映射——量化分析——得出结论 这个属于数据分析1.0模式,因为今天业务增长缓慢,数据不会出现频繁波动,我们分析的重点由指标异常波动转变为如何提升指标,比如大家经常说的日活由10万下降到9万分析下原因那是之前,现在公司的日活已经是5万,我们需要分析的是如何将日活提升到5.5万,而不是分析为啥跌倒4.8万)
数据分析的流程
明确分析目的:对应非数据岗位的KPI,如何完成KPI;是不是女性的付费率高,是否作为重点客户;
明确数据源及数据口径:取出同一段时间内用户付费的付费数据
数据处理:分类汇总,做出图表
数据分析:通过对比分析发现女性付费率比男性高;
输出结果:将女性用户作为重点客户进行跟踪;
大家想一下作为一个销售公司每天给你几千个用户,是不是的从中找出意向客户,不可能给每个销售人员配一名数据分析同学,
常用的数据分析方法:
对比分析:确定对比的对象,是对比分析的第一步。可以进行横向对比和纵向对比。
横向对比:可以和对手比。可以通过行业趋势与业务发展趋势进行对比,来衡量业务发展是否健康,也可以和行业标准、竞品现状进行对比,以判断业务是否赶超竞品,达到行业标准,以调整业务发展方向和策略。
纵向对比:可以和自己比。可以通过某段时间的业务指标数值来衡量业务情况,也可以通过同比、环比等指标来衡量业务变化趋势。
一共有三种对比方式,对比数据整体大小、整体波动、趋势变化。
漏斗分析:它能够科学地评估一种业务过程,从起点到终点,各个阶段的转化情况。通过可以量化的数据分析,帮助业务找到有问题的业务环节,并进行针对性的优化。

归因分析:要解决的问题就是广告效果的产生,其功劳应该如何合理的分配给哪些渠道。

逻辑树分析:将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。

相关分析:研究两个或两个以上处于同等地位的随机变量间的相关
关系的统计分析方法
数据分析如何在非数据岗位发挥价值
认知即上线,认知多高你的价值就多大,也就是能挣多少钱、
数据分析为什么能给你带来如此大的价值
1:帮你解决问题,完成目标
2:帮你看到事情的本质,
3:帮你提升效率。

我们来对比下会数据分析和不会数据分析在相同场景下的区别
1、销售今天每人目标营业额5000
不会数据分析:从上班开始一直不停的打电话,发短信,加班到很晚还没完成目标;
会数据分析:将5000拆成复购用户3000和非复购2000,依据商品特征找出即将购买的用户进行营销,非复购用户进行用户分层(比如多次访问商品页,停留时间长的标签)找出购买意愿强的用户。
2、运营人员(某社区团购平台需要设置团长提成方案)
不会数据分析:拉新一个人奖励多少人,下单奖励多少,要么超成本预算,要么激励不到位,还有拉新和下单分配问题导致都是无效用户或者拉新用户量太少;
会数据分析:先核算下拉线到下单的转化率多少,人均订单金额多少,核算出人均产生利润,再按照利润点进行总提成成本,最后依据拉新到下单的转化率划分拉新提成和下单提成;
3、自主创业者
不会数据分析:靠经验,拍脑袋决定这个行业可以干,干不到一年放弃了
会数据分析:通过宏观数据,行业研究报告,分析出市场规模,每年的增速可以判断未来公司的规模及市值,从而拿到了融资;

数据分析的普及
三年前转行数据分析师只需要会excel和sql就可以找个工作,现在只会这个已经找不到工作了,是因为不需要这个了吗,答案肯定不是,是因为这个基础的工作非数据分析的同学就顺手就可以给干了,同样逻辑倒推非数据岗位是不是都需要会呢(别人会,你不会,你不失业谁失业)。
追溯30年前计算机刚在国内普及的时候,只要求计算机专业会计算机,现在要求全会,同时excel操作能力的普及,大家觉得数据分析能力普及还远吗,所以非数据岗位人员数据分析水平应至少达到初级数据分析师水平(即熟练操作excel,sql,可视化工具及常用的数据分析方法)