数据分析从入门到进阶书(从零入门数据分析)

数据与智能 出版了专著「构建企业级推荐系统:算法、工程实现与案例分析」。每周输出7篇推荐系统、数据分析、大数据、AI原创文章。「数据与智能」(同名视频号、知乎、头条、B站、快手、抖音、小红书等自媒体平台号) 社区,聚焦数据、智能领域的知识分享与传播。

作者 | gongyouliu

编辑 | auroral-L

本篇文章共8628字,预计阅读时间35分钟。

大家好,我是强哥。一个热爱暴走、读书、写作的人!

本章目录

一、数据分析的发展简史

二、数据分析的应用场景

三、常用的数据分析工具与技术

四、数据分析的思维方法

1. 业务价值驱动数据分析

(1)用户价值

(2)商业价值

2. 量化思维

3. 构建数据分析的闭环体系

4. 漏斗思维

五、数据分析的困难与挑战

1. 意识上的淡薄

2. 技术上的挑战

3. 业务上的挑战

六、数据分析的价值与意义

1. 数据具备展示作用

2. 找到事件发生的原因

3. 挖掘事件之间的关联关系

4. 进行预测和决策

总结

从计算机发明开始,人类逐步进入了数字时代。特别是在2000年后的移动互联网时代,我们生活的世界一切都可以数字化。数字化可以更好地服务于社会发展,提升人们的生活水平,这是一个不可逆转的趋势和规律。

在数字化大趋势下,我们生活中的一切都被数字化革新了。衣、食、住、行、国防、教育、能源、医疗、文化、工业、农业、商业等都在数字化浪潮中发生了深刻的变化。日常生活中的一切与我们息息相关相关的对象都被数字化了。

在数字化时代,一切都可以数据化、一切都数据化了。我们想要更好地理解和认识这个世界,就需要学会怎么利用数据,学会怎样让数据真正产生价值。用好数据是一种核心能力。数据的记录、传输、存储、处理、决策是一个闭环体系,整个链条是不可分割的,这个链条是数据分析的整个生命周期。在一切可以数字化的当下,数据也给我们带来了极大的挑战,数据的挑战存在于数据分析的整个生命周期中。

数字化让我们可以更加便捷、全面、深刻地理解世界。数字化给我们提供了一种认识世界的全新视角和方法论。在利用数据去认识世界的过程中,我们也创造了极大的商业价值。从电子计算机出现以来全球产生的财富之和远远超过人类在这之前所有时间创造的财富之和,这其中数字化功不可没。

数据像石油一样是一种资产,其自身的价值需要我们去挖掘,就像石油需要我们去提炼并生产出汽油、柴油、煤油,才能应用到工业生产中的各行各业一样,数据也需要我们进行分析与挖掘,才能创造出商业价值。

数据从产生到实现价值的整个生命周期中的每个环节都非常重要,只有处理好每个环节才能真正发挥数据的价值。我们这本书虽然会讲解到数据应用整个生命周期中各个模块,但主要是聚焦在数据分析上,聚焦在怎么利用数据化的思维、方法、工具从数据中挖掘有用的信息。

我们在这一章中先对数据分析进行一个比较全面的概述,让读者可以从更多的维度了解数据分析。具体来说,我们会从数据分析的发展简史、数据分析的应用场景、常用数据分析工具与技术、数据分析的思维方法、数据分析的困难与挑战、数据分析的价值与意义等6个维度来讲解。首先我们先简单介绍一下数据分析的发展史,让读者有一个比较清晰的脉络。

一、数据分析的发展简史

谈到数据分析,离不开数字。人类从很早就开始与数打交道了,甚至早于数字发明之前。远古人类通过结绳记事来记录身边发生的重大事情(比如打到了一头猎物就在绳子上打一个结)。结绳记事发生在语言产生以后、文字出现之前的漫长年代里。我国古代文献对此也有记载,《周易·系辞》云:“上古结绳而治”。《春秋左传集解》云:“古者无文字,其有约誓之事,事大大其绳,事小小其绳,结之多少,随扬众寡,各执以相考,亦足以相治也。”结绳记事是数字发明之前利用数据来解决问题的萌芽状态,可以看成是最早的数据分析了,只不过那时的人没有这种意识,结绳也只能起到简单的记忆作用。

人类在与自然界的交互中慢慢成长,人类对世界的认识变得越来越清晰。人们对数的概念也是在日常生活中逐步意识到的,最终出现了数字,这时人类有了更加抽象便利的工具来对数据进行记录、计算。特别是纸张的发明,为人类提供了书写、记录的工具。再后来,计算尺、算盘等计算工具的发明,让人类的计算能力有了极大的飞跃。人们开始可以处理更加复杂的计算分析问题。最早导弹发射的弹道计算就是采用计算尺算出来的。

当计算机出现后,有了电子表格软件,数据分析就更加容易了。最早的电子表格软件是美国莲花公司的Lotus,该公司在激烈的电子表格软件竞争中不敌微软,在与微软的竞争中败下阵来,最终被IBM收购。大家熟知的由微软开发的Excel是电子表格软件的佼佼者,几乎统治了整个电子表格软件的市场。Excel很好用、很实用,常规的数据分析与数据可视化都可以轻松应对。

随着移动互联网的发展,数据量指数增长,数据的形式也更加多样化,出现了种类繁多的非结构化数据(如图片、音频、视频、网页等富媒体数据),这时处理数据就没有那么容易了。2003到2006年间,Google发表了3篇具有划时代意义的大数据论文,标志着大数据时代的到来。真正让大数据火起来的触发点是2006年Doug Cutting开源的Hadoop软件(参考Google其中一篇论文的思路开发而成)。这之后全世界的开源贡献者围绕Hadoop构建了一系列(超过一百个,大家看看Apache基金会下面的项目就知道大数据组件有多么庞大)的大数据组件,大数据逐渐形成了一个庞大的生态系统。有了大数据技术,人类的计算分析能力得到了极大的提升,可以轻易处理海量的数据。后面更有Spark、Flink等新一代分布式计算软件的出现,让我们可以更好地(甚至实时地)对海量数据进行分析挖掘。

除了软件层面的进步,在计算机硬件上也有非常多新的成果,特别是芯片技术的发展和出现(如GPU、TPU、FPGA、苹果的A系列芯片等),让我们可以更好地对多种类型的数据进行分析、计算,大大提升了人类处理数据的能力。

以大数据、人工智能技术为核心的分布式计算平台为数据分析插上了腾飞的翅膀。各种应用场景的开拓,让数据分析有了落地的土壤。当前,数据已经是企业的核心生产要素,而数据分析技术已经成为了企业的核心竞争力。

总之,随着人类科技水平的发展,我们收集、存储、分析、挖掘数据的能力不断增强,我们可以更好地从数据中提炼出商业价值,我们也越来越离不开数据了。数据已经成为国家、企业的核心资产,基于数据资产的利用和商业价值挖掘从没有停止过。目前数据分析的应用已经是百花齐放,我们在下一节就来梳理一下数据分析相关的应用场景。

二、数据分析的应用场景

当前数据分析已经应用到了各行各业,社会经济生活中每一个构成要素都与数据分析有关。可以说,只要有数据的地方,人们都在利用数据分析工具去分析处理相关的数据,从数据中提炼出有价值的商业洞察,最终产生业务价值。

从行业门类来看,工业、农业、商业、服务业中都可以利用数据分析来产生业务价值。数据分析在互联网时代,能力得到了极大的延伸,主流的互联网方向,如电商、视频、新闻资讯、游戏、生活服务、金融、社交等产品每时每刻都产生大量的用户行为数据,这些行业中的翘首都通过数据来驱动业务增长,他们都将数据分析作为核心竞争力之一。我们这本书也主要是基于数据在移动互联网上的应用来讲解数据分析相关的思维、方法等。数据分析在互联网企业上的价值主要体现在BI和AI两个方向上。所以我们在本节想主要是从BI(Business Intelligence,商业智能)和AI(Artificial Intelligence,人工智能)这两个维度来讲解数据分析的价值。

在BI层面,我们可以利用数据来对业务过程进行分析、展示,这是一种事后的分析,主要的应用场景有:

数据报表

通过可视化的方式将已知的事实呈现出来,目前的报表也可以做到近实时了(比如阿里双十一大屏实时展示成交额),这些报表可以让企业管理层更好地了解当前业务情况,方便对产品进行分析、决策;

探寻原因

通过数据分析挖掘某些事件或者行为出现的原因。比如通过数据分析发现用户流失的原因、某个功能点迭代导致用户活跃度降低的原因等等;

预测与决策

通过数据发现某种规律,利用该规律来指导产品迭代与运营决策。比如发现用户比较喜欢评论,那么在产品交互中提升评论的便捷性;预测用户的播放量趋势,更好地指导进行广告投放的库存管理等。我们在本书第二、第三篇(即第9章到16章)会讲解很多数据分析在BI方向上的技术及场景应用。

在AI层面,数据分析的价值主要体现在通过构建数据模型,更加自动化、个性化、精准地服务于用户,减少人工在整个服务流程中的干预作用,甚至做到完全自动化。这方面的应用非常多,比如推荐系统、搜索、广告自动投放、精细化运营、反欺诈、路径规划、人脸识别、对话系统、运筹优化等等。数据在AI层面的应用价值体现在这些场景下人力很难胜任、人力成本极高或者人工服务体验不佳,不得不借助机器学习等算法手段来实现。目前采用机器学习方法进行的数据应用一般属于AI范畴,但是也可以算作是广义的数据分析。我们在本书第四篇(即第17到21章)会讲解几种比较常见的需要构建稍微复杂的模型的数据分析方法,这些方法也常用于数据分析挖掘领域。

数据分析在各种业务场景的应用离不开数据,也离不开各种分析工具。数据是生产资料,数据分析工具和技术是改造生产资料的利器。我们在下一节中对常用数据分析工具和技术进行简单梳理,这部分内容也是我们这本书后续章节的重点。

三、常用数据分析工具与技术

在大数据技术出现之前,电子表格是最流行的数据分析工具,Excel的能力非常强大,基本上所有的数据分析它都可以胜任。数据处理、建模、可视化、透视、表关联、甚至编程等等都不在话下,Excel的界面友好,操作也非常便捷高效。早期的数据分析人员用好Excel基本就够了,即使是在当下Excel也是数据分析人员最常用的工具之一。

大数据时代之前更专业的数据分析工具有Matlab、SPSS、SAS、R等。这些工具有些是通过拖拽(如SPSS、Matlab的工具箱等)就可以做复杂的数据统计分析,有些需要编程完成更加复杂和定制化的分析任务(如SAS、Matlab、R等),比较专业的分析人员会用这些工具。目前这些工具很多传统行业都在使用(比如银行、快消品行业等)。

这里不得不提一下,Python作为一门古老的编程语言,也是常用的数据分析工具。涉及到处理复杂的逻辑,需要代码实现时,用Python不失为一种好的选择,Python之所以受到数据圈的欢迎,是因为Python生态系统在早期就构建了一套体系化的数据分析组件,包括Numpy、Pandas、Scipy、Matplotlib等。

二维表格数据是对现实世界非常好的一种抽象,很多数据都可以用二维表格来表示。表格的行表示样本,列表示样本的属性和特征。针对二维表格数据,除了Excel这种可视化的拖拽处理外,计算机科学家还发明了一种数据查询语言,这就是大名鼎鼎的SQL语言(Structured Query Language)。SQL语言结构简单,容易理解、学习和记忆,并且功能也非常强大。针对存储在关系型数据库(如MySQL、Oracle等)中的数据(关系型数据库是存储结构化数据的最佳工具),利用SQL进行处理分析是最优解决方案。

在大数据时代,数据分析相关工具不可避免受到大数据的冲击和影响,这体现在数据分析的方方面面。首先是数据收集,在大数据时代有Flume、Kafka等分布式工具可以从多种来源收集数据;再次是数据存储,这里包括HDFS、Hive、Impala、HBase、Clickhouse、Hudi、Presto、druid等大数据生态下面的各种分布式存储组件。这里提到的存储组件有些还包含数据分析支持,他们具备的分析能力大多数也是基于SQL语言的(是标准SQL语言的变种);最后在数据分析与处理上,有MapReduce、Spark、Flink等分布式计算工具。

当我们完成了数据的分析处理,我们需要将我们获得的洞察更好地呈现出来,那么就需要利用数据可视化技术。俗话说,一图胜千言,当我们将从数据中挖掘的有价值的洞察用更合适的方式展示出来时,可以方便我们理解、记忆,更有利于我们跟其他人进行分享、宣传、汇报。Excel本身是具备强大的数据可视化能力的,利用Excel可以画出漂亮的图形。前面说到的Matlab、R、SAS等也具备可视化能力,Python中的Matplotlib也是专门用于数据可视化的。在大数据时代,可视化的工具就更多了,Apache下的Superset以及百度开源的Echarts等都是优秀的可视化工具。这里提一下商业上的可视化工具Tableau,它是全球最出名的商业可视化解决方案,在各行各业都有广泛的应用。

我们在这里只是提前粗略提一下数据分析相关的工具,在第二篇(即第6到第11章)会对数据收集、存储、处理、可视化等方面的基础能力和工具进行详细的介绍。有了数据和相关分析工具,剩下就是怎么去分析数据了,分析数据也是有一套思路和方法的,下面一节就进行简单介绍。

四、数据分析的思维方法

数据分析作为一个比较成熟的工具和思维体系,早已在业务中产生了巨大的价值。为了让数据分析更好地落地到真实业务场景中,让数据分析的价值最大化,我们需要按照科学 、正确的方式处理数据。具体来说,我们可以从如下4点来思考和实践:

1. 业务价值驱动数据分析

首先,数据分析的目的是赋能业务,为业务发展提供数据洞察,为业务决策提供数据支撑。业务价值概括来说分为用户价值和商业价值,下面分别介绍。

(1)用户价值

用户价值是指与用户相关的,包括用户增长与用户体验。任何产品最终是依赖于用户产生商业利润的,所以服务好用户非常重要,我们要提升用户体验,满足用户需求。服务好了用户,用户才会留下来。在服务好用户同时需要努力提升用户粘性,当用户更愿意使用你的产品了,未来针对该用户变现就变得更加容易了。企业和用户的关系可以看成是一种博弈关系(这里不是贬义词),要想达到博弈的纳什均衡状态,需要满足双方的利益诉求,最终达到双赢。

(2)商业价值

所谓的商业价值就是指商业利润,是企业通过广告、会员、增值业务等在更好服务用户的同时获得的商业回报。

在利用数据分析进行数据挖掘时,我们需要从用户价值和商业价值维度出发,一切数据分析的终点是创造用户价值和商业价值,无法创造这两类价值的数据分析是没有意义的,是不值得做的。

2. 量化思维

上面提到的用户价值和商业价值都是可以量化的,只有量化了,我们才可以更好地衡量我们的决策是否真正产生了业务价值。怎么量化我们的价值呢?这就是数据指标体系需要解决的问题,我们会在第9章详细介绍,这里不赘述。

3. 构建数据分析的闭环体系

前面提到有价值的数据分析一定是服务于用户价值和商业价值的。数据的使用除了要量化外,一定要形成闭环(参见下面图1,这是一种可行的闭环思考、执行体系),让数据驱动可以不断迭代下去,让前面1中提到的可量化的价值最大化。

数据分析从入门到进阶书(从零入门数据分析)(1)

图1:业务数据分析的闭环系统

互联网公司常用的AB测试技术(参考下面图2)就是一种比较好的工具,可以辅助数据分析师在控制风险足够小的情况下更好地做出正确的抉择。AB测试的目标就是构建一个数据驱动业务的,可以评估的,也可以实际落地的闭环系统,所以思路是跟上面提到的闭环系统一脉相承的。

数据分析从入门到进阶书(从零入门数据分析)(2)

图2:AB测试闭环系统

4. 漏斗思维

用户在产品上的任何一次有业务价值的操作一般是由几个相互关联的步骤组成的,这些步骤按照操作的先后顺序形成一个链条(如购物就可以拆分为浏览→加购物车→付款等几个核心环节),链条后面的步骤依赖前面的步骤(每一步都有用户流失,看成一个漏斗更加形象,参考下面图3)。最后一步往往才是最关键的(即是真正产生业务价值的一步),为了让最后一步顺利进行,前面每一步都需要重视,特别是需要关注从前一步到后一步的转化,只有当每一步的转化率足够高时,才会有较大比例的用户产生最终的商业化行为(最终的商业行为的转化率是前面各个步骤转化率的乘积)。

作为数据分析师一定要有将用户行为合理地拆解为漏斗的意识和能力,数据分析师的工作是通过数据化的方法,努力让流量漏斗在向下流动的过程中保持每一步都有较高的转化。

数据分析从入门到进阶书(从零入门数据分析)(3)

图3:用户购买的流量漏斗

本节我们就介绍这4种核心思维方法,我们会在本书的第22章进行更加全面具体的介绍,并结合案例进行细致分析。

五、数据分析的困难与挑战

做好数据分析不是一件容易的事情,真正有数据意识并且能够用数据能力赋能公司业务的企业是少之又少的。那么数据分析会面临哪些问题与挑战呢?

1. 意识上的淡薄

数据驱动业务是一个自上而下的过程,需要老板来推动相关业务的落地,并且给到足够多的资源(人力、金钱、权力等)支持,否则数据分析就只是一种形式化,根本无法真正产生价值,最终沦落为就是做做报表,提提数据。目前绝大多数互联网公司的数据分析就是停留在这一层面。

2. 技术上的挑战

首先,目前企业有非常多的触点接触到用户(比如公众号、抖音、微博、官网、小程序、网店、加盟店、线下店等),那么将这么多渠道的数据收集整合起来就是一件费力繁琐的事情。同时,目前的数据维度也非常复杂,除了有数字形式的数据,还有文本数据(比如用户的评论),音频数据(如400客服电话),图片视频数据(线下店摄像头收集的数据等),这些海量的、异构的数据的存储处理都面临极大挑战。

在数据存储上,目前有数据仓库和数据湖技术可以对数据进行存储。在数据处理上,也有各种大数据分布式计算软件(Spark、Flink等)对数据进行处理分析。数据存储、处理都需要有相关专业人员参与,部署这些分布式存储、处理组件也是需要很多资金支持的。

3. 业务上的挑战

另外一个挑战就是业务上的挑战了,这也是最大的挑战。首先,数据分析人员需要了解公司的业务和产品,熟悉自己的平台和用户。在对业务深刻理解基础上再确定核心的业务指标,将指标拆解为一个个小的单元,最终利用数据分析工具和方法将指标量化,通过优化每个指标来最终提升整体大的目标。

数据分析是业务工具,更是一种思维工具,只有企业自上而下都有数据思维,并且将数据思维贯彻到日常工作中,数据才能真正产生价值。这个过程是困难的,是有挑战的,也是值得的,因为数据的价值是非常巨大的。数据分析的价值可以从多个维度来度量,我们在下一节进行说明。

六、数据分析的价值与意义

数据分析能力已经成为互联网公司的标配。无论产生价值与否, 互联网公司都是具备一定的数据分析能力的(或者有自己的数据分析团队或者购买了数据分析云服务),这说明现在的企业是有数据意识的,也大致知道数据分析对业务的价值。这一节我们就来简单梳理一下数据分析的核心价值体现,我们从如下4个维度来说明。

1. 数据具备展示作用

数据的展示作用大家应该很好理解,我们常规的数据报表其实就是业务的一种数据化展示,目前数据报表也是互联网企业的标配了。报表可以从多个维度(如地区、时间、版本、渠道、用户等)来对各种指标(如播放量、购买量等)进行可视化展现的。随着实时处理技术的发展与成熟,当前报表可以做到近实时展示了,这让我们可以及时了解数据指标的表现,及时做决策。

数据的展示作用除了以报表的形式出现,还可以有更多的形式。我们在第12章要讲到的留存分析,第13章讲到的漏斗分析,第15章讲到的路径分析,第16章讲到的分布分析都可以利用数据展示技术更直观地获取信息。这几类业务分析形态如果进行深入分析是可以挖掘出某些事件出现的原因的,这就是下面一小节我们要讲到的。

2. 找到事件发生的原因

这是所谓的归因分析,归因分析就是找到某个事件(可能是好的也可能是坏的)发生的真正原因,找到了原因,我们就可以避免损失或者创造更大价值。比如,产生新发了一个版本,发现用户留存下降了,最终找到是用户在登陆过程中容易出现闪退,那么我们就可以通过停止升级,修复bug后再发布来规避这个升级闪退的bug。我们在第14章会专门讲解归因分析,这里不再过多说明。

3. 挖掘事件之间的关联关系

事件之间除了存在2中所说的因果关系,还存在一种没有直接因果的关联关系,大家熟知的数据挖掘领域中的“啤酒与尿布”的故事就是一种关联关系。关联关系在大数据时代是非常重要的,比如Google通过分析网民搜索新冠相关关键词就可以预测某个地区疫情情况并提前进行干预。我们在第17章会讲解购物篮分析,这是商业领域比较重要的一种挖掘关联关系的应用场景。

4. 进行预测和决策

前面提到的数据分析的3种价值更多的是事后分析(就是事情已经发生后再分析),事后分析滞后性明显,带来的价值是相对有限的,我们更希望的是事前预测,这样更有掌控感,这也是为什么各种股票预测、预测这么鼓动人心的原因。

预测与决策可以让我们事先对未来进行预判并采取行动,可以更好、更及时地地发挥出数据分析的价值。预测与决策相关的数据分析能力一般需要采用机器学习技术来构建数据模型,利用历史数据建模,然后对未知情况进行预测并做决策。第18章的聚类分析,第19章的分类分析,第20章的回归分析以及第21章的时间序列分析都是这方面的技术。

总结

本章我们简单介绍了数据分析相关的知识点,并梳理了数据分析的发展简史。在互联网时代,大数据技术的出现深刻地影响并极大提升了数据分析的地位和能力。数据分析当前已经成为互联网公司的标配技术,应用于各行各工业,我们日常生活中能够接触到的所有行业基本都被数据化浪潮改造了。在大数据时代传统的数据分析工具得到了更好的延伸,目前我们有更多的软硬件技术来更好地处理大规模、异构的数据。

在大数据与移动互联网时代,我们处理数据、利用数据的思维方式和方法都有所变化,本章我们梳理了常用的数据思维方法,这些思维方法是指导我们进行数据化决策的思想武器。利用这些思维方法我们可以更容易从数据中挖掘出业务价值。数据分析是一件具备挑战的事情,要想真正产生业务价值也不是那么容易的,需要我们克服很多困难,在方法、思维等各个方面采用全新的思路和视角来应对。数据分析的巨大商业价值,吸引者每个数据分析从业者,我们利用自己的聪明才智,采用创造性手段和工具去挖掘数据中潜在的宝贵财富。

有了第一章的全局梳理,大家对整体脉络应该就比较清晰了。我们会在接下来的24章中,从技术、思维、方法、工具、业务、案例等多个维度来详细讲解,让大家更好地掌握数据分析相关的技能和知识点。也希望大家跟着这本书的学习,真正领悟数据分析的奥秘,最终利用数据分析这一强大的工具为业务创造源源不断的商业价值。

我的专栏「组织中的团队管理与自我管理」,需要的读者可以试阅读或者购买。

数据分析从入门到进阶书(从零入门数据分析)(4)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页