数据分析常用方法和工具(常用的几种数据处理方法介绍)

数据分析常用方法和工具(常用的几种数据处理方法介绍)(1)

在数据处理中,把数据库中的数据表格提取出来,通过一些技术上的转换而得到我们想要的,最终用在分析报告中的数据格式,在数据分析工作中是十分常见的。如果所在的职位就是生成分析报告相关的职位的话,那这项工作应该能占到所有工作量的70%。而本篇文章就来分享下我们在数据处理中比较常见的几种方法。

一,删除重复值(Removing Duplicate Records):

顾名思义,在我们的数据库的存储中,一些重复数值的出现是很常见的。造成数值重复的原因有多种多样的,有的时候就是记录错误,有的时候就是因为系统设置的问题。但无论怎么样,在我们数据处理中把重复的数值删除掉是在我们数据处理中十分重要的一项工作。重复值不仅影响我们最后的计算的准确性,如果没有删除重复值的表格同另外一个表格合并的话,重复值的数量还会加倍。

数据分析常用方法和工具(常用的几种数据处理方法介绍)(2)

各个软件或语言有不同的方法来删除重复的数值。在Excel中,选中你想处理得表格,然后再Data选项中选择Revome Duplicates就可以。SQL语句中,一般都是用'select distinct * from xxx'语句来删除掉重复数值;在SAS中,可以用proc sort语句来删除重复数值等等。

二,产生新的一列数据组

在表格中产生新的一列,在数据处理中也是一项十分重要的工作。举个简单的例子,比如在一家公司的销售部门,我们想把销售人员的业绩进行分类。比如每月销售额大于5万元的算金牌销售;3万到5万的算银牌销售;1万到3万的算达标;1万以下的算未达标。那产生的新的一列中数值就包括了“金牌”,“银牌”,“达标”和“未达标”等,这些新的数据是不可能记录在数据库中的。

数据分析常用方法和工具(常用的几种数据处理方法介绍)(3)

同样在不同的软件和语言中,所到的编程语言也是不一样的,但一般的思路都是会用到IF...THEN...语句,只不过不同的语言和软件所用到的语法有不同。在SQL中,用到的是case when语句,还是用上面的销售额的例子。如果产生的新的这一列的名称叫“业绩状况”,那基本的语法逻辑是

case when '销售额'>50000 then '金牌' when 50000>='销售额'>=30000 then '银牌' when 30000>'销售额'>=10000 then '达标' when 10000>'销售额' then ‘未达标’ end as '业绩状况'。

当然,还有其他的方式产生新的一列,但无论怎么样,在数据处理中根据所在行业或部门的商业逻辑产生新的一列是十分常见的处理数据的方法。

数据分析常用方法和工具(常用的几种数据处理方法介绍)(4)

三,表格的合并

表格的合并指的是在数据处理中,两个表格需要合并成同一个表格。当然在合并的过程中不必把所有的列都合并到一起,可以把只需要的表格合并到一起。这个过程在数据处理中也是十分常见的,因为在有一定规模的公司的数据库中,不可能所有的信息都存在一个表格中。比如在超市中,会员的信息可能在一个表格中(可能有姓名,年龄,会员时长等信息),而会用的消费信息会在另一个表格中。如果一个课题是想要分析不同年龄段的消费信息的话,那就需要把两个表格合并到一起。

这首先需要两个表格有一个共同列,这是两个表格合并的基础和先决条件。合并表格在SQL中用的是join,join也包括left join,right join,inner join和outer join。最常用的就是left join (其实right join和left join在逻辑上是一样的)。当然在其他的软件中也有不同的方法进行合并,比如在SAS中的Date Step用的就是merge。

数据分析常用方法和工具(常用的几种数据处理方法介绍)(5)

四,数据的提取和运算

这个在理解上很简单,说得直白点就是把对应的数据提取出来做加减乘除,应用其实大家也很好理解,比如还是在超市中,超市内部的系统记录的肯定是每次购买的记录,可能每一项就在数据库中记录一行。举个例子,比如你去超市买了一个苹果,一盒鸡蛋和一个面包,当在付款的时候收银员会扫描你所购买的东西,在数据库中的记录是三行,苹果一行,鸡蛋一行,面包一行,每一行中记录的可能有时间,地点,价格,以及各分类的具体信息,比如面包是什么牌子的,产地哪里,保质期多长等等十分详细的信息。

当分析人员想要知道上个星期面包的销售额的时候,那就需要在提取数据的时候加上两个条件,一个是时间条件“上个星期”,一个是商品条件“面包”,然后做加法。

数据分析常用方法和工具(常用的几种数据处理方法介绍)(6)

在提取上,一般语句用到的都是where语句,当然,有的软件或语言也有if then语句。在做运算的时候就需要把各分类做一个分类合计了,在SQL中的分类合计最基本的就是在select模块中用sum方程,这个很好理解,就是合计,之后在运用group by,这个就是分类。

除了上面介绍的四个方法外,其实在数据处理中根据不同的商业逻辑经常用到的方法还有很多,比如删掉不想要的列或行,这个就比较简单了。比较复杂的还有数据的排序,最复杂的是方程或公式(function)的运用,这个在数据分析中是非常大的一部分,有对处理数字型数值运算的方程,比如sum,average,rank等,也有对处理字符型数值运用的公式,比如从一串字符中提取想要的信息,合并两个数值等,在后面我也会给大家分享。

希望今天的分享能帮到大家。

图自网络,侵删。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页