双变量分析统计表有哪些(入行数据分析要知道什么是单变量分析和基础统计)

单变量分析处理每个受试者只有一个数据的数据。基本统计描述了数据的基本特征。

双变量分析统计表有哪些(入行数据分析要知道什么是单变量分析和基础统计)(1)

什么是单变量分析?

例如某人的考试成绩单数据。此外一个科目的成绩和平均分的时间序列数据也是单变量的,因为只有一个数据。后者还有另一个指标叫做时间,所以它可能是一个双变量,如果时间的进展被认为是恒定的(有固定的间隔),可以被认为是一个单变量。

什么是基本统计?

例如当获得某个科目的考试成绩等数据时,计算该班级的平均分是很常见的。如果知道自己的得分是高于还是低于平均分,则可以查看自己的排名情况。甚至可以找出最高分是多少,谁的得分最低。如果想更详细地了解自己的位置,也会想出偏差值的概念。为了得到偏差值,需要知道每个人的分数分布有多少(什么样的分布)。

基本统计的计算

以下是 A 和 B 的大学成绩。光看这个数据,并不清楚每个人有什么样的结果,有什么样的差异。(其中a到m为科目名称)

姓名

a

b

c

d

e

f

g

h

i

j

k

l

m

n

A

2

3

3

3

4

3

1

2

2

2

4

4

3

3

B

2

2

1

2

4

2

1

2

2

3

3

1

4

5

收集数据时,需要检查数据是如何分布的。使用频率分布图,看看这两个学生的成绩有什么样的分布。

双变量分析统计表有哪些(入行数据分析要知道什么是单变量分析和基础统计)(2)

通过创建这样的频率分布可以直观地了解分布的状态。A 的成绩呈现的对称分布,接近正态分布。而 B 的成绩有一个偏向低端的偏态分布。但是仅凭此信息,无法从数字上掌握详细的差异。

那么来看看这两个表现的基本统计数据。如果使用Excel分析工具,可以轻松输出以下结果。

双变量分析统计表有哪些(入行数据分析要知道什么是单变量分析和基础统计)(3)

从基本统计来看,B 的平均值更差,A 的偏度(表示形状扭曲)对于左右对称,而 B为0.77 形状是变形了。

如果偏斜低于平均值,则偏斜为正,如果偏斜高于平均值,则偏斜为负。另外,还有一个指标叫做峰度,在正态分布中为0,值越尖锐、值越大。在上面的示例中可以看到 B 更锐利。

统计常用的代表值均值、众数、中位数

基本统计数据包括平均值、中位数和众数。

在进行单变量分析时,需要创建这样的直方图并检查获取数据的分布情况。

双变量分析统计表有哪些(入行数据分析要知道什么是单变量分析和基础统计)(4)

  • 中位数:按大小顺序排列数据,中间的值排在中间。
  • 均值:将所有个别数据相加,除以个数所得数据。
  • 众数:数据中出现最频繁的数据。
3种的平均值

一般来说,平均是指 算术平均,但实际上平均分三种,需要根据情况正确使用。

算术平均数(算术平均值):通常所说的平均值。它是所有数据的总和除以数据的数量。

EXCEL 中的公式是 = AVERAGE()

几何平均(geometric mean):是所有数据的值相乘,得到数据个数的根号的值。用于查找平均率,例如价格上涨率。

EXCEL中的公式是 = GEOMEAN()

双变量分析统计表有哪些(入行数据分析要知道什么是单变量分析和基础统计)(5)

比如现在 iphone5、iphone6、iphone7 的价格分别为1000、2000、3000。对于果粉来说选择永远是最新的。事实上从消费者的价格感来看,这种定价方式未必很好,因为价格和使用的关系不是线性的而是指数级的。

如果 iphone5 价格是1000,iphone7 的价格是3000,那么 iphone6 应该是多少?用算数平均是 2000,但是用几何平均来计算得到 1732 ,这样或许比较合理一些。

双变量分析统计表有哪些(入行数据分析要知道什么是单变量分析和基础统计)(6)

调和平均:用于计算两个单位计算的平均速度。

EXCEL 中的公式是 = HARMEAN()

例如步行的速度两个相同长度,第一阶段是 10km/h ,第二阶段是 8km/h,那么用算数平均速度计算得到的结果是 9km/h。

用调课平均来计算的话是第一阶段 0.1 小时,第二阶段是 0.225 小时,所以结果为:

双变量分析统计表有哪些(入行数据分析要知道什么是单变量分析和基础统计)(7)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页