双变量分析统计表有哪些(入行数据分析要知道什么是单变量分析和基础统计)
单变量分析处理每个受试者只有一个数据的数据。基本统计描述了数据的基本特征。
什么是单变量分析?
例如某人的考试成绩单数据。此外一个科目的成绩和平均分的时间序列数据也是单变量的,因为只有一个数据。后者还有另一个指标叫做时间,所以它可能是一个双变量,如果时间的进展被认为是恒定的(有固定的间隔),可以被认为是一个单变量。
什么是基本统计?例如当获得某个科目的考试成绩等数据时,计算该班级的平均分是很常见的。如果知道自己的得分是高于还是低于平均分,则可以查看自己的排名情况。甚至可以找出最高分是多少,谁的得分最低。如果想更详细地了解自己的位置,也会想出偏差值的概念。为了得到偏差值,需要知道每个人的分数分布有多少(什么样的分布)。
基本统计的计算以下是 A 和 B 的大学成绩。光看这个数据,并不清楚每个人有什么样的结果,有什么样的差异。(其中a到m为科目名称)
姓名 |
a |
b |
c |
d |
e |
f |
g |
h |
i |
j |
k |
l |
m |
n |
A |
2 |
3 |
3 |
3 |
4 |
3 |
1 |
2 |
2 |
2 |
4 |
4 |
3 |
3 |
B |
2 |
2 |
1 |
2 |
4 |
2 |
1 |
2 |
2 |
3 |
3 |
1 |
4 |
5 |
收集数据时,需要检查数据是如何分布的。使用频率分布图,看看这两个学生的成绩有什么样的分布。
通过创建这样的频率分布可以直观地了解分布的状态。A 的成绩呈现的对称分布,接近正态分布。而 B 的成绩有一个偏向低端的偏态分布。但是仅凭此信息,无法从数字上掌握详细的差异。
那么来看看这两个表现的基本统计数据。如果使用Excel分析工具,可以轻松输出以下结果。
从基本统计来看,B 的平均值更差,A 的偏度(表示形状扭曲)对于左右对称,而 B为0.77 形状是变形了。
如果偏斜低于平均值,则偏斜为正,如果偏斜高于平均值,则偏斜为负。另外,还有一个指标叫做峰度,在正态分布中为0,值越尖锐、值越大。在上面的示例中可以看到 B 更锐利。
统计常用的代表值均值、众数、中位数基本统计数据包括平均值、中位数和众数。
在进行单变量分析时,需要创建这样的直方图并检查获取数据的分布情况。
- 中位数:按大小顺序排列数据,中间的值排在中间。
- 均值:将所有个别数据相加,除以个数所得数据。
- 众数:数据中出现最频繁的数据。
一般来说,平均是指 算术平均,但实际上平均分三种,需要根据情况正确使用。
算术平均数(算术平均值):通常所说的平均值。它是所有数据的总和除以数据的数量。
EXCEL 中的公式是 = AVERAGE()
几何平均(geometric mean):是所有数据的值相乘,得到数据个数的根号的值。用于查找平均率,例如价格上涨率。
EXCEL中的公式是 = GEOMEAN()
比如现在 iphone5、iphone6、iphone7 的价格分别为1000、2000、3000。对于果粉来说选择永远是最新的。事实上从消费者的价格感来看,这种定价方式未必很好,因为价格和使用的关系不是线性的而是指数级的。
如果 iphone5 价格是1000,iphone7 的价格是3000,那么 iphone6 应该是多少?用算数平均是 2000,但是用几何平均来计算得到 1732 ,这样或许比较合理一些。
调和平均:用于计算两个单位计算的平均速度。
EXCEL 中的公式是 = HARMEAN()
例如步行的速度两个相同长度,第一阶段是 10km/h ,第二阶段是 8km/h,那么用算数平均速度计算得到的结果是 9km/h。
用调课平均来计算的话是第一阶段 0.1 小时,第二阶段是 0.225 小时,所以结果为:
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com