数据的分析方差问题较难题(16种常用的数据分析方法-方差分析)

数据的分析方差问题较难题(16种常用的数据分析方法-方差分析)(1)

方差分析(Analysis ofVariance,简称ANOVA),又称“变异数分析”,又叫F检验。是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。


方差波动来源



由于各种因素的影响,研究所得的数据呈现波动状,而方差分析的基本原理认为不同处理组的均数间的差别基本来源有两个:一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。


  • 实验条件,即不同的处理造成的差异,称为组间差异。

用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。


  • 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异。

用变量在各组的均值与该组内变量值之偏差平方和的总和表示,记作SSw,组内自由度dfw。


总偏差平方和 SSt = SSb SSw。





方差分析应用场景



方差分析在工作场景中如何应用呢?看案例:


假如产品针对用户提出了三种提高客单价的策略A、B、C,现在要评估3种策略对提高客单价的效果差异。


如何知道3种策略效果有什么不同?最简单的方法就是做一个实验。


如:随机挑选一部分用户,然后把这些用户分成三组A、B、C组,A组用户使用A策略、B组用户使用B策略、C组用户使用C策略,


策略实施一段时间以后,分析3组分别的客单价水平。哪组平均客单价高,就说明哪组策略有效。

可是,这样得出的结论是否有偏差呢?


当然有,出现偏差的来源:


其一是实验的用户是随机挑选的,有可能客单价高的那部分用户(如高价值用户)集中出现在某一组中,造成这组的策略效果更好。


当然,按照方差原理的差别基本来源,还有可能由于策略执行过程中,实验条件造成的策略结果差异。


为了排除实验结果中,上述两种来源造成的结果偏差,就需要使用方差分析去证做进一步证实。最终获得更严谨、更有说服力的策略结论。


方差分析中的名词解释


方差:又叫均方,是标准差的平方,是表示变异的量。


因素:方差分析的研究变量;例如,研究裁判打分的差异,裁判就被称为因素;


水平:因素中的内容称为水平;例如,总共有3个裁判打分,则裁判因素的水平就是3;


观测因素:又称观测变量,指对影响总体的因素;


控制因素:又称控制变量,指影响观测变量的因素;



方差分析的3个假定基础


1.每组样本数据对应的总体应该服从正态分布;


正态检验主要有两种大的方法,一种是统计检验的方法:主要有基于峰度和偏度的SW检验、基于拟合度的KS、CVM、AD检验;另一种是用描述的方法:Q-Q图和P-P图、茎叶图,利用四分位数间距和标准差来判断。


2.每组样本数据对应的总体方差要相等,方差相等又叫方差齐性;


方差齐性的主要判断方法有:方差比、Hartley检验、Levene检验、BF法。


3.每组之间的值是相互独立的,就是A、B、C组的值不会相互影响。


单因素方差分析-F检验


方差分析把总的变异分为组间变异和组内变异:


组间变异:各组的均数与总均数间的差异;


组内变异:每组的每个测量值与该组均数的差异


数据的分析方差问题较难题(16种常用的数据分析方法-方差分析)(2)



离差平方和为:SS总=SS组间 SS组内


F统计量可表述为:F=MS组间/MS组内。


F值结论理解:通过计算得到的F值就可以查到P值,P值小于0.05,则拒绝原假设,认为其是有统计学意义的。

案例:


某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。


这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同,先从地理位置相似、经营规模相仿的五家超级市场上收集了前一期该种饮料的销售量情况


数据的分析方差问题较难题(16种常用的数据分析方法-方差分析)(3)

表中20个数据各不相同,原因可能有两个方面:


一、销售地点影响。相同颜色的饮料在不同超市的销售量不同。案例中五个超市地理位置相似、经营规模相仿,因此把不同地点的销售量差异做为随机因素影响。

二、饮料颜色不同的影响。在同一超市不同颜色的饮料销售量不同。即使营养成分、味道、价格、包装等方面因素都相同,销售量也不相同。


这种不同虽然有类似抽样随机性造成,但更可能是人们对不同颜色的偏爱造成的。


根据上述分析,把案例分析问题归结为:检验饮料颜色对销售量是否有影响。


分析过程


一、建立假设:原假设“颜色对销售量没有影响”


二、计算不同颜色饮料销售量水平均值


无色饮料销售量均值=136.6÷5=27.32箱

粉色饮料销售量均值=147.8÷5=29.56箱

桔黄色饮料销售量均值=132.2÷5=26.44箱

绿色饮料销售量均值=157.3÷5=31.46箱


三、计算各种颜色饮料销售量的总均值


各种颜色饮料销售量总的样本平均数=(136.6 147.8 132.2 157.3)÷20=28.695箱


四、计算离差平方和、F值


F值=组间方差/组内方差=76.8455/(4-1)/ 39.0840/(20-4)=10.486


五、算出P值,做出结论

P值=根据F值算出P值=0.000466


结论解读:


P-值=0.000466<显著水平标准=0.05,假设不成立,说明饮料的颜色对销售量有显著影响。



,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页