回归分析截距的意义(回归分析之共线性诊断)

序曲

杨柳枝词

【唐】白居易

一树春风千万枝,嫩于金色软于丝。

永丰西角荒园里,尽日无人属阿谁?

这是一首写景寓意诗,前两句写景,极写柳树的美态,诗人所抓的着眼点是柳条,写出了动态、形态和色泽显出它的材质之美。后两句写的是诗人对柳树遭遇及自己的评价,因为柳树所生之地不得其位,而不能得到人的欣赏,寓意怀才不遇而鸣不平,含蓄地抨击了当时的人才选拔机制和相关政府官员。

这首咏物诗,抒发了对永丰柳的痛惜之情,实际上就是对当时政治腐败、人才埋没的感慨。生活的时期,由于朋党斗争激烈,不少有才能的人都受到排挤。诗人自己,也为避朋党倾轧,自请外放,长期远离京城。此诗所写,亦当含有诗人自己的身世感慨在内。

此诗将咏物和寓意熔在一起,不着一丝痕迹。全诗明白晓畅,有如民歌,加以描写生动传神,当时就"遍流京都"。后来写《洞仙歌》词咏柳,有"永那畔,尽日无人,谁见金丝弄晴昼"之句,隐括此诗,读来仍然令人有无限低回之感,足见其艺术力量感人至深了。

共线性诊断简介

共线性是多元回归分析时存在的一个普遍问题。共线性是指自变量之间存在近似的线性关系,即某个自变量能近似地用其他自变量的线性函数来表示。在实际回归分析应用中,自变量间完全独立很难,所以共线性问题并不少见。自变量一般程度上的相关不会对回归结果造成严重的影响。然而,当共线性趋势非常明显时,它就会对模型的拟合带来严重影响,使得模型的预测精度会大大地降低,甚至会得到专业上无法解释或专业意义上完全相悖的回归方程。

(1) 回归系数的估计值大小甚至是方向明显与常识不相符

(2) 从专业角度看对应变量有影响的因素,却不能选入方程中

(3) 去除一两个记录或变量,方程的回归系数发生剧烈的变化,非常不稳定

(4) 整个模型的检验有统计学意义,而模型包含的所有自变量均无统计学意义。

当出现以上情况时,就需要考虑是不是变量之间存在共线性关系。

共线性诊断方法

SPSS中可以通过以下指标来辅助判断有无共线性的存在。

  • 相关系数判断:依据相关系数确定自变量之间的是否具有共线性,一般认为,两个自变量的相关系数超过0.9,认为两个自变量会出现共线性。但仅为初步判断不全面
  • 容许度(Tolerance):即以每个自变量作为因变量对其他自变量进行回归分析时得到的残差比例,大小用1减决定系数来表示,指标越小,说明该自变量被其余变量预测的越精确,共线性越严重;根据经验来说,若某个自变量的容忍度小于0.1则可能存在共线性问题。
  • 方差膨胀因子(Variance Inflation Factors, 简记作VIF):诊断共线性严重程度的常用指标之一,是容忍度的倒数,VIF越大,显示共线性越严重。通常情况下,当VIF>=5VIF>=10,可认为自变量间存在严重共线性
  • 特征根(Eigenvalue):若特征根接近于0,则提示自变量间存在严重的共线性。特征根为0的个数即为共线性数目
  • 条件指数(Condition Index):当某些维度的指标大于30时,则提示存在共线性
  • 变异构成:指回归模型中各项(包括常数项)的变异被各主成分所能解释的比例,或者说各主成分对模型各项的贡献。若某个主成分对两个或多个自变量的共享均较大(如大于0.5),则说明这几个自变量间存在一定程度的共线性。
SPSS实现共线性诊断

示例:研究表明在血清中低密度脂蛋白增高和高密度值蛋白降低是引起动脉硬化的一个重要原因。现测量30名怀疑患有动脉硬化的就诊患者的载脂蛋白A、载脂蛋白B、载脂蛋白E、载脂蛋白C、低密度脂蛋白中的胆固醇、高密度脂蛋白中的胆固醇含量,数据如下表所示,是分析低密度脂蛋白中胆固醇含量中与载脂蛋白A/B/E/C的线性回归方程。

回归分析截距的意义(回归分析之共线性诊断)(1)

1. 打开 分析—回归—线性

回归分析截距的意义(回归分析之共线性诊断)(2)

2. 参数选择

(1) 主页面说明

  • 如下图所示,将 低密度脂蛋白 放入因变量框,载脂蛋白A/B/E/C为自变量,方法选择 输入法

回归分析截距的意义(回归分析之共线性诊断)(3)

(2)"统计"页面

  • 选择 估算值、模型拟合、R方变化量、德宾-沃森、个案诊断、共线性诊断

回归分析截距的意义(回归分析之共线性诊断)(4)

(3)"图"页面

  • 标准化残差(ZRESID)放入Y 轴框,标准化预测残差ZPRED)放入X 轴框,同时勾选残差直方图正态概率图。此步目的是验证残差是否正态,反映Y 是否独立

(4)"保存"页面

  • 选择 未标准化值、单值,如下图所示

(5)"选项"页面

  • 保持默认选项,如下图所示

3. 结果输出与解释:

(1) 模型摘要

  • 由下图可知,调整后的R方为0.494,表示可以解释49.4% 的变异。

回归分析截距的意义(回归分析之共线性诊断)(5)

(2) 共线性诊断

  • 从图A中可看出,各自变量的VIF均小于5,说明各变量间不存在共线性
  • 但从图B中可看出,载脂蛋白B和载脂蛋白E在第4个主成分上的贡献>=0.5,说明两变量间存在一定程度的共线性。

回归分析截距的意义(回归分析之共线性诊断)(6)

4. 共线性解决方法

  • 增大样本含量,可部分解决多重共线性问题
  • 自变量筛选方法拟合模型,建立最优的回归方程,但同时会丢失部分可利用的信息
  • 专业知识角度出发,去除专业上认为次要的,或者缺失值比较多测量误差较大的共线性因子
  • 进行主成分分析,提取公因子代替原变量进行回归分析
  • 进行岭回归分析,可有效解决多重共线性问题
  • 进行路径分析(Path Analysis),可对应/自变量间的复杂关系精细刻画

5. 语法

********************回归分析******************. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA COLLIN TOL CHANGE /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT y1 /METHOD=ENTER x1 x2 x3 x4 /SCATTERPLOT=(*ZRESID ,*ZPRED) /RESIDUALS DURBIN HISTOGRAM(ZRESID) NORMPROB(ZRESID) /CASEWISE PLOT(ZRESID) OUTLIERS(3).

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页