多元线性回归分析的原理(回归分析之多元线性回归)

序曲

榴花 / 题榴花

【唐】 韩愈

五月榴花照眼明,枝间时见子初成。

可怜此地无车马,颠倒青苔落绛英。

这首诗开头两句点明时令,勾画出五月里石榴花开时的繁茂烂漫景象;后两句点明地点,表明石榴花无人游赏以致美景寂然零落,委婉地表达了诗人孤独的心境。全诗描述景致清新自然,并在描摹客观景物中寄寓着人生哲理

此诗前两句写景状物,后两句抒发感想。作者并不直接来写景,而是通过人的感觉,侧面烘托出榴花的绚烂多姿。但花开得再美又能如何,还不是寂寞无声落,诗人叹息花开无人来赏,亦即暗喻朋友满腹才华,却被统治者贬谪于穷乡僻壤,无法施展,"颠倒"二字更是有力批判了统治者的不识人才以及诗人和作者都怀才不遇的愤懑

多元线性回归分析简介

多元线性回归(Multiple Linear Regression)是研究多个变量之间的线性依存的统计分析方法

在医学研究中,医学指标通常受到多个因素的影响,如血压值除了受年龄影响外,还受到性别、体重、劳动强度、饮食习惯、吸烟情况、饮酒情况、家庭病史等因素影响。用回归方程可描述一个因变量y与多个自变量x1, x2, …….间的线性依存关系,称为多元线性回归。其多元线性回归方程可归结为:

多元线性回归分析的原理(回归分析之多元线性回归)(1)

其中,

  • y为因变量,是随机定量的观察值;
  • x1,…..xp为p个自变量。
  • β0 为常数项, β1 ……βp为回归系数。βj (j=1,2,3,….)表示在其他自变量固定不变的情形,自变量xj每改变一个单位时,其单独引起因变量y的评价变化量
  • ε为随机误差,也可称为残差,它是y的变化中不能用自变量解释的部分,服从正态分布。

在多元回归分析中,不能直接用各自变量的普通回归系数数值大小来比较回归方程中对因变量y的贡献大小,因此p个自变量的计量单位及变异度不同。需要将原始原始数据进行标准化,即

多元线性回归分析的原理(回归分析之多元线性回归)(2)

然后用标准化数据进行回归模型拟合,此时获得回归系数即记为k1,k2,…..kp,称为标准化回归系数(Standardized Partial Regression Coefficient),又称为路径系数(Path Coefficient)。标准化回归系数kj绝对值较大的自变量对因变量y的贡献大。

多元回归分析的前提条件和一元线性回归的完全相同:LINE,即为线性、独立、正态和等方差

自变量选择方法

因为多元回归分析中,自变量有多个自变量,有时需要进行筛选,包括前进法、后退法、逐步回归法。相应的方法在前面一节均讲解过。

SPSS实现多元线性回归

示例:已知27名糖尿病病人的血清总胆固醇、三酰甘油、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值,分析血糖与其他几项指标关系的回归方程。

多元线性回归分析的原理(回归分析之多元线性回归)(3)

1. 线性关系验证

  • 做散点图矩阵:分析—图形—散点图/点图,选择矩阵散点图,将4个变量放入变量框,点击"确定"

多元线性回归分析的原理(回归分析之多元线性回归)(4)

  • 从下图可看出,血糖与指标之间存在一定的线性关系

多元线性回归分析的原理(回归分析之多元线性回归)(5)

2. 打开 分析—回归—线性

多元线性回归分析的原理(回归分析之多元线性回归)(6)

3. 参数选择

(1) 主页面说明

  • 如下图所示,将 血糖 放入因变量框,其他四个变量为自变量,方法选择 步进法

多元线性回归分析的原理(回归分析之多元线性回归)(7)

(2)"统计"页面

  • 选择 估算值、模型拟合、R方变化量、德宾-沃森、个案诊断、共线性诊断

多元线性回归分析的原理(回归分析之多元线性回归)(8)

(3)"图"页面

  • 标准化残差(ZRESID)放入Y 轴框,标准化预测残差ZPRED)放入X 轴框,同时勾选残差直方图正态概率图。此步目的是验证残差是否正态,反映Y 是否独立

多元线性回归分析的原理(回归分析之多元线性回归)(9)

(4)"保存"页面

  • 选择 未标准化值、单值,如下图所示

多元线性回归分析的原理(回归分析之多元线性回归)(10)

(5)"选项"页面

  • 保持默认选项,如下图所示

多元线性回归分析的原理(回归分析之多元线性回归)(11)

4. 结果输出与解释:

(1) 模型筛选过程

  • 模型1用逐步法选择了 X4.糖化血红蛋白,然后模型2用逐步法选择了 X1.总胆固醇,X4.糖化血红蛋白 仍保留在模型2中,另外两个变量没有达到选择标准,最终没有进入。
  • 表格的右侧注明相应的筛选方法和选择及剔除标准。

多元线性回归分析的原理(回归分析之多元线性回归)(12)

(2) 模型摘要

  • 下图给出了拟合的两个模型决定系数的改变情况,从调整R方来看,随着变量 X1.总胆固醇的进入,模型2可解释的变异占总变异比例比模型1增加不少

多元线性回归分析的原理(回归分析之多元线性回归)(13)

(3) 方差分析表

  • 方差分析反映了模型整体的显著性,由下表可知,两个模型的P=0.000<0.05,构建的回归模型有统计学意义。但模型有统计学意义不等于模型内所有变量就用统计学意义,还需进一步对各自变量进行检验。

多元线性回归分析的原理(回归分析之多元线性回归)(14)

(4) 回归系数

  • 下表是两个模型中各个系数检验的结果,用的是t检验。
  • 从结果可看出,模型2中两个自变量的系数都有统计学意义
  • X4.糖化血红蛋白的 未标准化系数0.732标准化系数0.456;X1.总胆固醇的未标准化系数为0.678,标准化系数为0.369通过比较两个变量的标准化回归系数的绝对值,可知X4.糖化血红蛋白对 血糖 的贡献较大
  • 最终的回归方程为:

y=1.310 0.732*X4.糖化血红蛋白 0.678*X1.总胆固醇

多元线性回归分析的原理(回归分析之多元线性回归)(15)

(5) 排除变量说明

  • 下表反映了拟合模型过程中没有进入模型的变量的检验情况。

多元线性回归分析的原理(回归分析之多元线性回归)(16)

(6) 标准化残差图

  • 可见总体上残差符合 正态分布。说明符合线性回归的 正态性的条件

多元线性回归分析的原理(回归分析之多元线性回归)(17)

(7) 残差散点图

  • 为回归标准化残差与标准化预测值的散点图,基本在 3个标准差以内,说明总体效果较好,满足等方差性

多元线性回归分析的原理(回归分析之多元线性回归)(18)

5. 语法

********************散点图矩阵******************. GRAPH /SCATTERPLOT(MATRIX)=X1 X2 X3 X4 Y /MISSING=LISTWISE. ********************回归分析******************. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA COLLIN TOL CHANGE /CRITERIA=PIN(.05) POUT(.10) CIN(95) /NOORIGIN /DEPENDENT Y /METHOD=STEPWISE X1 X2 X3 X4 /SCATTERPLOT=(*ZRESID ,*ZPRED) /RESIDUALS DURBIN HISTOGRAM(ZRESID) NORMPROB(ZRESID) /CASEWISE PLOT(ZRESID) OUTLIERS(3) /SAVE PRED ICIN.

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页