logistic回归算法原理与特点(Logistics回归分析之简介)

序曲

归雁

【唐】钱起

潇湘何事等闲回,水碧沙明两岸苔。

二十五弦弹夜月,不胜清怨却飞来。

【译文】

你为何如此轻易的从潇水湘水那样美丽的地方回来呢?那里溪水澄澈,沙石明净,岸边还有青苔可以供你觅食,你何故不肯呆了呢?

大雁答道:湘灵之神在月夜弹的瑟曲调太伤感了,我忍受不了那悲怨欲绝的曲调,不得不离开潇湘飞回到北方来。

【赏析】

这首《归雁》,虽写于北方,所咏却是从南方归来的春雁。

诗咏“归雁”,雁是候鸟,深秋飞到南方过冬,春暖又飞回北方。古人认为,秋雁南飞,不越过湖南衡山的回雁峰,它们飞到峰北就栖息在湘江下游,过了冬天再飞回北方。作者依照这样的认识,从归雁想到了它们归来前的栖息地──湘江,又从湘江想到了湘江女神善于鼓瑟的神话,再根据瑟曲有《归雁操》进而把鼓瑟同大雁的归来相联系,这样就形成了诗中的奇思妙想。

短短四句诗,构思新颖,想象丰富。诗中的潇湘夜景和瑟声虽都是想象之词,但通过这样一问一答,却把雁写成了通晓音乐和富于情感的生灵了。这首诗表面上写大雁,实际上是写诗人在春夜的感受。诗中没有直接说这种感受是什么。正因为没有明白说出,才留给读者无限的想象空间。

《归雁》中的“不胜清怨却飞来”一句,原来是这首七言绝句构思巧妙新颖,想象丰富,笔法空灵,抒情婉转,意趣含蕴。它以独特的艺术特色,而成为引人注目的咏雁名篇之一

Logistics回归分析简介

在上一章节介绍的回归模型中,因变量为连续性变量,并且理论上要求服从正态分布等LINE(线性、独立、正态、方差齐性)假设条件。但在很多场景下,因变量多为二分类数据或者多分类数据,特别是在医学场景下,分析死亡与否的概率与病人生理状况、疾病严重程度之间的关系;研究对某种疾病易感性的概率与个体性别、年龄、免疫水平之间的关系等。此时就会用到Logistics回归,可以预测一个分类变量每一个分类所发生的概率,应变量为分类变量(二分类或者多分类),自变量可以是连续变量,也可以是分类变量,还可以是两种变量的混合。

分类变量可以分为有序分类变量无序分类变量;而无序分类变量也称之为名义变量,分为二项分类变量多项分类变量两种。如经过某种方案处理后,病人的质量结果分为生存与死亡,有效与无效(二项分类);本科毕业生对大学生活的满意程度分为很不满意、不满意、满意、很满意,结果变量满意程度为有序分类变量;不同人群选择不同品牌的数码相机,这种结果变量相机品牌为无序多分类变量。

Logit变换

在曲线回归中,往往要采用变量变化,使得曲线直线化,然后再进行直线回归方程的拟合。在分类变量中回归中,能否考虑对所预测的因变量加以变化,解决相应问题呢?在1970年,Cox引入以前用于人口领域的Logit变换成功解决了上述问题。

什么是Logit变换呢?即把出现某种结果的概率与不出现的概率之比称为优势比(odds),odds=P/(1-P),取对数ln(odds),这就是Logit变换。应用在分类变量上,则:

首先是因变量取值区间的变化,概率是以0.5为对称点,分布在0~1的范围内,相应的LogitP的大小为:

logistic回归算法原理与特点(Logistics回归分析之简介)(1)

由上看出,当P 取值0~1时,LogitP取值-∞~ ∞,而实践证明LogitP往往与自变量X 呈现线性关系。于是我们就用LogitP为因变量,构建线性回归模型,即Logistic回归模型。构建模型的表达式为:logitP=a β 1 ×x 1 β 2 ×x 2 … β m ×x m 。当x 每增加1个单位时,方程由LogitP0 变为LogitP1。

二元Logistics回归分析

很显然,二元Logistics回归分析,因变量仅有2个分类,自变量可以是任何形式的资料。其适用条件,包括:

  • 因变量为二分类的分类变量或某事件的发生率。需要注意的是,流行病学中的发病率(或社区卫生服务研究中的两周患病率)等存在对一个研究对象重复技术现象的指标并不适用于Logistics回归,因为此时因变量不服从二项分布。
  • 残差合计为0,且服从二项分布
  • 自变量和Logistic概率是线性关系
  • 各样本量相互独立

由于因变量为二分类,所以Logistics模型的误差项应服从二项分布,而不是正态分布。因此,该模型实际上不应当使用之前的最小二乘法进行参数估计,目前均使用最大似然法来解决方差的估计和检验问题。

Logistics回归分析对样本量有严格的要求,可以使用经验方法估计:首先选择因变量中较少的那一类,然后该数值除以10,这就是模型中可以分析的自变量数。如有100条记录,其中患病为70条,30条为未患病,则模型中可分析的自变量数为30/10=3。若希望分析4个自变量,则需要增加样本;相对而言,样本量越大越好。

后续章节将对不同类型的Logistics回归进行介绍。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页