相关分析的计算原理(相关分析之距离相关分析)

序曲

临江仙·梅

【宋】李清照

庭院深深深几许,云窗雾阁春迟。为谁憔悴损芳姿。夜来清梦好,应是发南枝。

玉瘦檀轻无限恨,南楼羌管休吹。浓香吹尽有谁知。暖风迟日也,别到杏花肥。

这首词以咏梅为题,用梅花暗喻词人自己,把闺人幽独的离思与韶华易逝的帐悯,极其高华而深至地表现了出来。

以清词写苦思,倍增凄苦……她不是以梅花直接比人,而是把梅花同清梦联系起来,因好梦而溯及梅花,又以"应是"云云推测之词,加以摇曳,愈觉意折层探,令人回味不尽。漱玉词富于形象之美,尤长于活用比况类形容词。如"绿肥红瘦"与此处之"别到杏花肥"等,皆能别出巧思,一新耳目。"杏花肥"犹言杏花盛开也。然而不用常语而换一"肥"字,把形容词活用作谓语,就大增其直观的美感。巧而不尖,新而不怪,真能超越凡庸,别开生面。

此处着一"肥"字,上与"瘦"字关合,以梅花之玉瘦,衬红杏之憨肥,益觉鲜明生动。同时两相映带,还点明了时间的跨度。从早梅绽蕊直盼到杏花开遍,二十四番花信风,已吹过十一番了。春光半过,伊人未归,花落花开,只成孤赏。难怪园中的春色,尽作愁痕了。末尾以景结情,骚情雅韵,令人凄然无尽,洵为小令中精品。

距离分析简介

前面两节我们讲述了双变量相关与偏相关,二者的共同点是:

  • 对所分析的数据背景有一定程度的了解。
  • 但在实际工作中,有时对数据所代表的专业背景知识了解不重复,属于探索性研究,需对各个指标或者案例的差异性/相似程度进行考察,对数据有初步了解,然后再根据结果考虑如何进行深入分析。

距离分析可用于计算样本(或变量)间的距离(或相似程度)。根据变量的不同类型,可以有许多距离/相似程度测量指标供用户选择。但距离分析仅是一个预分析过程,因此距离分析不会给出常用的P值,仅给出各变量/记录间的距离的大小,使用者可自行判断相似性。

距离分析基本原理

距离对样本之间或变量之间的相似或不相似程度的一种测度,通过计算一对样本间或变量间的广义距离,将距离较小的变量或观测量归为一类,距离较大的变量或样本测量归为其他类,从而为聚类分析、因子分析等复杂数据集的分析打下基础。

与距离分析相关的统计量分为不相似性测度和相似性测度两类。

1. 不相似性测度

不相似性测度主要通过分析变量间的不相似程度对变量进行分类,主要包括:

(1)连续性变量:

  • Euclidean Distance:欧几里得距离,以两变量差值平方和的平方根为距离
  • Squared Euclidean Distance:欧式平方距离,以两变量插值平方和为距离,更重视较大的数值和距离
  • Chebychev:切比雪夫距离,以两变量绝对差值的最大值为距离
  • Block:以两变量绝对差值之和为距离

(2)计数变量:

  • 卡方测量
  • Phil测量:以卡方测距值除以合计频数的平方根

(3)二分类变量:默认是欧式距离

  • 欧式距离:计算公式sqrt(b c),其中b/c为交叉表中对角线上的元素,最小为0,最大无线
  • 欧式平方距离:即|b c|,最小为0,最大无限

2. 相似性测度

与不相似性测度想法,相似性测度通过计算变量之间的相似系数从而将变量进行分类:

  • 连续性变量:可以采用皮尔逊相关系数测量,也可采用Cosine,即以变量矢量的余弦值为距离,大小介于-1和1值间,数值越大说明相似度越高
  • 二分类变量:由较多的测量指标,一般使用默认的Russell and Rao(以二分点乘积为配对系数)即可
SPSS实现距离分析

示例:根据中国28个城市汉族男性19-22岁组6项形态指标的平均值计算各指标两两之间距离。

相关分析的计算原理(相关分析之距离相关分析)(1)

1. 参数选择与说明

(1) 打开 分析—相关—距离

相关分析的计算原理(相关分析之距离相关分析)(2)

(2) 参数说明与选择

相关分析的计算原理(相关分析之距离相关分析)(3)

a. 变量:选择进行聚类分析的变量,至少要选择2个,可以为连续变量或分类变量

b. 个案标注依据:用于选择标识观测量的标签变量,只有在 计算距离 中选择了 变量间 才可使用;选择后,其取值会在输出结果中给出相应记录加上标签,以方便阅读;仅在分析个案间的距离时可用

c. 计算距离:

  • 个案间:表示计算样本量之间的距离
  • 变量间:表示计算变量之间的距离

d. 测量:

  • 非相似性:表示计算不相似性距离,默认选项,并且默认使用欧式距离(Euclidean distance)
  • 相似性:表示计算相似性距离,默认使用皮尔逊相关系数作为相似性测量度
  • 若改变相应的类型,则可按测量按钮进行设施

e. 非相似性距离选择

相关分析的计算原理(相关分析之距离相关分析)(4)

  • 区间:也成为定距数据,测量距离主要为欧氏距离、平方 Euclidean 距离、Chebychev、块、Minkowski等,默认为欧式距离
  • 计数数据:卡方测量(基于对两组频数的相等性的卡方检验,默认选项)或 phi 平方测量(设法考虑样本大小,以减少观测频数对测度值的影响,它可用前面的卡方测度除以联合频数的平方根得到)
  • 二元数据:首先需指定表征特性存在与否的取值,再指定测度计算方法,包括欧氏距离、平方 Euclidean 距离、刻度差分、模式差分、方差、形状或 Lance 和 Williams等。
  • 转换值:在计算距离之前对观测量或变量进行标准化的方法,但对二元变量不能进行标准化,可选的标准化方法包括:

(1) None:不进行标准化,默认选项

(2) Z-Score标准化:标准化后的均值为0,标准差为1

(3) 范围0-1:标准化后的取值范围为0-1,对被标准化的项目的每一个取值,减去最小值,然后处于范围(最大与最小值的差)得到

(4) 范围-1到1:标准化后的取值范围为-1~1,由原始值除以范围(最大与最小值的差)得到

(5) 最大量级为 1:将要进行标准化的项的每个值除以这些值中的最大值。

(6) 平均值为 1:将要进行标准化的项的每个值除以这些值的平均值

(7) 标准差为 1:将要进行标准化的变量或个案的每个值除以这些值的标准差

  • 转换测量:设置对距离测度的计算结果进行转换的方法,包括:

(1) 绝对值:表示对距离取绝对值,有的符号可以表明相关性的方向,当仅对相关性大小感兴趣时使用

(2) 变化量符号:表示改变距离的符号,如此可把相似性测度转换成不相似性测度

(3) 重新标度到0-1的范围:表示转换后的取值范围0-1,对已经在转换值栏按相似方法进行标准化后的测度一般不再使用此方法。

f. 相似性距离选择

相关分析的计算原理(相关分析之距离相关分析)(5)

  • 区间:包括皮尔逊相关系数和余弦两种方法
  • 二元:SPSS为每对要计算的项目构造一个2×2的列联表,其可选的测度方法有20多种,可分为四类:匹配系数、条件概率、可预测性测度和其他测度,具体不再一一阐述。
  • 转换值和转换测量同非相似性测度相同。

2. 数据结果与说明

(1) 基础分析

  • 由下表可知,输出各指标的平均值与标准差。

相关分析的计算原理(相关分析之距离相关分析)(6)

(2) 检验结果

  • 由下表可知,身高与坐高、体重距离较近;胸围与体重较近,但不如体重与身高近;肩宽与盆骨宽较近。
  • 前三个指标度表示一般发育状况所以距离较近;最后两个指标表示体型状况,所以距离也较近;而胸围距离其他指标相对较远,反应运动功能。

相关分析的计算原理(相关分析之距离相关分析)(7)

3. 语法:

***************** 距离相关检验 *******************. PROXIMITIES x1 x2 x3 x4 x5 x6 /VIEW=VARIABLE /MEASURE=EUCLID /STANDARDIZE=VARIABLE Z.

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页