核密度估计方法（非参数检验方法）

哭的好动情 2023-06-17 21:22:25

收藏赞分享

在20世纪，统计学还处于起步阶段计算机还不是那么流行的时候，假设正态分布是生成数据的标准。这主要是因为在那个所有结果都是手工计算的时代，正态分布可以使计算不那么繁琐。

核密度估计方法（非参数检验方法）(1)

但在这个大数据时代，随着计算能力的提高，数据的可用性使得统计学家采用了更现代的技术——非参数统计。这里我们将讨论一种这样的方法来估计概率分布，核密度估计。

核密度估计方法（非参数检验方法）(2)

n个随机变量服从分布函数F。对数据的假设越多，我们就越不接近现实，所以让我们对分布F做尽可能小的假设：它是一个绝对连续的分布函数(概率密度/质量函数即pdf/pmf存在)。我们要重建这个未知分布函数F的pdf。

是如果使用参数检验的方法，我们会假设(猜测)F的参数形式，并通过各种统计方法估计参数，如最大似然估计，矩量法等。但这里我们不打算这么做。我们将转而使用这个密度的非参数估计。

在深入研究用于非参数估计密度的核密度估计(KDE)之前，我们先看一个例子，一个看似非参数的问题可以转化为参数推断问题，然后我们将介绍非参数统计和 KDE 起着重要作用的例子。

核密度估计方法（非参数检验方法）(3)

这里我们要检验

核密度估计方法（非参数检验方法）(4)

以非参数方式执行此操作，下面的测试可以直观进行，

核密度估计方法（非参数检验方法）(5)

原假设：分布 F 的中位数为 0

检验这个零假设的常识方法是查看正面和负面观察的数量，并查看每个类别中有多少错误，即

核密度估计方法（非参数检验方法）(6)

在原假设下，正观察值的数量应遵循 Binomial(n, 1/2)

这样我们就将非参数测试问题简化为参数测试问题。

让我们转向另一个例子

核密度估计方法（非参数检验方法）(7)

参数估计正在获取 f_theta 最接近 g 的估计，如果 g 在模型的选择中，那么对于某些参数选择，估计的 f 和 g 之间的距离将为 0，即

核密度估计方法（非参数检验方法）(8)

这里的rho 是两个密度函数之间的距离度量，上述情况发生在建模完美的时候，而现实生活中往往不是这样。因为对于 f 形式的参数函数集中的最佳选择，它们也将接近 g 但不完全等于 f。我们执行以下操作，

核密度估计方法（非参数检验方法）(9)

找到使假设的参数模型与实际密度之间的距离最小的参数，在最好的情况下，这个参数通常仍会导致距离的正值。两个密度函数之间距离的一种特殊选择可以是 Kullback–Leibler 散度：

核密度估计方法（非参数检验方法）(10)

在上面的表达式中，最大化第二项就像最小化距离一样，因为第一项与 theta 无关。所以最小化 KL(g,f) 可以变为：

核密度估计方法（非参数检验方法）(11)

KL散度公式中第二项的最大化导致距离最小化，G 是未知的。上述最小化 KL 散度的表达式的形式为：ln f(x) w.r.t. 的期望， G是分布函数。

我们的数据总是离散的。所以需要使用样本均值来估计上述期望

核密度估计方法（非参数检验方法）(12)

上面的表达式需要最大化，它与最大似然估计相同，其中上面的表达式给出了样本的对数似然（忽略小数常数 1/n）。

但是上面所有的工作，我们以某种方式绕过了一个事实，即正在最小化离散数据和连续密度之间的距离。但通常是不可能这样做。例如，如果选择 Squared-Hellinger距离

核密度估计方法（非参数检验方法）(13)

最后一个表达式来自于密度函数对R的积分是1。第一个问题是，为什么还要加上Squared-Hellinger距离？我们加上它的与原因是它不知道数据中的异常值，而理论上的好处是它的对称表达式。

所以最小化 Hellinger 距离等同于

核密度估计方法（非参数检验方法）(14)

在 Squared Hellinger 距离中最大化此项会导致 f 和 g 之间的最小距离

KL Divergence 的特殊之处在于使用这个最终的目标函数作为期望。但在这里我们不能那样做，因为不能将其简化为求和形式，所以要计算上述内容，首先需要从数据中可靠地估计 g(x)，模型可能是连续的，但它的数据总是离散的。使用这些数据还需要找到 g(x) 的连续密度估计，这就是密度估计发挥作用的地方。

我们可以参数化地进行这种估计，但这里我们将重点关注 g 的非参数化估计。非参数地估计密度的一些想法可以是将直方图视为密度的估计。

核密度估计方法（非参数检验方法）(15)