输入数据归一化带来的问题（数据归一化Normalization）

握紧涐旳手 2023-04-03 14:17:36

一、定义

数据标准化（Normalization），也称为归一化，归一化就是将你需要处理的数据在通过某种算法经过处理后，限制将其限定在你需要的一定的范围内。

数据标准化处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要对数据进行归一化处理，解决数据指标之间的可比性问题。

二、优点

如上面所说，数据归一化的目的就是为了把不同来源的数据统一到同一数量级（一个参考坐标系）下，这样使得比较起来有意义。归一化使得后面数据的处理更为方便，它有两大优点：（1）归一化可以加快梯度下降求最优解的速度，（2）归一化有可能提高精度。

（1）归一化提高梯度下降发求解最优解的速度

如下图，蓝色的圈圈表示特征的等高线。其中左图的两个特征x1和x2区间相差较大，x1~[0,2000],x2~[1,5],期所形成的等高线在一些区域相距非常远，当使用梯度下降法求解最优解的时候，很可能垂直等高线走“之字型”路线（左图红色路径），从而导致需要迭代很多次才能收敛，也可能不收敛。而右图对两个原始特征进行了归一化处理，其对应的等高线显得很圆，在梯度下降的时候就能很快收敛。因此，如果机器学习使用梯度下降法求解最优解时，归一化往往是非常有必要的。

输入数据归一化带来的问题（数据归一化Normalization）(1)

（2）归一化有可能提高精度

一些分类器（如KNN）需要计算样本之间的距离（如欧式距离）。如果一个特征值域范围非常大，那么距离计算就要取决于这个特征，如果这时实际情况是值域范围小的特征更重要，那么归一化就要起作用了。

三、归一化方法

（1）线性归一化，也称min-max标准化、离差标准化；是对原始数据的线性变换，使得结果值映射到[0,1]之间。转换函数如下：

输入数据归一化带来的问题（数据归一化Normalization）(2)

这种归一化比较适用在数值较集中的情况。这种方法有一个缺陷，就是如果max和min不稳定的时候，很容易使得归一化的结果不稳定，影响后续使用效果。其实在实际应用中，我们一般用经验常量来替代max和min。

（2）标准差归一化，也叫Z-score标准化，这种方法给予原始数据的均值（mean，μ）和标准差（standard deviation，σ）进行数据的标准化。经过处理后的数据符合标准正态分布，即均值为0，标准差为1，转化函数为：

输入数据归一化带来的问题（数据归一化Normalization）(3)

（3）非线性归一化，这种方法一般使用在数据分析比较大的场景，有些数值很大，有些很小，通过一些数学函数，将原始值进行映射。一般使用的函数包括log、指数、正切等，需要根据数据分布的具体情况来决定非线性函数的曲线。

四、结构

（1）深度模型的激活函数

（2）激活函数导致的梯度消失

（3）批量归一化

（4）自归一化神经网络

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

猜您喜欢

东芝移动硬盘a3值得购买吗（便携实用的移动硬盘-东芝A3移动硬盘体验）

陌路难行
域名及ip地址是啥（ip地址和域名）

幸福陪著我
安装电视挂架步骤（电视挂架安装技巧与常识）

步行吧
西安地铁建设纪实（说这十年系列短--西安迈入地铁时代）

往事在说谎
微信号代运营方案及报价（微信商态收官之战）

保留的温柔
转转官方二手手机怎么样（转转二手3C市场分析）

皒旳未來
手机突然触屏不灵了怎么办（手机触屏不灵我来教你处理）

无人风港

秒懂生活

输入数据归一化带来的问题（数据归一化Normalization）

猜您喜欢

东芝移动硬盘a3值得购买吗（便携实用的移动硬盘-东芝A3移动硬盘体验）

域名及ip地址是啥（ip地址和域名）

安装电视挂架步骤（电视挂架安装技巧与常识）

西安地铁建设纪实（说这十年系列短--西安迈入地铁时代）

微信号代运营方案及报价（微信商态收官之战）

转转官方二手手机怎么样（转转二手3C市场分析）

手机突然触屏不灵了怎么办（手机触屏不灵我来教你处理）

热门推荐

排行榜