一文搞懂正态分布所有重要知识点(杂谈正态分布为什么如此常见)

转自公众号“机器学习炼丹术”,已获得作者授权

一文搞懂正态分布所有重要知识点(杂谈正态分布为什么如此常见)(1)

文章目录:

  • 1 生活中的正态分布
  • 2 名字由来
  • 3 剖析细节
  • 4 有偏分布

每个人都相信它(正态分布):实验工作者认为它是一个数学定理,数学研究者认为它是一个经验公式。----加布里埃尔·李普曼

本文主要是为了之后讲解最小二乘法、岭回归等优化方法做个铺垫。

1 生活中的正态分布

生活中女性的身高,

一文搞懂正态分布所有重要知识点(杂谈正态分布为什么如此常见)(2)

假设你有200个相亲对象,然后你老妈搜集了他们所有人的身高信息,然后以5cm为单位,来数一数每5cm各有多少人。接着用身高为横轴,人数为纵轴,画了下面的图:

一文搞懂正态分布所有重要知识点(杂谈正态分布为什么如此常见)(3)

这种数据分布就是正态分布,正分布像是一个小山,两头低,中间高,左右对称,大部分数据集中在平均值,小部分分布在两端

实际上人的分高确实是符合正态分布的。2017年我国18岁及以上成年男性的平均身高是167.1cm,所以167.1的身高就是中国普遍男性身高的数值,如果是150cm或者是190cm都是人数比较少的,处于分布两端的人群。

神奇的地方在于,不管是人的身高,手臂长度,肺活量,还是他们的考试成绩,都符合正态分布。

这是为什么呢?

2 名字由来

正太正态分布为什么不叫“正点”呢?

一文搞懂正态分布所有重要知识点(杂谈正态分布为什么如此常见)(4)

这个要从这个东西说起,下面这个东西

一文搞懂正态分布所有重要知识点(杂谈正态分布为什么如此常见)(5)

这个东西叫做高尔顿钉板,你猜猜这是谁发明的?没错,就是维多利亚时期的学者Francis Galton(高尔顿)。他做了这个钉板之后,发现这种形状适用于很多数据,所以他将其命名为“正态分布”(The Normal Distribution).

正态分布的英文“normal”,表示常见的,典型的 , 用来表示这种分布能代表多种多样的数据类型。

3 剖析细节

高尔顿钉板中,每一个小珠子下滚的时候,撞到柱子就会随机的向左走或者向右走。然后一个小珠子一路滚下来会选择多次方向,最终的分布就会接近正态分布。

关键点在于,一个事情经过多个随机的因素的影响,结果似乎就是正态分布

女性身高可能会受父母身高的影响、饮食习惯的影响、是否喜好运动的影响 等等,这些影响类比成高尔顿钉板中的柱子。

此外,还要注意一点就是高尔顿钉板 中,所有珠子的初始状态一致。

4 有偏分布

现实中,也有很多有偏分布,比如在医学中的检测。有一种说法是因为在细胞中,细胞分类是乘法而非加法。所以用log方法来将乘法变成加法,所以log方法也可以把有偏数据变成正态分布。

一文搞懂正态分布所有重要知识点(杂谈正态分布为什么如此常见)(6)

对横坐标取log:

一文搞懂正态分布所有重要知识点(杂谈正态分布为什么如此常见)(7)


【个人感想】人生也是如此,左边是贫穷,右边是富有。人生面临无数的随机选择,大部分人落在了中间位置,成为了一般人。少数运气不好的和运气好的人变成了特别穷的人和特别富有的人,但是大部分的我们变成了普通人。我们之所以努力,就是希望在每一次选择的时候,可以做出更好的选择,让我们的未来更好。共勉!

- END -

转自公众号“机器学习炼丹术”,已获得作者授权

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页