机器学习落地 最佳实践(BAT机器学习工业实战教程-数理统计与参数估计-重要定理与不等式)

机器学习落地 最佳实践(BAT机器学习工业实战教程-数理统计与参数估计-重要定理与不等式)(1)

主要内容

明确目的

  1. 机器学习的关注点
  2. 统计与概率的关注点
  3. 二者的关系

重要统计量

  1. 期望
  2. 方差
  3. 协方差与相关系数
  4. 独立和不相关

重要定理与不等式

  1. Jensen不等式
  2. 契比雪夫不等式
  3. 大数定理
  4. 中心极限定理

用样本估计参数

  1. 矩估计
  2. 极大似然估计

本文将介绍学习数理统计与参数估计的重要定理与不等式。

  • Jensen不等式
  • 切比雪夫不等式
  • 大数定理
  • 中心极限定理

Jensen不等式:若f是凸函数

机器学习落地 最佳实践(BAT机器学习工业实战教程-数理统计与参数估计-重要定理与不等式)(2)

凸函数

机器学习落地 最佳实践(BAT机器学习工业实战教程-数理统计与参数估计-重要定理与不等式)(3)

思考

机器学习落地 最佳实践(BAT机器学习工业实战教程-数理统计与参数估计-重要定理与不等式)(4)

1、两点的距离包括欧式距离,曼哈顿距离,切比雪夫距离,这三个其实都可以统一成“闵可夫斯基(Minkowski)距离”,如:

机器学习落地 最佳实践(BAT机器学习工业实战教程-数理统计与参数估计-重要定理与不等式)(5)

上述公式中:

如果p取2,即为欧氏距离;

如果p取1,即为曼哈顿距离;

如果p取无穷大,即为切比雪夫距离距离。

此外,计算距离需要考虑不同维度的值的变化范围是否过大,如果是,需要预处理。如使用(x-niu)/sigma或者(x-min)/(max-min)等归一化方法。


2、以连续型随机变量为例

机器学习落地 最佳实践(BAT机器学习工业实战教程-数理统计与参数估计-重要定理与不等式)(6)

切比雪夫不等式

机器学习落地 最佳实践(BAT机器学习工业实战教程-数理统计与参数估计-重要定理与不等式)(7)

大数定理

机器学习落地 最佳实践(BAT机器学习工业实战教程-数理统计与参数估计-重要定理与不等式)(8)

大数定理的意义

机器学习落地 最佳实践(BAT机器学习工业实战教程-数理统计与参数估计-重要定理与不等式)(9)

重要推论

机器学习落地 最佳实践(BAT机器学习工业实战教程-数理统计与参数估计-重要定理与不等式)(10)

伯努利定理

机器学习落地 最佳实践(BAT机器学习工业实战教程-数理统计与参数估计-重要定理与不等式)(11)

中心极限定理

机器学习落地 最佳实践(BAT机器学习工业实战教程-数理统计与参数估计-重要定理与不等式)(12)

例:标准的中心极限定理的问题

有一批样本(字符串),其中a-z开头的比例是固定的,但是量很大,需要从中随机抽样。样本量n,总体中a开头的字符占比1%,需要每次抽到的a开头的字符串占比(0.99%, 1.01%),样本量n至少是多少?

问题可以重新表述一下:大量存在的两点分布Bi(1,p),其中,Bi发生的概率为0.01,即p=0.01。取其中的n个,使得发生的个数除以总数的比例落在区间(0.0099,0.0101),则n至少是多少?

解:

机器学习落地 最佳实践(BAT机器学习工业实战教程-数理统计与参数估计-重要定理与不等式)(13)

中心极限定理的意义

实际问题中,很多随机现象可以看作许多因素的独立影响的综合反应,往往近似服从正态分布。

  • 城市耗电量:大量用户的耗电量总和
  • 测量误差:许多观察不到的、微小误差的总和

注意:是多个随机变量的和才可以,有些问题是乘性误差,则需鉴别或取对数后再使用。

  • 线性回归中,将使用该定理论证最小二乘法的合理性
目录介绍

本系列文章所有内容计划如下:

  1. 机器学习与相关数学初步
  2. 数理统计与参数估计
  3. 矩阵分析与应用
  4. 凸优化初步
  5. 回归分析与工程应用
  6. 特征工程
  7. 工作流程与模型调优
  8. 最大熵模型与EM算法
  9. 推荐系统与应用
  10. 聚类算法与应用
  11. 决策树随机森林和adaboost
  12. SVM
  13. 贝叶斯方法
  14. 主题模型
  15. 贝叶斯推理采样与变分
  16. 人工神经网络
  17. 卷积神经网络
  18. 循环神经网络与LSTM
  19. Caffe&Tensor Flow&MxNet 简介
  20. 贝叶斯网络和HMM
  21. 词嵌入word embedding

本文就先介绍到这,谢谢大家的关注。

如果有朋友需要完整的ppt,请留言,我会把下载链接私信给大家。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页