数据分析数学基础知识(数据分析里的基础数学知识)

数据分析跟数据打交道,想想是需要大量的数学知识。其实在这个工具丰富的时代,知道一点基础的数学知识,足矣。

把握全局的第一步:集中趋势

把握全局的重点是什么?有人可能会说方差、标准差这样的比较精准的方法。

其实把握全局的重点就是一个字--快!想想看,股票价格已经快到底了,你还在各种噼里啪啦量化分析,结果就错过了时机。天下武功,唯快不破!

快的要诀就是要足够简单。这里重点介绍三个概念:均值、中位数、众数。你可能小学就学过这几个概念,可是你真的理解了吗?

均值

简单来说,均值就是平均数的一般度量。

大家平时接触最多的其实是平均数的概念。计算大量数据的平均数的一个方法是:将所有数字加起来,然后除以数字个数。这是均值的特例,因为每个数字的频数都是1.

均值的符号:μ,这是一个希腊字母(读作“缪(miu)”)

数据分析数学基础知识(数据分析里的基础数学知识)(1)

均值公式

有一点确实很重要:在计算均值的时候,要把每个数的频数考虑进去。为了确保自己不忽略这一点,我们可以把它写入公式。

数据分析数学基础知识(数据分析里的基础数学知识)(2)

加入频数的均值公式

中位数

中位数是一组数据的中间值,表示典型值。

生活中,我们都会被典型所吸引,典型是区别于普通的重要标志。这就像芸芸众生,人人都喜欢看帅哥、美女。

将n个数字按顺序(升序或降序)排列,无论 n 为奇数还是偶数,中位数的位置都为 (n 1) / 2。

掌握中位数,是进阶四分位数、百分位数的基础。

众数

众数是数据集中的频数最大的一个值(类别)。

通俗一点说就是点个数最多的那个。与均值和中位数不同,众数必须是数据集中的一个值。有时候,数据的众数可以不止一个。如果有一个以上的数值具有最大的频数,则每一个这样的数值都是众数。如果一批数据有两个众数,则我们说这种数据是双峰数据。

掌握着这三个数值,就能快速把握数据的整体情况。但是一定要记住,只看这三个数值,是不能准确下结论的。

给数据下结论的关键信息:距和差

数据分析的核心是什么?当然是下结论,尤其是能帮助业务现状改善的结论。

这里就要介绍另外三个概念:全距、四分位距、箱线图。

全距

全距又叫极差,它能指出数据的扩展范围。计算方法很简单,全距=最大值-最小值。

平均数让我们有办法确定一批数据的中心,却无法知道数据的变动情况。

全距提供了一种对数据集之间进行比较的方法——全距是度量数据分散程度既简单又方便的方法。

数据分析数学基础知识(数据分析里的基础数学知识)(3)

全距

四分位距

四分位距是中位数和全距的延伸。四分位,就是把数据集分成四等份;第一四分位数和第三四分位数之间的差值被称为四分位距(IQR)。

全距的主要问题是:仅仅描述了数据的宽度,由于全距是通过数据极值计算得出的,很容易受到两端极值的影响,产生较大偏差。而四分位距就很好地剔除了异常值影响。

数据分析数学基础知识(数据分析里的基础数学知识)(4)

四分位距(IQR) = 上四分位数(Q3) - 下四分位数(Q1)

箱线图

箱线图可以清晰地绘制各种“距”,四分位距、十分位距、百分位距......是数据分析最常用的图之一。一图就能清晰准确的表达整个数据集,还可以轻而易举地发现异常值。

数据分析数学基础知识(数据分析里的基础数学知识)(5)

箱线图是一种显示各种“距”和四分位数的简明方法

箱线图看上去复杂,其实在Python里,matplotlib或seaborn里的boxplot()函数就能轻松实现。

掌握以上6个概念,基本上就算是数据分析入了门。当然有时,更进一步,我们还需要做预测,就需要一些概率论知识。(下回再介绍)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页