数据分析--数字找朋友
admin
2023-07-14 13:45:04
0

从前有一个数字王国,里面的数字们喜欢在一起玩,不过它们有点挑剔,总是想跟与自己接近的数字玩,他们觉得其他都是远房亲戚,不亲。我们怎么帮助它们找到合适的一组数字呢?

均值

平均数是统计中的一个重要概念。通常用来表示一组统计对象的集中趋势。

平均数里面最常用的是算术平均数(或称均值)。它是一组数字的和除以数字的个数。

在均值用于表示统计对象的一般水平,它是描述数据集中程度的一个统计量。我们既可以用它来反映一组数据的一般情况,也可以用它进行不同组数据的比较,以看出组与组之间的差别。

例如数字20会跟下面两组数字哪一组玩呢?

A 19 23 19 21 23 20 21 20 18 22
B 43 45 36 45 38 36 39 38 39 41

通过计算均值,A组的均值为20.6,B组的均值为40,所以数字20去和A组玩。

为什么要用一个均值这样的叫法,为什么不能直接叫平均数呢?

因为平均数有好多种:

  • 算术平均数:n个数据相加后除以n。就是这里的均值。
  • 几何平均数:n个数据相乘后开n次方。
  • 调和平均数:n个数据的倒数取算术平均,再取倒数。
  • 平方平均数(也称“均方根”):n个数据的平方取算数平均,再开根号。
  • 移动平均数
  • 算术-几何平均数
  • 几何-调和平均数
  • 。。。。。。

STOP!好吧,我们就用均值。。

数字20又来找人玩,这次的数据组是它们,均值是20,好像没什么问题,但是20好像并不开心:

C 5 2 5 5 5 3 6 2 84 83

这是怎么一回事?!

中位数

中位数是另一个表示集中趋势的一个值,中位数不是所有数字计算得出,而是把所有的数按照大小的顺序排列。如果数据的个数是奇数,则中间那个数据就是这组数据的中位数;如果数据的个数是偶数,则中间那2个数据的平均值就是这组数据的中位数。

所以上面的这组数字,应该用中位数来描述。

将所有数字从小到大排列后:

C 2 2 3 5 5 5 5 6 83 84

中位数为第5和第6个数的平均值,也就是5,说明C组集中在了数字5的周围,所以数字20不喜欢和它们一起玩。在这里,83,84偏离了整体,是异常值。

那就换一组数字吧,这次的数据组是它们,均值是20,中位数也是20,这次没什么问题了吧?

D 3 5 5 5 6 34 34 36 36 36

众数

众数指一组数据中出现次数最多的数据值。例如在(2,3,3,3)中,出现最多的是3,因此众数是3,众数可能是一个数,但也可能是多个数。用众数代表一组数据,适合于数据量较多时使用,且众数不受异常值的影响。

D组中出现次数最多的数字是5和36,表示数字分成了两堆接近的数,还是没有和数字20接近的,数字20也不喜欢和它们玩。

数字20受够了!它要求再找些靠谱的参考标准,好吧,下面是一些参考:

全距

全距又称极差,用来表示一组数据中最大值与最小值之间的差额,即最大值减最小值后所得数值。全距为离散程度的最简单测度值,比较容易受到异常值影响。

上面的四组数据的全距为:

A B C D
全距 5 9 82 33

对于数字20来说,如果全距太大,就有可能是个坑。不过光看全距说明不了更多问题,还要进一步来看。

百分位数

百分位数是将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。

上面四组数据的10%百分位数和90%百分位数分别为:

百分位数 A B C D
10% 18.9 36 2 4.8
90% 23 45 83.1 36

百分位数对于数字20来说,是一个很好的参考,可以知道和他大小相仿的数字都集中在什么区域。但是这么多百分位数,选哪个好呢?

四分位数

四分位数可以理解为是特定的几个百分位数:25%,50%和75%。将一组数据从小到大排列后:

第一四分位数等于第25%的数字,也叫下四分位数;

第二四分位数等于第50%的数字,也就是中位数;

第三四分位数等于第75%的数字,也叫上四分位数;

第三四分位数与第一四分位数的差距又称四分位距。

四分位距提供了一个简单的判断数字分散程度的指标,对于数字20来说,可以有效的避免使用百分位数时的选择困难症。

上面四组数据的四分位数以及四分位距为:

四分位数 A B C D
下四分位数 19.25 38 3.5 5
上四分位数 21.75 42.5 5.75 35.5
四分位距 2.5 4.5 2.25 30.5

这样看来C组似乎比A组还要好,还有没有更靠谱一些的指标?

方差

方差用来描述一组数的离散程度,它将各个数和均值的差算一下平方,相加之后再除以总数,这样就可以算出各个数据分散的程度。

上面四组数据的方差为:

A B C D
方差 2.64 10.2 1009.8 232

C组和D组一下子就被排除了,偏离了太多。方差更好,不过由于平方了一下,如果想要更直观的表示和均值的距离的话,就要用到下面的标准差:

标准差

标准差是方差开平方,反映这组数字的离散程度。

标准差越大,代表大部分的数值和其平均值之间差异较大;标准差越小,代表这些数值较接近平均值。

上面四组数据的标准差为:(保留两位小数)

A B C D
标准差 1.62 3.19 31.78 15.23

标准差说明A组数据,平均和均值之间平均差距为1.62,大家都很接近,选这一组就没错了。

该用哪一个?

数字20:你一开始告诉我标准差不就好了?绕这么多弯子干什么?

上面的每一种值都有各自的适用场合,要根据关注的目标,使用合适的值进行描述,才是最合理的,没有唯一一个最好的衡量值。例如上面四组数据,如果只看标准差,能说明数字比较靠近,但并不能表明这一组数字靠近谁,还需要结合均值来一起考虑。

相关内容

热门资讯

特朗普:正致力于与伊朗达成协议... 特朗普在《纽约邮报》一档播客访谈节目中称,他正与伊朗磋商一项协议,伊朗已同意不再谋求拥有核武器。他表...
不接壤的日菲为何偷划海界? 日菲近日发表联合声明,宣称就“划定两国专属经济区和大陆架的海洋边界”启动正式谈判。两个隔海相望的国家...
凤凰晚报丨从钳工到老戏骨,魏宗... 今日人物【从钳工到老戏骨,魏宗万用一生诠释“戏比天大”】6月1日,表演艺术家魏宗万在上海逝世,享年8...
科威特称伊朗袭击致63人受伤 科威特卫生部门3日称,伊朗当天对科威特的袭击已造成63人受伤,相关部门已启动紧急应对预案,并在全国范...
日本标榜“和平国家”却行扩军备... 今年是东京审判开庭80周年,世界正回望历史、反思战争罪责、捍卫二战后来之不易的国际秩序之际,日本却迈...
浙江杨梅即将大规模上市,如何破... “我们现在的压力很大。”5月底,浙江余姚杨梅产区丈亭镇副镇长林宇站在一片杨梅林前对第一财经表示,当地...
致5死2伤!韩国就韩华航空航天... 【环球网报道 记者 姜蔼玲】据韩联社6月1日报道,针对位于韩国大田的韩华航空航天公司发生爆炸致7人伤...
黄河科技学院2026年招生简章 长按图片识别二维码或点击 “阅读原文” 查看电子招生简章。
医路起航,从“心” 开始!黄河... 6月1日上午,黄河科技学院附属医院2022级临床医学本科实习生入院岗前培训在大医讲堂顺利举办。院领导...
问题居然在实体卡槽上!美版iP... 6月2日消息,日前,又有博主提前把还没发布的iPhone 18 Pro电池参数给曝光了出来,根据爆料...