图解统计学
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3 平均情况出乎意料?!

要想掌握数据的特征,就必须了解除平均值以外的代表值

平均值真的是大概数值?

接下来我要为大家介绍数据的特征。平均值是表示数据特征的数值之一,但也存在些许问题。以上述公司为例,单纯从收入来看年收入平均水平较高的A公司更具吸引力。但是从员工的工资表来看,A公司8名员工的年收入为200万日元,只有1人的收入极高。平均年收入是个数字,数字不会说谎,但是不是与你的设想差距很大呢?综上所述,平均值作为显示数据特征的数值有时也会与人们的设想有偏差。

表示“平均”“中间”和“频出”的数值

表示数据特征的三个代表值

非常有名且简单的概念,但容易受到极端数值的影响

算术平均值

●用所有数值的平均值来表示大致数值;

●如果存在极大值或极小值,那么必然会对平均值产生影响。

居于所有数值的正中间

中位数

●位于所有数值正中间的观察值;

●与平均值相比,它不容易受到极端数值的影响。

该数值出现次数最多

众数

●总体中出现次数最多的标志值;

●即使存在极端数值,也几乎不受其影响。

示例(%)

虽然年收入平均值被高收入人群拉高,但大部分的日本人年收入保持在350万日元左右。

了解三个代表值

表示数据特征的代表性数值被称为“代表值”。其中第一个(最有名的)是“平均值”,它是数据资料中各个观察值的总和除以观察值个数所得的商,可以用来表示整体的大致水平。然而,其主要特征就是会受到极端数值的影响。第二个是“中位数”,它是将所有观察值从小到大依次排列后居于中间位置的观察值。即使此时存在极端数值,它所受到的影响也要比平均值小。第三个是“众数”,它是数据资料中出现次数最多的数值且也不易受到极端数值的影响。

▼A公司员工的平均年收入分布图

某个员工(可能是经理)独占收入的无良企业。我们应当避免就职于该公司。

▼B公司员工的平均年收入分布图

这是一家年收入逐渐上升的优良企业。不过,员工最高年收入却低于A、C两家公司。

▼C公司员工的平均年收入分布图

虽然没有A公司那么严重,但仍然可以确定部分员工独占了利润,因此也要尽量避免就职于该公司。

概述

表示数据特征的代表性数值称为“代表值”,主要包括平均值、中位数和众数等。

平均值表示数据的大致数值,但非常容易受到极端数值的影响。

中位数是位居正中间的数值,众数是出现频率最高的数值。这两者均不容易受到极端数值的影响。

公式一览表

平均值的意义

假设数据资料中的数值为,那么平均值则表示如下。

通过频数分布表计算平均值

中位数的定义

假设n个数据存在的关系。

如果数值个数为奇数,那么就只需将所有数值按照从小到大的顺序依次进行排列,位于正中间的数值就是中位数。

如果数值个数为偶数,则取中间两个观察值的算术平均值当作中位数。