1.6 变量与数据的衡量尺度
数据衡量是给变量给予一个实数值(观测值),但是因为变量的性质不同,所以有不同的衡量尺度。以下我们介绍四种衡量尺度。
1.6.1 定比尺度或比率尺度
数据之间有“次序”“大小”及“比率”的关系。例如:长度尺度、重量尺度、绝对温度、金钱、面积、体积、时间间隔等。同时可以定义一个原点,即零值0,零值表示“没有”,没有长度、重量、温度、钱等。
对定比尺度(ratio scale)的数据做分析时,可以经过数学运算(+-×÷)及转换(或logXi)等。
定比尺度的数据常用的代表值是平均数。在统计推论中,是估计及检验其算术平均数。使用定比尺度的数据制作统计图时,故意改变尺度比率、故意忽略原点或用二度空间尺度面积表示,都可能造成误解。
1.6.2 定距尺度或区间尺度
数据之间有“次序”及“大小”的关系,而没有“比率”的关系。主要是衡量一个数据大于另一个数据多少,而并非其倍数关系。
定距尺度(interval scale)的原点0并非代表“无”(无温度,无智商,无尺寸)。例如:(1)温度尺度(℃或℉);(2)智商分数;(3)衣服或鞋子的号码。
定距尺度的数据有基本的测量单位,可以计算其数值之加减。定距尺度的数据常用的代表值是平均数。在统计推论中,也是估计及检验其算术平均数。
定距尺度的数据也可以用定序尺度(非参数)的统计方法。定距尺度降低为定序尺度:n个数据排列顺序,从小到大,给予1到n的秩(等级),若数值相同,其秩(等级)作平均。
1.6.3 定序尺度或顺序尺度
数据之间只有“次序”关系,其数值大小并不重要,不能用加法。例如:(1)考试成绩等级;(2)门牌号码;(3)问卷问题同意程度;(4)学历。
定序尺度(ordinal scale)的数据,可以排序后计算,例如计算中位数,无参数统计计算其秩(等级),检验中位数。定序尺度降低为定类尺度:数据按照各秩(等级)统计出现的频数,不管其顺序秩(等级)。或者合并秩(等级),计算其频数。例如:成绩(A,B,C,D)计算及格不及格,计算(或估计检验)及格的比例。在R语言中称为有序因子(ordered factor)。
1.6.4 定类尺度或分类尺度
数据之间没有任何“次序”“大小”及“比率”的关系,只有“分类”关系。例如:(1)性别数据;(2)颜色数据;(3)电话号码、邮政编码、球员编号、职业编号、地区编号。
定类尺度(nominal scale)的数据常用的代表值是众数。在统计推论中是计算总体比例,或在回归分析中当作虚拟变量(dummy variable)。R语言称为因子(factor,没有定义有序)。
定比尺度和定距尺度的主要参数是平均数;定序尺度和定类尺度的主要参数是比例。如图1.5所示。定序尺度和定类尺度的变量值可以用任意数字表示。
图1.5 数据衡量尺度与统计方法