SPSS中的缺失值分析

缺失值经常在下列一些情况出现：
　　拒绝回答问题；
　　没有答案；
　　调查研究中的损耗；
　　从多个数据源中合并数据。

　　众所周知，在诸如收入、交通事故等问题的调查研究中，大量存在未回答的问题。以下是一些例子：
　　在一项消费者经济状况调查中，28%的受访者没有回答收入情况；
　　在一次人口调查中，20%的人没有回答收入情况，高收入者的回答率比中等收入者要低；
　　在严重交通事故报告中，诸如是否使用安全带和酒精浓度等关键问题在很多个案中都没有记录。

　　缺失值会表现为以下问题：
　　有缺失值的个案系统地不同于完整的个案；
　　有缺失值的个案表明信息不完整；
　　标准统计方法只接受完整数据。

　　以上问题意味着：
　　偏向：分析结果可能会有偏差；
　　无效：较少的有效个案导致估计精度下降；
　　某些情况下，诸如均值置换和列表删除等大量可用逼近方法可能过于天真，甚至是错误的

　　统计学家研究出一个缺失值逼近方法，如极大似然逼近(maximun likelihood，ML)。要使用ML，必须有数据模型和缺失值机制模型。数据模型可能是数据为多变量正态，缺失值机制模型可能是数据完全随机缺失(missing completely at random，MCAR)或者随机缺失(missing at random，MAR)。下面给出这些术语的定义和描述：

　　数据完全随机缺失(Missing Completely At Random，MCAR)，表示缺失和变量的取值无关。例如，假设您在研究年龄和收入。如果缺失和年龄或收入数值无关，则缺失值方式为MCAR。要评估MCAR是否为站得住脚的假设，您可以用比较回答者和未回答者的分布来评估观察数据。也可以使用单变量t-检验或Little's MCAR多变量检验来进行更正规的评估。如果MCAR假设为真，可以使用列表删除(listwise deletion)(完整个案分析)，无需担心估计偏差，尽管可能会丧失一些有效性。如果MCAR不成立，列表删除、均值置换等逼近方法就可能不是好的选择。

　　如果数据不为MCAR，可以考虑评估回答者和未回答者的特性差异是否能够用同时测度回答者和未回答者的变量来理解。这就引出了随时缺失(missing at random，MAR)的概念，其中缺失分布中调查变量只依赖于数据组数中有记录的变量。继续上面的例子，考虑到年龄全部被观察，而且收入有时有缺失。这样，如果收入缺失值仅依赖于年龄，缺失值就为MAR。如果收入缺失值依赖于收入值，则既不是MCAR，也不是MAR。

　　区别MCAR和MAR的含义在于：由于MCAR通常实际上很难遇到，应该在进行调查之前就考虑哪些重要变量可能会有非无效的未回答，还要尽量在调查中包括共变量，以便用这些变量来估算缺失值

MCAR举例

　　图一显示了相关系数为0.6的两个高斯变量X和Y的1000个观测值的散点图。

图一