§6.4 Crosstabs过程
Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表,并计算相应的百分数指标。统计推断则包括了我们常用的X2检验、Kappa值,分层X2(X2M-H)。如果安装了相应模块,还可计算n维列联表的确切概率(Fisher's Exact Test)值。
Crosstabs过程不能产生一维频数表(单变量频数表),该功能由Frequencies过程实现。
6.4.1 界面说明
【Rows框】
用于选择行*列表中的行变量。
【Columns框】
用于选择行*列表中的列变量。
【Layer框】
Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next钮设为不同层。Layer在这里用的比较少,在多元回归中我们将进行详细的解释。
【Display clustered bar charts复选框】
显示重叠条图。
【Suppress table复选框】
禁止在结果中输出行*列表。
【Exact钮】
针对2*2以上的行*列表设定计算确切概率的方法,可以是不计算(Asymptotic only)、蒙特卡罗模拟(Monte Carlo)或确切计算(Exact)。蒙特卡罗模拟默认进行10000次模拟,给出99%可信区间;确切计算默认计算时间限制在5分钟内。这些默认值均可更改。
如果你在安装SPSS时没有安装EXACT模块,则此处对话框中不会出现Exact钮。
在3*3及以上的行*列表中,确切概率的精确计算是极为漫长的过程。我曾经用SAS 6.12在P133机上计算过一个12格表的确切概率,整整跑了两个小时后,SAS告诉我说机器内存不足。SPSS的计算速度比SAS要慢许多倍,因此一般只需要选用蒙特卡罗模拟算出概率值的99%可信区间就行了,精度完全可以满足需要,而速度极快(10000次模拟一般耗时在10秒左右)。
【Statistics钮】
弹出Statistics对话框,用于定义所需计算的统计量。
- Chi-square复选框:计算X2值。
- Correlations复选框:计算行、列两变量的Pearson相关系数和Spearman等级相关系数。
- Norminal复选框组:选择是否输出反映分类资料相关性的指标,很少使用。
-
Contingency coefficient复选框:即列联系数,其值界于0~1之间;
-
Phi and Cramer's V复选框:这两者也是基于X2值的,Phi在四格表X2检验中界于-1~1之间,在R*C表X2检验中界于0~1之间;Cramer's V 则界于0~1之间;
-
Lambda复选框:在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测应变量好,为0时表明自变量预测应变量差;
-
Uncertainty coefficient复选框:不确定系数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。
- Ordinal复选框组:选择是否输出反映有序分类资料相关性的指标,很少使用。
-
Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;
-
Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;
-
Kendall's tau-b复选框:界于-1~1之间;
-
Kendall's tau-c复选框:界于-1~1之间;
- Eta复选框:计算Eta值,其平方值可认为是应变量受不同因素影响所致方差的比例;
- Kappa复选框:计算Kappa值,即内部一致性系数;
- Risk复选框:计算比数比OR值;
- McNemanr复选框:进行McNemanr检验(一种非参检验);
- Cochran's and Mantel-Haenszel statistics复选框:计算X2M-H统计量(分层X2,也有写为X2CMH的),可在下方输出H0假设的OR值,默认为1。
【Cells钮】
弹出Cells对话框,用于定义列联表单元格中需要计算的指标:
- Counts复选框组:是否输出实际观察数(Observed)和理论数(Expected);
- Percentages复选框组:是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total);
- Residuals复选框组:选择残差的显示方式,可以是实际数与理论数的差值(Unstandardized)、标化后的差值(Standardized,实际数与理论数的差值除理论数),或者由标准误确立的单元格残差(Adj. Standardized);
【Format钮】
用于选择行变量是升序还是降序排列。
6.4.2 分析实例
例6.2 某医生用国产呋喃硝胺治疗十二指肠溃疡,以甲氰咪胍作对照组,问两种方法治疗效果有无差别(医统第二版P37 例3.10)?
处 理 |
愈 合 |
未愈合 |
合计 |
呋喃硝胺 |
54 |
8 |
62 |
甲氰咪胍 |
44 |
20 |
64 |
合 计 |
98 |
28 |
126 |
解:由于此处给出的直接是频数表,因此在建立数据集时可以直接输入三个变量――行变量、列变量和指示每个格子中频数的变量,然后用Weight Cases对话框指定频数变量,最后调用Crosstabs过程进行X2检验。假设三个变量分别名为R、C和W,则数据集结构和命令如下:
R |
C |
W |
1.00 |
1.00 |
54.00 |
1.00 |
2.00 |
44.00 |
2.00 |
1.00 |
8.00 |
2.00 |
2.00 |
20.00 |
- Data==>Weight Cases
- Weight Cases by单选框:选中
- Freqency Variable:选入W
- 单击OK钮
- Analyze==>Descriptive Statistics==>Crosstabs
- Rows框:选入R
- Columns框:C
- Statistics钮:Chi-square复选框:选中:单击Continue钮
- 单击OK钮
6.4.3 结果解释
上题的结果如下:
Crosstabs
首先是处理记录缺失值情况报告,可见126例均为有效值。
上面为列出的四格表,实际使用时可以在其中加入变量值标签,使看起来更清楚。
上表给出了一堆检验结果,从左到右为:检验统计量值(Value)、自由度(df)、双侧近似概率(Asymp.Sig.2-sided)、双侧精确概率(Exact Sig.2-sided)、单侧精确概率(Exact Sig.1-sided);从上到下为:Pearson卡方(Pearson Chi-Square即常用的卡方检验)、连续性校正的卡方值(Continuity Correction)、对数似然比方法计算的卡方(Likelihood Ratio)、Fisher's确切概率法(Fisher's Exact Test)、线性相关的卡方值(Linear by Linear Association)、有效记录数(N of Valid Cases)。另外,Continuity Correction和Pearson卡方值处分别标注有a和b,表格下方为相应的注解:a.只为2*2表计算。b.0%个格子的期望频数小于5,最小的期望频数为13.78。因此,这里无须校正,直接采用第一行的检验结果,即X2=6.133,P=0.013。 |