在计算机领域中有个著名的80/20规则,也就是在奔腾及更早的CPU所采用的CISC指令集中,有80%的任务是被20%的最常用指令所完成的;换言之,另外80%的复杂指令只完成20%的不常用任务。
好了,言归正传。现在我要非常高兴的向大家宣布:80/20规则在SPSS的使用中同样有效!仅以Analyze菜单为例,其中最常用的子菜单为:
- Discriptive Statistics
- Compare Means
- General Linear Model(第一项)
- Correlate
- Regression(前半截)
只要掌握了它们的使用秘籍,你就可以理直气壮的宣称你已经可以用SPSS解决80%的统计学难题。如果不满足,你在召开新闻发布会的时候还可以对以上指标进行四舍五入。
此时课堂上有一美眉提问:老师,那我们是不是可以只学这几项功能就行了?
我...我...气死我了...
好,言归更正传。在以上五个菜单中,Compare Means是最简单的一个,但使用频率却几乎最高!因此,他的重要性也就不用我多说了吧...(以下省略五十万字)。
下面让我们大家一起踏上Compare Means之旅。该菜单集中了几个用于计量资料均数间比较的过程。具体有:
- Means过程 对准备比较的各组计算描述指标,进行预分析,也可直接比较。
- One-Samples T Test过程 进行样本均数与已知总体均数的比较。
- Independent-Samples T Test过程 进行两样本均数差别的比较,即通常所说的两组资料的t检验。
- Paired-Samples T Test过程 进行配对资料的显著性检验,即配对t检验。
- One-Way ANOVA过程 进行两组及多组样本均数的比较,即成组设计的方差分析,还可进行随后的两两比较。
§7.1 Means过程
和上一章所讲述的几个专门的描述过程相比,Means过程的优势在于各组的描述指标被放在一起便于相互比较,并且如果需要,可以直接输出比较结果,无须再次调用其他过程。显然要方便的多。
7.1.1 界面说明
【Dependent List框】
用于选入需要分析的变量。
【Independent List框】
用于选入分组变量。
【Options钮】
弹出Options对话框,选择需要计算的描述统计量和统计分析:
- Statistics框 可选的描述统计量。它们是:
-
sum,number of cases 总和,记录数
-
mean, geometric mean, harmonic mean 均数,几何均数,修正均数
-
standard deviation,variance,standard error of the mean 标准差,均数的标准误, 方差
-
median, grouped median 中位数,频数表资料中位数(比如30岁组有5人,40岁组有6人,则在计算grouped median时均按组中值35和45进行计算)。
-
minimum,maximum,range 最小值,最大值,全距
-
kurtosis, standard error of kurtosis 峰度系数,峰度系数的标准误
-
skewness, standard error of skewness 偏度系数,偏度系数的标准误
-
percentage of total sum, percentage of total N 总和的百分比,样本例数的百分比
- Cell Statistics框 选入的描述统计量。
- Statistics for First layer复选框组
-
Anova table and eta 对分组变量进行单因素方差分析,并计算用于度量变量相关程度的eta值。
-
Test for linearity 检验线性相关性,实际上就是上面的单因素方差分析。
7.1.2 结果解释
有了上一章的基础,Means过程的输出看起来就不太困难了。以第一章的数据为例,输出如下:
Means
上表还是缺失值报告。
常用统计描述量报表。这里按默认情况输出均数,样本量和标准差。由于我们选择了分组变量,因此三项指标均给出分组及合计值,可见以这种方式列出统计量可以非常直观的进行各组间的比较。
上表为单因素方差分析表。在选择了Anova table and eta或Test for linearity复选框时出现。实际上就是在检验各组间均数有无差异。上面各项的具体含义将在单因素方差分析一节中解释。
相关性度量指标,给出Eta值以及Eta值的平方根。
§7.2 One-Samples T Test过程
One-Samples T Test过程用于进行样本所在总体均数与已知总体均数的比较,可以自行定义已知总体均数为任意值,该对话框的界面非常简单。
7.2.1 界面说明
【Test Variables框】
用于选入需要分析的变量。
【Test Value框】
在此处输入已知的总体均数,默认值为0。
【Options钮】
弹出Options对话框,用于定义相关的选项,有:
- Confidence Interval框 输入需要计算的均数差值可信区间范围,默认为95%。如果是和总体均数为0相比,则此处计算的就是样本所在总体均数的可信区间。
- Missing Values单选框组定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases analysis by analysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。
7.2.2 结果解释
One-Samples T Test过程的输出也是比较简单的,由描述统计表和t检验表组成,比如要检验数据li1_1.sav中血磷值的总体均数是否等于1,则输出如下:
T-Test
所分析变量的基本情况描述,有样本量、均数、标准差和标准误。
上表为单样本t检验表,第一行注明了用于比较的已知总体均数为1,下面从左到右依次为t值(t)、自由度(df)、P值(Sig.2-tailed)、两均数的差值(Mean Difference)、差值的95%可信区间。由上表可知:t=2.975,P=0.007。因此可以认为血磷值的总体均数不等于1。
§7.3 Independent-Samples T Test过程
Independent-Samples T Test过程用于进行两样本均数的比较,即常用的两样本t检验。该对话框的界面我们在第一章已经见过了,和上面的One-Samples T Test对话框非常相似。
7.3.1 界面说明
【Test Variables框】
用于选入需要分析的变量。
【Grouping Variable框】
用于选入分组变量。注意选入变量后还要定义需比较的组别。
【Define Groups框】
用于定义需要相互比较的两组的分组变量值。
可以这样来理解:如果分组变量有3个取值(即有三组),而我们做t检验是比较其中的某两组,这时就可以用Define Groups框来指定需比较的两组。当然,如果分组变量只有2个取值时,我们仍然要再该框中进行定义,这也算是SPSS对话框存在的一个小缺陷吧。
【Options钮】
和One-Samples T Test对话框的Options钮完全相同,此处不再重复。
7.3.2 结果解释
比如要检验数据li1_1.sav中克山病患者与健康人的血磷值是否相同,用Independent-Samples T Test过程的结果输出如下:
T-Test
两组需检验变量的基本情况描述。
可见该结果分为两大部分:第一部分为Levene's方差齐性检验,用于判断两总体方差是否齐,这里的戒严结果为F = 0.032,P = 0.860,可见在本例中方差是齐的;第二部分则分别给出两组所在总体方差齐和方差不齐时的t检验结果,由于前面的方差齐性检验结果为方差齐,第二部分就应选用方差齐时的t检验结果,即上面一行列出的t= 2.524,ν=22,P=0.019。从而最终的统计结论为按α=0.05水准,拒绝H0,认为克山病患者与健康人的血磷值不同,从样本均数来看,可认为克山病患者的血磷值较高。最后面还附有一些其他指标,如两组均数的可信区间等,以对差异情况有更直观的了解。
上表的标题内容翻译如下:
|
Levene方差齐性检验 |
两均数是否相等的t检验 |
|
F值 |
P值 |
t值 |
自由度 |
P值(双侧) |
均数差值 |
差值的标准误 |
差值的95%可信区间 |
下限 |
上限 |
血磷值 |
假设方差齐 |
.032 |
.860 |
2.524 |
22 |
.019 |
.4363 |
.1729 |
7.777E-02 |
.7948 |
假设方差不齐 |
|
2.524 |
21.353 |
.020 |
.4363 |
.1729 |
7.716E-02 |
.7954 |
如果你觉得上表太宽,用第三章学过的行列转置功能可以使它变的紧凑许多。
§7.4 Paired-Samples T Test过程
该过程用于进行配对设计的差值均数与总体均数0比较的t检验,对统计学比较熟悉的朋友可以看出,他的功能实际上是和One-Samples T Test过程相重复的(等价于已知总体均数为0的情况),但Paired-Samples T Test过程使用的数据输入格式和前者不同,即我们所称的统计表格格式,因此仍然有存在的价值。
对数据的统计分析格式不太熟悉的朋友请先学习统计软件第一课。
7.4.1 界面说明
整个界面上只有一个Paired Variable框需要介绍,他用于选入希望进行比较的一对或几对变量--注意这里的量词是对而不是个。选入变量需要成对成对的选入,即按住Ctrl键,选中两个成对变量,再单击将其选入。如果只选中一个变量,则按钮为灰色,不可用。
7.4.2 分析实例
例7.1 某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中维生素A含量有无差别(卫统第三版例4.5)?
大白鼠对号 |
正常饲料组 |
维生素E缺乏 |
1 |
3550 |
2450 |
2 |
2000 |
2400 |
3 |
3000 |
1800 |
4 |
3950 |
3200 |
5 |
3800 |
3250 |
6 |
3750 |
2700 |
7 |
3450 |
2500 |
8 |
3050 |
1750 |
解:为了说明问题,此处假设输入数据时就按照上表格式输入,其中正常饲料组变量名为G1,维生素E缺乏组变量名为G2。操作如下:
- 同时选中G1、G2:选入Paired Variables框
- 单击OK钮
7.4.3 结果解释
以例7.1为例,其输出结果如下:
T-Test
配对变量各自的统计描述,此处只有1对,故只有Pair 1。
此处进行配对变量间的相关性分析。等价于Analyze==>Correlate==>Bivariate。
配对t检验表,给出最终的检验结果,由上表可见P=0.004,故可认为两种饲料所得肝中维生素A含量有差别,即维生素E缺乏对大白鼠肝中维生素A含量有影响。
上表的标题内容翻译如下:
|
对子间的差异 |
|
差值均数 |
标准差 |
标准误 |
均数的95%可信区间 |
t值 |
自由度 |
P值(双侧) |
下限 |
上限 |
第一对 |
G1 - G2 |
812.5000 |
546.2535 |
193.1298 |
355.8207 |
1269.1793 |
4.207 |
7 |
.004 |
§7.5 One-Way ANOVA过程
One-Way ANOVA过程用于进行两组及多组样本均数的比较,即成组设计的方差分析,如果做了相应选择,还可进行随后的两两比较,甚至于在各组间精确设定哪几组和哪几组进行比较,在本章的内容中,他是最为复杂的一个,但是有了前面的基础,拿下他应该不成问题。
对统计分析的数据格式不太熟悉的朋友,请一定先去看看统计软件第一课:论统计软件中的数据录入格式,会大有帮助的。
7.5.1 界面说明
【Dependent List框】
选入需要分析的变量,可选入多个结果变量(应变量)。
【Factor框】
选入需要比较的分组因素,只能选入一个。
【Contrast钮】
弹出Contrast对话框,用于对精细趋势检验和精确两两比较的选项进行定义,由于该对话框太专业,也较少用,这里只做简单介绍。
- Polynomial复选框 定义是否在方差分析中进行趋势检验。
- Degree下拉列表 和Polynomial复选框配合使用,可选则从线性趋势一直到最高五次方曲线来进行检验。
- Coefficients框 定义精确两两比较的选项。这里按照分组变量升序给每组一个系数值,注意最终所有系数值相加应为0。如果不为0仍可检验,只不过结果是错的。比如说在下面的例7.2中要对第一、三组进行单独比较,则在这里给三组分配系数为1、0、-1,就会在结果中给出相应的检验内容。
【Post Hoc钮】
弹出Post Hoc Multiple Comparisons对话框,用于选择进行各组间两两比较的方法,有:
- Equar Variances Assumed复选框组 一组当各组方差齐时可用的两两比较方法,共有14中种这里不一一列出了,其中最常用的为LSD和S-N-K法。
- Equar Variances Not Assumed复选框组 一组当各组方差不齐时可用的两两比较方法,共有4种,其中以Dunnetts's C法较常用。
- Significance Level框 定义两两比较时的显著性水平,默认为0.05。
此处只是介绍可用的方法,并不是要推荐说那种最好,使用时请认真参考有关统计书籍。
【Options钮】
弹出Options对话框,用于定义相关的选项,有:
- Statistics复选框组 选择一些附加的统计分析项目,有统计描述(Descriptive)和方差齐性检验(Homogeneity-of-variance)。
- Means plot复选框 用各组均数做图,以直观的了解它们的差异。
- Missing Values单选框组定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases analysis by analysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。
7.5.2 分析实例
例7.2 某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量(L)测定,问三组石棉矿工的用力肺活量有无差别(卫统第三版例5.1)?
石棉肺患者 |
可疑患者 |
非患者 |
1.8 |
2.3 |
2.9 |
1.4 |
2.1 |
3.2 |
1.5 |
2.1 |
2.7 |
2.1 |
2.1 |
2.8 |
1.9 |
2.6 |
2.7 |
1.7 |
2.5 |
3.0 |
1.8 |
2.3 |
3.4 |
1.9 |
2.4 |
3.0 |
1.8 |
2.4 |
3.4 |
1.8 |
|
3.3 |
2.0 |
|
3.5 |
解:设数据已经输好,分组变量为group,三组取值分别为1、2、3,结果变量为X。此处先进行单因素方差分析,然后进行两两比较,这里选择S-N-K法进行两两比较。操作如下:
- Dependent List框:选入X
- Factor框:选入group
- Post Hoc钮:选中S-N-K复选框:单击Continue钮
- 单击OK钮
7.5.3 结果解释
上题的输出结果如下:
Oneway
上面实际上是一个典型的方差分析表。给出了单因素方差分析的结果,可见F=84.544,P<0.001。因此可认为三组矿工用力肺活量不同。上表的标题内容翻译如下:
|
离均差平方和SS |
自由度 |
均方MS |
F值 |
P值 |
组间变异 |
9.266 |
2 |
4.633 |
84.544 |
.000 |
组内变异 |
1.534 |
28 |
5.480E-02 |
|
|
总变异 |
10.800 |
30 |
|
|
|
Post Hoc Tests
Homogeneous Subsets
上表是用S-N-K法进行两两比较的结果,简单的说,在表格的纵向上各组均数按大小排序,然后在表格的横向上被分成了若干个亚组,不同亚组间的P值小于0.05,而同一亚组内的各组均数比较的P值则大于0.05。从上表可见,石棉肺患者、可疑患者和非患者被分在了三个不同的亚组中,因此三组间两两比较均有差异;由于各个亚组均只有1个组别进入,因此最下方的组内两两比较P值均为1.000(自己和自己比较,当然绝对不会有差异了)。 |