ACCAspace_sitemap
PPclass_sitemap
sitemap_google
sitemap_baidu
CFA Forums
返回列表 发帖

SPSS课程第五课:摘要性分析

摘要性分析是对原始数据进行描述性分析,这是统计工作的出发点。统计学的一系列基本描述指标,不仅让人了解资料的特征,而且可启发人们对之作进一步的深入分析。通过调用摘要性分析的诸个过程,可完成许多统计学指标,对于计量资料,可完成均数、标准差、标准误等指标的计算;对于计数和一些等级资料,可完成构成比、率等指标的计算和χ2 检验。本章将介绍其操作方法。

第一节 Frequencies过程

4.1.1 主要功能

调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。

4.1.2 实例操作

[例4-1]调查100名健康女大学生的血清总蛋白含量(g%)如下表,试作频数表分析。

7.43 7.88 6.88 7.80 7.04 8.05 6.97 7.12 7.35 8.05

7.95 7.56 7.50 7.88 7.20 7.20 7.20 7.43 7.12 7.20

7.50 7.35 7.88 7.43 7.58 6.50 7.43 7.12 6.97 6.80

7.35 7.50 7.20 6.43 7.58 8.03 6.97 7.43 7.35 7.35

7.58 7.58 6.88 7.65 7.04 7.12 8.12 7.50 7.04 6.80

7.04 7.20 7.65 7.43 7.65 7.76 6.73 7.20 7.50 7.43

7.35 7.95 7.35 7.47 6.50 7.65 8.16 7.54 7.27 7.27

6.72 7.65 7.27 7.04 7.72 6.88 6.73 6.73 6.73 7.27

7.58 7.35 7.50 7.27 7.35 7.35 7.27 8.16 7.03 7.43

7.35 7.95 7.04 7.65 7.27 7.72 8.43 7.50 7.65 7.04

TOP

4.1.2.1 数据准备

激活数据管理窗口,定义血清总蛋白含量的变量名为X,然后输入血清总蛋白含量的原始数据,结果见图4.1。

4.1.2.2 统计分析

激活Statistics菜单,选Summarize中的Frequencies...命令项,弹出Frequencies对话框(图4.2)。现欲对血清总蛋白含量值进行频数表分析,故在对话框左侧的变量列表中选x,点击钮使之进入Variable(s)框。同时可点击Format...钮弹出Frequencies:Format对话框,在Order by栏中有四个选项:Ascending values为根据数值大小按升序从小到大作频数分布;Descending values为根据数值大小按降序从大到小作频数分布;Ascending counts为根据频数多少按升序从少到多作频数分布;Descending counts为根据频数多少按降序从多到少作频数分布。在Page Formal栏中可定义结果输出的格式。本例选Ascending values项后点击Continue钮返回Frequencies对话框。

点击Statistics...钮,弹出Frequencies:Statistics对话框(图4.3),可点击相应项目,要求系统在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。本例要求计算四分位数(Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)、偏度系数(Skewness)和峰度系数(Kurtosis),选好后点击Continue钮返回Frequencies对话框。

点击Charts...钮,弹出Frequencies:Charts对话框,用户可选两种图形,一是直条图(Bar chart),适用于非连续性的变量;另一是直方图(Histogram),适用于连续性的变量。本例要求对变量x绘制直方图,故选择Histogram项,并要求绘制正态曲线(With normal curve),点击Continue钮返回Frequencies对话框,再点击OK钮即可。

TOP

4.1.2.3 结果解释

在输出结果窗口中将看到如下统计数据:

系统对变量x的原始数据作频数分布表,Value为原始值、Frequency为频数、Percent为各组频数占总例数的百分比、Valid percent为各组频数占总例数的有效百分比、Cum Percent为各组频数占总例数的累积百分比。

X Valid Cum

Value Label Value Frequency Percent Percent Percent

6.43 1 1.0 1.0 1.0

6.50 2 2.0 2.0 3.0

6.72 1 1.0 1.0 4.0

6.73 4 4.0 4.0 8.0

6.80 2 2.0 2.0 10.0

6.88 3 3.0 3.0 13.0

6.97 3 3.0 3.0 16.0

7.03 1 1.0 1.0 17.0

7.04 7 7.0 7.0 24.0

7.12 4 4.0 4.0 28.0

7.20 7 7.0 7.0 35.0

7.27 7 7.0 7.0 42.0

7.35 11 11.0 11.0 53.0

7.43 8 8.0 8.0 61.0

7.47 1 1.0 1.0 62.0

7.50 7 7.0 7.0 69.0

7.54 1 1.0 1.0 70.0

7.56 1 1.0 1.0 71.0

7.58 5 5.0 5.0 76.0

7.65 7 7.0 7.0 83.0

7.72 2 2.0 2.0 85.0

7.76 1 1.0 1.0 86.0

7.80 1 1.0 1.0 87.0

7.88 3 3.0 3.0 90.0

7.95 3 3.0 3.0 93.0

8.03 1 1.0 1.0 94.0

8.05 2 2.0 2.0 96.0

8.12 1 1.0 1.0 97.0

8.16 2 2.0 2.0 99.0

8.43 1 1.0 1.0 100.0

------ ------- -------

Total 100 100.0 100.0

接着输出各基本统计指标,其中均数为7.366, 标准误为0.039, 中位数为7.350, 众数为7.350, 标准差为0.394, 方差为0.155, 峰度系数为0.034, 峰度系数的标准误为0.478, 偏度系数为0.06, 偏度系数的标准误为0.241, 全距为2.000, 最小值为6.430, 最大值为8.430, 25%位数为7.120, 50%位数为7.350, 75%位数为7.580,共100个观察值,无缺失值。

Mean 7.366 Std err .039 Median 7.350

Mode 7.350 Std dev .394 Variance .155

Kurtosis .034 S E Kurt .478 Skewness .060

S E Skew .241 Range 2.000 Minimum 6.430

Maximum 8.430

Percentile Value Percentile Value Percentile Value

25.00 7.120 50.00 7.350 75.00 7.580

Valid cases 100 Missing cases 0

最后系统输出带有正态曲线的直方图。

从上述内容可知,系统在未特别指定的情形下,频数分布表是按照原始数值逐一作频数分布的,这与日常需要的等距分组、且组数保持在8~15组的要求不符。为此,在调用Frequencies过程命令之前,可先对原始数据进行算术处理:已知最小值为6.430,最大值为8.430,全距为2.000,故可要求分成10组,起点为6.4,组距为0.2。选Transform菜单Recode项的Into Different Variable...命令项,在弹出的Recode Into Different Variable对话框中选x点击钮使之进入Numeric Variable®Output Variable框,在Output Variable栏的Name处输入x1,点击Change钮表示新生成的变量名为x1。点击Old and New Values钮弹出Recode Into Different Variable:Old and New Values对话框,在Old value栏内选Range项,输入第一个分组的数值范围:6.4~6.599,在New value栏内输入新值:6.4,点击Add钮,依此将各组的范围及对应的新值逐一输入,最后点击Continue钮返回Recode Into Different Variable对话框,再点击OK钮即完成。系统在原数据库中生成一新变量为x1,这时调用Frequencies过程命令将输出等距分组且组数为10的频数分布表。

X1

Valid Cum

Value Label Value Frequency Percent Percent Percent

6.40 3 3.0 3.0 3.0

6.60 5 5.0 5.0 8.0

6.80 8 8.0 8.0 16.0

7.00 12 12.0 12.0 28.0

7.20 25 25.0 25.0 53.0

7.40 23 23.0 23.0 76.0

7.60 10 10.0 10.0 86.0

7.80 7 7.0 7.0 93.0

8.00 6 6.0 6.0 99.0

8.40 1 1.0 1.0 100.0

------- ------- -------

Total 100 100.0 100.0

Valid cases 100 Missing cases 0

TOP

4.1.2.3 结果解释

在输出结果窗口中将看到如下统计数据:

系统对变量x的原始数据作频数分布表,Value为原始值、Frequency为频数、Percent为各组频数占总例数的百分比、Valid percent为各组频数占总例数的有效百分比、Cum Percent为各组频数占总例数的累积百分比。

X Valid Cum

Value Label Value Frequency Percent Percent Percent

6.43 1 1.0 1.0 1.0

6.50 2 2.0 2.0 3.0

6.72 1 1.0 1.0 4.0

6.73 4 4.0 4.0 8.0

6.80 2 2.0 2.0 10.0

6.88 3 3.0 3.0 13.0

6.97 3 3.0 3.0 16.0

7.03 1 1.0 1.0 17.0

7.04 7 7.0 7.0 24.0

7.12 4 4.0 4.0 28.0

7.20 7 7.0 7.0 35.0

7.27 7 7.0 7.0 42.0

7.35 11 11.0 11.0 53.0

7.43 8 8.0 8.0 61.0

7.47 1 1.0 1.0 62.0

7.50 7 7.0 7.0 69.0

7.54 1 1.0 1.0 70.0

7.56 1 1.0 1.0 71.0

7.58 5 5.0 5.0 76.0

7.65 7 7.0 7.0 83.0

7.72 2 2.0 2.0 85.0

7.76 1 1.0 1.0 86.0

7.80 1 1.0 1.0 87.0

7.88 3 3.0 3.0 90.0

7.95 3 3.0 3.0 93.0

8.03 1 1.0 1.0 94.0

8.05 2 2.0 2.0 96.0

8.12 1 1.0 1.0 97.0

8.16 2 2.0 2.0 99.0

8.43 1 1.0 1.0 100.0

------ ------- -------

Total 100 100.0 100.0

接着输出各基本统计指标,其中均数为7.366, 标准误为0.039, 中位数为7.350, 众数为7.350, 标准差为0.394, 方差为0.155, 峰度系数为0.034, 峰度系数的标准误为0.478, 偏度系数为0.06, 偏度系数的标准误为0.241, 全距为2.000, 最小值为6.430, 最大值为8.430, 25%位数为7.120, 50%位数为7.350, 75%位数为7.580,共100个观察值,无缺失值。

Mean 7.366 Std err .039 Median 7.350

Mode 7.350 Std dev .394 Variance .155

Kurtosis .034 S E Kurt .478 Skewness .060

S E Skew .241 Range 2.000 Minimum 6.430

Maximum 8.430

Percentile Value Percentile Value Percentile Value

25.00 7.120 50.00 7.350 75.00 7.580

Valid cases 100 Missing cases 0

最后系统输出带有正态曲线的直方图。

从上述内容可知,系统在未特别指定的情形下,频数分布表是按照原始数值逐一作频数分布的,这与日常需要的等距分组、且组数保持在8~15组的要求不符。为此,在调用Frequencies过程命令之前,可先对原始数据进行算术处理:已知最小值为6.430,最大值为8.430,全距为2.000,故可要求分成10组,起点为6.4,组距为0.2。选Transform菜单Recode项的Into Different Variable...命令项,在弹出的Recode Into Different Variable对话框中选x点击钮使之进入Numeric Variable®Output Variable框,在Output Variable栏的Name处输入x1,点击Change钮表示新生成的变量名为x1。点击Old and New Values钮弹出Recode Into Different Variable:Old and New Values对话框,在Old value栏内选Range项,输入第一个分组的数值范围:6.4~6.599,在New value栏内输入新值:6.4,点击Add钮,依此将各组的范围及对应的新值逐一输入,最后点击Continue钮返回Recode Into Different Variable对话框,再点击OK钮即完成。系统在原数据库中生成一新变量为x1,这时调用Frequencies过程命令将输出等距分组且组数为10的频数分布表。

X1

Valid Cum

Value Label Value Frequency Percent Percent Percent

6.40 3 3.0 3.0 3.0

6.60 5 5.0 5.0 8.0

6.80 8 8.0 8.0 16.0

7.00 12 12.0 12.0 28.0

7.20 25 25.0 25.0 53.0

7.40 23 23.0 23.0 76.0

7.60 10 10.0 10.0 86.0

7.80 7 7.0 7.0 93.0

8.00 6 6.0 6.0 99.0

8.40 1 1.0 1.0 100.0

------- ------- -------

Total 100 100.0 100.0

Valid cases 100 Missing cases 0

TOP

返回列表