数据分析(一)数据分析的预备知识
1、数据编码
①采用计算机进行数据分析,必须对采集的数据进行编码(数值化):
●例:教师情况调查数据
工龄
性别 |
年龄 |
科目 |
|
工资 |
受教育 |
等级 |
男 |
28 |
语文 |
3 |
390 |
15 |
中等 |
女 |
37 |
数学 |
10 |
500 |
16 |
优等 |
女 |
50 |
数学 |
30 |
750 |
12 |
良等 |
.. |
.. |
.. |
.. |
.. |
.. |
.. |
男 |
25 |
数学 |
2 |
300 |
12 |
差等 |
●设计编码表(变量值代码或值标记)
性别 男(1) 女(0)
科目 语(1) 数(0)
评价等级 优(1) 良(2) 中(3) 差(4)
● 根据编码数值化资料:
性别 |
年龄 |
科目 |
工龄 |
工资 |
受教育 |
等级 |
1 |
28 |
1 |
3 |
312 |
15 |
3 |
0 |
37 |
2 |
10 |
400 |
16 |
1 |
0 |
50 |
2 |
30 |
600 |
12 |
2 |
1 |
22 |
1 |
1 |
240 |
15 |
4 |
1 |
43 |
1 |
25 |
480 |
12 |
3 |
0 |
32 |
1 |
18 |
440 |
18 |
1 |
1 |
57 |
2 |
30 |
760 |
16 |
4 |
1 |
53 |
2 |
30 |
640 |
12 |
2 |
0 |
30 |
1 |
5 |
328 |
16 |
1 |
1 |
25 |
2 |
2 |
240 |
12 |
4 |
2、数据处理前的准备
●确定变量名:
性别 SEX 工资 PAY
年龄 AGE 受教育年限 EDU
科目 SUB 评价等级 RAT 工龄 WORK
●对没有按规范格式设计的问卷,也必须确定项目(变量)数,以及每个项目(变量)的最大字符数,并形成变量代码表。
例:小学办学条件问卷调查(第16题)变量代码表
第16题:你校的合格教师数(合格教师是指学历达标且获得教师资格的教师)
|
正 式 |
代 课 |
总计 |
男 |
女 |
男 |
女 |
|
合格 |
T1611 |
T1612 |
T1613 |
T1614 |
|
不合格 |
T1621 |
T1622 |
T1623 |
T1624 |
|
总计 |
|
|
|
|
|
变 量 代 码 表(局部)
题 号 |
变量名 |
变量标记 |
值域 |
遗漏值 |
值标记 |
16 |
T1611 |
正式男教师 |
0-98 |
99 |
|
|
T1612 |
正式女教师 |
0-98 |
99 |
|
|
T1613 |
代课男教师 |
0-98 |
99 |
|
3、数据录入与数据清理
●人工清理
●用软件方法清理(剔出值域范围外的数值)
(二)测量及变量分类
1、测量:依据法则为事件(社会科学)或物体(自然科学)指派数字。
测量尺度:进行测量活动的标准物,又称“量尺”或“量表”。
按不同的水平分为:类别尺度、顺序尺度和等距尺度。
2、变量分类
依据测量尺度,在社会科学研究中一般将变量分为定类变量、定序变量和定距变量三大类(此外,还有所谓“定比变量”,社会科学研究不作区分)。
分 类 |
定 义 |
举 例 |
数学特征 |
定类变量
(名义变量) |
按照对象的某种特征划分类别 |
性别
科目 |
=、≠ |
定序变量
(有序变量) |
按照对象的某种特征,把类别按顺序、等级排列 |
评价等级 |
>、< |
定距变量
(刻度变量) |
对象不仅可按特征排序,而且还可以测量序列间的距离 |
年龄、工龄、工资 |
+、— |
三种变量有层次之分:定距>定序>定类,高类可转化为低类,反之不可。
不同的变量类型必须采用不同的定量分析方法。
3、测量误差:
系统误差(效度)
随机误差(信度)
(三)统计分析及其分类
1、统计
2、分类:描述统计与推断统计
(四)描述统计
1、描述样本分布
① 分布
② 描述分布的基本方法: 定类、定序、定距
③ 描述分布的定位:集中趋势测量(集中量数)
④ 描述分布的离散性:离散趋势测量(差异量数)
⑤ 描述分布的形态
⑥ 标准分(Z分数)
2、变量间关系的描述
① 相关分析
② 回归分析
(五)推断统计
1、基本概念:统计量、参数与推断统计
2、参数估计:点估计与区间估计
3、假设检验的基本思路
(1)参数检验(定距变量)
t 检验:同体比较与配对比较
F检验(方差分析)
(2)非参数检验(定序或定类变量)
Χ2检验
(3)对相关系数的检验 |