1、数据编码
①采用计算机进行数据分析,必须对采集的数据进行编码(数值化):
●例:教师情况调查数据
工龄
性别 |
年龄 | 科目 | 工资 | 受教育 | 等级 | |
男 | 28 | 语文 | 3 | 390 | 15 | 中等 |
女 | 37 | 数学 | 10 | 500 | 16 | 优等 |
女 | 50 | 数学 | 30 | 750 | 12 | 良等 |
.. | .. | .. | .. | .. | .. | .. |
男 | 25 | 数学 | 2 | 300 | 12 | 差等 |
●设计编码表(变量值代码或值标记)
性别 男(1) 女(0)
科目 语(1) 数(0)
评价等级 优(1) 良(2) 中(3) 差(4)
● 根据编码数值化资料:
性别 | 年龄 | 科目 | 工龄 | 工资 | 受教育 | 等级 |
1 | 28 | 1 | 3 | 312 | 15 | 3 |
0 | 37 | 2 | 10 | 400 | 16 | 1 |
0 | 50 | 2 | 30 | 600 | 12 | 2 |
1 | 22 | 1 | 1 | 240 | 15 | 4 |
1 | 43 | 1 | 25 | 480 | 12 | 3 |
0 | 32 | 1 | 18 | 440 | 18 | 1 |
1 | 57 | 2 | 30 | 760 | 16 | 4 |
1 | 53 | 2 | 30 | 640 | 12 | 2 |
0 | 30 | 1 | 5 | 328 | 16 | 1 |
1 | 25 | 2 | 2 | 240 | 12 | 4 |
2、数据处理前的准备
●确定变量名:
性别 SEX 工资 PAY
年龄 AGE 受教育年限 EDU
科目 SUB 评价等级 RAT 工龄 WORK
●对没有按规范格式设计的问卷,也必须确定项目(变量)数,以及每个项目(变量)的最大字符数,并形成变量代码表。
例:小学办学条件问卷调查(第16题)变量代码表
第16题:你校的合格教师数(合格教师是指学历达标且获得教师资格的教师)
|
正 式 |
代 课 |
总计 | ||
男 |
女 |
男 |
女 |
| |
合格 |
T1611 |
T1612 |
T1613 |
T1614 |
|
不合格 |
T1621 |
T1622 |
T1623 |
T1624 |
|
总计 |
|
|
|
|
|
变 量 代 码 表(局部)
题 号 |
变量名 |
变量标记 |
值域 |
遗漏值 |
值标记 |
16 |
T1611 |
正式男教师 |
0-98 |
99 |
|
|
T1612 |
正式女教师 |
0-98 |
99 |
|
|
T1613 |
代课男教师 |
0-98 |
99 |
|
3、数据录入与数据清理
●人工清理
●用软件方法清理(剔出值域范围外的数值)
(二)测量及变量分类
1、测量:依据法则为事件(社会科学)或物体(自然科学)指派数字。
测量尺度:进行测量活动的标准物,又称“量尺”或“量表”。
按不同的水平分为:类别尺度、顺序尺度和等距尺度。
2、变量分类
依据测量尺度,在社会科学研究中一般将变量分为定类变量、定序变量和定距变量三大类(此外,还有所谓“定比变量”,社会科学研究不作区分)。
分 类 |
定 义 |
举 例 |
数学特征 |
定类变量 (名义变量) |
按照对象的某种特征划分类别 |
性别 科目 |
=、≠ |
定序变量 (有序变量) |
按照对象的某种特征,把类别按顺序、等级排列 |
评价等级 |
>、< |
定距变量 (刻度变量) |
对象不仅可按特征排序,而且还可以测量序列间的距离 |
年龄、工龄、工资 |
+、— |
三种变量有层次之分:定距>定序>定类,高类可转化为低类,反之不可。
不同的变量类型必须采用不同的定量分析方法。
3、测量误差:
系统误差(效度)
随机误差(信度)
(三)统计分析及其分类
1、统计
2、分类:描述统计与推断统计
(四)描述统计
1、描述样本分布
① 分布
② 描述分布的基本方法: 定类、定序、定距
③ 描述分布的定位:集中趋势测量(集中量数)
④ 描述分布的离散性:离散趋势测量(差异量数)
⑤ 描述分布的形态
⑥ 标准分(Z分数)
2、变量间关系的描述
① 相关分析
② 回归分析
(五)推断统计
1、基本概念:统计量、参数与推断统计
2、参数估计:点估计与区间估计
3、假设检验的基本思路
(1)参数检验(定距变量)
t 检验:同体比较与配对比较
F检验(方差分析)
(2)非参数检验(定序或定类变量)
Χ2检验
(3)对相关系数的检验
欢迎光临 FRM论坛 (http://bbs.frmspace.com/) | Powered by Discuz! 7.2 |