ACCAspace_sitemap
PPclass_sitemap
sitemap_google
sitemap_baidu
CFA Forums
返回列表 发帖

Spss及统计笔记

Spss及统计笔记
一、 预备知识
1、 变量类型
2、 缺失值
3、 统计方法
4、 假设检验
二、 spss分析
1、 卡方分析(定类变量是否存在某种关联性)
2、 相关分析(研究变量间联系的密切程度)
3、 方差分析(重要的定性分析方法)
4、 回归分析(研究某变量对另一变量的影响强度,重要的定量分析方法)
5、 因子分析(研究变量的相关性)
6、 聚类/集群分析(研究样本/变量的相似性)
7、 Compare Means过程

一、 预备知识
1、 变量类型
定类变量(又称分类变量/离散变量):仅仅代表不同类事物,例如性别
定序变量:代表按照事物某特性排序下的分类,例如教育程度,态度量度
定距/定比变量:变量的值之间可以比较大小,两个值的差有实际意义。
其中,定距/定比变量的区别,定距变量=0,不表示“没有”,定比变量=0,表示“没有”,在spss中,没有太大的区别。
2、 缺失值
10%以下,可接受范围
替代模式:
1样本统计量(各类平均值)替代
2统计模型计算出的值替代
3删除整个个案
4仅在相应分析中作必要的删除,将有缺失值的个案保留(exlude case pairwise)
3、 统计方法
一个变量:frequency频数、descriptive众数、中位数、均值、标准差
两个变量:卡方分析(x2 /crosstabs),研究分类变量间是否存在关联性的常用方法
单因素方差分析(one way anova,F检验)
简单相关分析(pwarson相关系数r值)
一元线性回归分析(regression / linear)
多个变量:判别分析、聚类分析、因子分析、多元线性回归
注:1、频数/百分比中,有效百分比(valid percent)指频数对有效个案数(所谓有效个案数,即样本量减去缺失个案数)的比例。
2、Sig 显著度p值:显著性水平一般是0.05,也有取0.01的
4、 假设检验
假设检验包括参数检验(定量),其中包括单样本及双样本(独立样本、配对样本)检验;
非参数检验(非定量),好像是针对不服从正态分布的变量,,同样有单样本、双样本检验。
二、 spss分析
1、 卡方分析(定类变量是否存在某种关联性)
原假设:两个定类变量是互相独立,互不关联。
列联表(频数和百分数),原假设成立的前提下,可以计算出列联表中的频数应该是多少(期望频数),比较观测频数与期望频数的差,用卡方(x2)统计量来检验:
差值大,卡方检验结果显著,拒绝原假设,即两变量存在某种关联,具体如何关联,要看列联表中数据的分布形态
差值小,原假设成立,卡方检验结果不显著,不能拒绝原假设,不能轻易下不关联的结论
注:ü卡方检验受样本量的影响很大;
ü对变量取值的不同分类会引起卡方值的改变,
ü对定距/定比变量,要先将变量取值分组归类,才能用卡方分析,用recode命令
2、 相关分析(研究变量间联系的密切程度)
具体看另外一篇笔记,总之先记得analye-correlate-bivarinte比较常用。
中间会得到简单相关系数,对于这个系数是否正确,还要排除相关系数为0的可能,里面的sig检验就是针对两者相关系数0的原假设的,p值<0.05,则相关系数成立,出现一个星号,显著水平在5%-1%之间,两个星号,在1%以下。
一般我们当然希望p值小,多个星号了。其实我感觉首先用图形看看,就可以知道相关系数是否为0了(为0就是根本没有相关性了,图很乱的。)
3、 方差分析(重要的定性分析方法)
分类:单因素、多因素。
单因素方差分析(F分析检验)
研究一个变量是否依赖于另一个变量,前者叫因变量independent,后者叫自变量depengdent,又叫因素。
原理:
单因素的方差分析是按照自变量或因素的不同联值将样本分为几组,比较这几组的因变量的均值。一般情况下,这几个因变量的均值肯定不相等,这种不相等,可能由于这几组数据对应的总体均值的确存在差异,也可能仅仅由于数据的随机波动造成。通过方差的假设分析,可以判断数据的差异是由于何种原因造成,从而做定性判断(因素间的关系,影响的强度)。
原假设:几组数据总体均值没有差异,观察差异由数据随机波动造成。
求出组间变差及组内变差,要看两者比率(略加变化就可得F统计量)是否足够大,以决定是否拒绝原假设,当sig(p值)>0.05,则原假设成立,因素没有影响,当sig<0.05,则 拒绝原假设,此题具有鉴别度,因素有影响,变量有差别。
注:因为是求均值,单因素方差分析的因变量显然是定距/定比变量
方差分析的部分内容见compare means-one way anova。
方差分析检验各组样本均值间是否具有显著性差异,检验几个因素谁有影响,谁的影响大,每个因素不同水平有无区别,哪个水平影响大。
比较对象,2个,在方差齐,正态分布之类条件下,使用T检验
比较对象,对于2个,在正态分布之类条件下,使用方差分析
细节:1、选入变量denpengdent variable(因变量)及 Fixed factor(固定自变)
其他random factor,随机因变量(需分类变量才行)
covariate,协变量(需连续型数值变量)
wls weight,加权变量
post hocxxx选项是研究多因素之间关系的,其实也用得少。
Model Full factorial/custom(交互作用的研究、维度)感觉用得多是custom /main effert,用full的话,得全部的交互关系,也用不着那么多的。
4、 回归分析(研究某变量对另一变量的影响强度,重要的定量分析方法)
定量分析,预测,数学表达式,有线性、曲线、非线性、logistic等分析
1、 一元线性回归,y=a+bx,y是估计值,a是截距,b是斜率,回归系数
R2判定系数,R2为回归模型所能解释的因变量变异性的百分比,例如R2=0.77,即y的变异有77%是由x引起,这个判定系数在0-1之间,是用来判断回归直线的拟合优度的好坏。(它的前提假设很多,其中随机误差要求无自相关性,y服从正态分布)
2、 多元线性回归,y=b0+b1x1+b2x2+……+bnxn,其中b0是常数项,b1、b2等是偏回归系数。R复相关系数,R2为判断系数,在分析过程中,调用anova分析,p<0.05,回归系数不为0,即回归方差有意义,其实个人感觉作图看看很清楚了,不一定要检验的。
5、 因子分析(研究变量的相关性)
根据因变量(经常是心理态度指标方面的题项)之间关系密切与否,予以分群,它的目的一般在于减少变量。它的数学式与多元回归分析很接近。
步骤:
1、 定义问题,样本最少要求是变量数的4-5倍
2、 构造相关矩阵
3、 确定因子分析方法,其实默认主成分分析居多
4、 确定因子数,在于取平衡,一般来说,用系统默认的贡献度大于1.0,则因子太少,累计贡献度低,要求累计贡献度很大,例如大于80%,这样因子又太多,无法达到减少因子的目的,另外,因子本身需要有较好的解释,不能够无法解释,没有专业、实际的意义。
5、 因子旋转,其实默认的正交(Vxxx)居多
6、 解释因子
7、 计算或选择
8、 判断
6、 聚类/集群分析(研究样本/变量的相似性)
将变量属性相似程度较高的观察值加以分群,使得集群与集群间的差异性达到最大,而同一集群内观察值同构性很高。聚类分析一般用来减少样品。它也可以对变量进行集群。但好像很少用到。
K-xxx,快速聚类较简单,
而对于分层聚类(Hxxx-Cxxx)有下面的入门问题需要注意:
聚类分析中的冰柱图icicle如何看?
根据想划分的nembers of clusters,在图上划一横线,属于同一类的则在一起不被分开。
要看懂Cluster凝结的stage,明白每一步集群,都是以合并后编号小者为新观察值的编号。
注:欧氏距离,指每一变量差值平方和的平方根,其实这些都无所谓,知道是距离单位即可。
注:样品聚类,即Q型聚类,变量聚类,即R型聚类
7、 Compare Means过程
原假设:差异是由随机误差造成,变量数据间无显著性差异
检验:>0.05,假设成立,相同,无显著性差异;<0.05,拒绝假设,不同,有显著性差异
下面是compare neans的几个命令,各自的适用范围。
1、 Means(单变量描述)
单变量综合描述统计量的计算,可以分组求均值,例如,提交不同性别的工资均值,不做假设检验的,可做预先分析使用。
2、 one-sample T test(单变量与常量检验)
单样本:总体,检验样本是否来自总体,常用的是检验单变量与给定常量有无差异。
3、 independent-sample T test(单变量2个水平)
检验两个相关独立样本是否来自具有相同均值的总体。
与下面的配对T检验的不同在于其比较两组水平数量不同或来源不明,而配对比较的两组数据数量相同。
过程中,首先有F检验方差分析过程,sig>0.05,则表示方差齐,如果方差不齐,在最后检验表中,最后一张表中,要看“not assumed”的sig值,而不是“assumed”的sig值大于0.05与否。
4、 paired-sampled T test(单变量2个水平,配对个数)
检验两个相关配对样本是否来自具有均值相等的总体,和独立样本检验很象的。
通常是对同一观察对象在试验前和试验后观测的结果进行比较,例如想比较培训前后职工的工作效率。变量的水平可包含2个以上,不过感觉一般是比较单变量两个水平的居多。
5、 one-way anova(一维/一元方差分析,单变量多个水平)
检验单变量多组(多水平,2组以上)独立的组是否来自均值相同的总体。例如比较不同减肥的三种方案是否有显著性差异。
6、 对于多变量的差异性检验,使用general linear model
(本质是与one-way anova相似的方差分析,多个变量多个水平,一般还是2个变量)。

注:
对于分类变量,用crosstabs做卡方检验。
对于比较变量分布不明,或者明显是非正态分布的,考虑使用Nonparametic Tests下的命令处理。

没想到有这么好的论坛,谢谢

TOP

这么多多的好东东,以后一定的常来!谢谢!

TOP

[原创]

很好

TOP

我要下载 但还得有积分:(

TOP


我要下载 但还得有积分:(

TOP

没想到有这么好的论坛,谢谢

TOP

东西呢?在哪里...

TOP

ding

TOP

太好了!谢谢!

TOP

返回列表