- UID
- 12768
- 帖子
- 3
- 主题
- 2
- 积分
- 62
- 在线时间
- 0 小时
- 注册时间
- 2005-11-5
|
2#
发表于 2005-11-6 20:19
| 只看该作者
二、 spss分析 1、 卡方分析(定类变量是否存在某种关联性) 原假设:两个定类变量是互相独立,互不关联。 列联表(频数和百分数),原假设成立的前提下,可以计算出列联表中的频数应该是多少(期望频数),比较观测频数与期望频数的差,用卡方(x2)统计量来检验: 差值大,卡方检验结果显著,拒绝原假设,即两变量存在某种关联,具体如何关联,要看列联表中数据的分布形态 差值小,原假设成立,卡方检验结果不显著,不能拒绝原假设,不能轻易下不关联的结论 注:ü卡方检验受样本量的影响很大; ü对变量取值的不同分类会引起卡方值的改变, ü对定距/定比变量,要先将变量取值分组归类,才能用卡方分析,用recode命令 2、 相关分析(研究变量间联系的密切程度) 具体看另外一篇笔记,总之先记得analye-correlate-bivarinte比较常用。 中间会得到简单相关系数,对于这个系数是否正确,还要排除相关系数为0的可能,里面的sig检验就是针对两者相关系数0的原假设的,p值<0.05,则相关系数成立,出现一个星号,显著水平在5%-1%之间,两个星号,在1%以下。 一般我们当然希望p值小,多个星号了。其实我感觉首先用图形看看,就可以知道相关系数是否为0了(为0就是根本没有相关性了,图很乱的。) 3、 方差分析(重要的定性分析方法) 分类:单因素、多因素。 单因素方差分析(F分析检验) 研究一个变量是否依赖于另一个变量,前者叫因变量independent,后者叫自变量depengdent,又叫因素。 原理: 单因素的方差分析是按照自变量或因素的不同联值将样本分为几组,比较这几组的因变量的均值。一般情况下,这几个因变量的均值肯定不相等,这种不相等,可能由于这几组数据对应的总体均值的确存在差异,也可能仅仅由于数据的随机波动造成。通过方差的假设分析,可以判断数据的差异是由于何种原因造成,从而做定性判断(因素间的关系,影响的强度)。 原假设:几组数据总体均值没有差异,观察差异由数据随机波动造成。 求出组间变差及组内变差,要看两者比率(略加变化就可得F统计量)是否足够大,以决定是否拒绝原假设,当sig(p值)>0.05,则原假设成立,因素没有影响,当sig<0.05,则 拒绝原假设,此题具有鉴别度,因素有影响,变量有差别。 注:因为是求均值,单因素方差分析的因变量显然是定距/定比变量 方差分析的部分内容见compare means-one way anova。 方差分析检验各组样本均值间是否具有显著性差异,检验几个因素谁有影响,谁的影响大,每个因素不同水平有无区别,哪个水平影响大。 比较对象,2个,在方差齐,正态分布之类条件下,使用T检验 比较对象,对于2个,在正态分布之类条件下,使用方差分析 细节:1、选入变量denpengdent variable(因变量)及 Fixed factor(固定自变) 其他random factor,随机因变量(需分类变量才行) covariate,协变量(需连续型数值变量) wls weight,加权变量 post hocxxx选项是研究多因素之间关系的,其实也用得少。 Model Full factorial/custom(交互作用的研究、维度)感觉用得多是custom /main effert,用full的话,得全部的交互关系,也用不着那么多的。 4、 回归分析(研究某变量对另一变量的影响强度,重要的定量分析方法) 定量分析,预测,数学表达式,有线性、曲线、非线性、logistic等分析 1、 一元线性回归,y=a+bx,y是估计值,a是截距,b是斜率,回归系数 R2判定系数,R2为回归模型所能解释的因变量变异性的百分比,例如R2=0.77,即y的变异有77%是由x引起,这个判定系数在0-1之间,是用来判断回归直线的拟合优度的好坏。(它的前提假设很多,其中随机误差要求无自相关性,y服从正态分布) 2、 多元线性回归,y=b0+b1x1+b2x2+……+bnxn,其中b0是常数项,b1、b2等是偏回归系数。R复相关系数,R2为判断系数,在分析过程中,调用anova分析,p<0.05,回归系数不为0,即回归方差有意义,其实个人感觉作图看看很清楚了,不一定要检验的。 5、 因子分析(研究变量的相关性) 根据因变量(经常是心理态度指标方面的题项)之间关系密切与否,予以分群,它的目的一般在于减少变量。它的数学式与多元回归分析很接近。 步骤: 1、 定义问题,样本最少要求是变量数的4-5倍 2、 构造相关矩阵 3、 确定因子分析方法,其实默认主成分分析居多 4、 确定因子数,在于取平衡,一般来说,用系统默认的贡献度大于1.0,则因子太少,累计贡献度低,要求累计贡献度很大,例如大于80%,这样因子又太多,无法达到减少因子的目的,另外,因子本身需要有较好的解释,不能够无法解释,没有专业、实际的意义。 5、 因子旋转,其实默认的正交(Vxxx)居多 6、 解释因子 7、 计算或选择 8、 判断 6、 聚类/集群分析(研究样本/变量的相似性) 将变量属性相似程度较高的观察值加以分群,使得集群与集群间的差异性达到最大,而同一集群内观察值同构性很高。聚类分析一般用来减少样品。它也可以对变量进行集群。但好像很少用到。 K-xxx,快速聚类较简单, 而对于分层聚类(Hxxx-Cxxx)有下面的入门问题需要注意: 聚类分析中的冰柱图icicle如何看? 根据想划分的nembers of clusters,在图上划一横线,属于同一类的则在一起不被分开。 要看懂Cluster凝结的stage,明白每一步集群,都是以合并后编号小者为新观察值的编号。 注:欧氏距离,指每一变量差值平方和的平方根,其实这些都无所谓,知道是距离单位即可。 注:样品聚类,即Q型聚类,变量聚类,即R型聚类 7、 Compare Means过程 原假设:差异是由随机误差造成,变量数据间无显著性差异 检验:>0.05,假设成立,相同,无显著性差异;<0.05,拒绝假设,不同,有显著性差异 下面是compare neans的几个命令,各自的适用范围。 1、 Means(单变量描述) 单变量综合描述统计量的计算,可以分组求均值,例如,提交不同性别的工资均值,不做假设检验的,可做预先分析使用。 2、 one-sample T test(单变量与常量检验) 单样本:总体,检验样本是否来自总体,常用的是检验单变量与给定常量有无差异。 3、 independent-sample T test(单变量2个水平) 检验两个相关独立样本是否来自具有相同均值的总体。 与下面的配对T检验的不同在于其比较两组水平数量不同或来源不明,而配对比较的两组数据数量相同。 过程中,首先有F检验方差分析过程,sig>0.05,则表示方差齐,如果方差不齐,在最后检验表中,最后一张表中,要看“not assumed”的sig值,而不是“assumed”的sig值大于0.05与否。 4、 paired-sampled T test(单变量2个水平,配对个数) 检验两个相关配对样本是否来自具有均值相等的总体,和独立样本检验很象的。 通常是对同一观察对象在试验前和试验后观测的结果进行比较,例如想比较培训前后职工的工作效率。变量的水平可包含2个以上,不过感觉一般是比较单变量两个水平的居多。 5、 one-way anova(一维/一元方差分析,单变量多个水平) 检验单变量多组(多水平,2组以上)独立的组是否来自均值相同的总体。例如比较不同减肥的三种方案是否有显著性差异。 6、 对于多变量的差异性检验,使用general linear model (本质是与one-way anova相似的方差分析,多个变量多个水平,一般还是2个变量)。
注: 对于分类变量,用crosstabs做卡方检验。 对于比较变量分布不明,或者明显是非正态分布的,考虑使用Nonparametic Tests下的命令处理。
|
|