Spss及统计笔记

Spss及统计笔记
一、预备知识
1、变量类型
2、缺失值
3、统计方法
4、假设检验
二、 spss分析
1、卡方分析（定类变量是否存在某种关联性）
2、相关分析（研究变量间联系的密切程度）
3、方差分析（重要的定性分析方法）
4、回归分析（研究某变量对另一变量的影响强度，重要的定量分析方法）
5、因子分析（研究变量的相关性）
6、聚类/集群分析（研究样本/变量的相似性）
7、 Compare Means过程

一、预备知识
1、变量类型
定类变量（又称分类变量/离散变量）：仅仅代表不同类事物，例如性别
定序变量：代表按照事物某特性排序下的分类，例如教育程度，态度量度
定距/定比变量：变量的值之间可以比较大小，两个值的差有实际意义。
其中，定距/定比变量的区别，定距变量＝0，不表示“没有”，定比变量＝0，表示“没有”，在spss中，没有太大的区别。
2、缺失值
10％以下，可接受范围
替代模式：
1样本统计量（各类平均值）替代
2统计模型计算出的值替代
3删除整个个案
4仅在相应分析中作必要的删除，将有缺失值的个案保留（exlude case pairwise）
3、统计方法
一个变量：frequency频数、descriptive众数、中位数、均值、标准差
两个变量：卡方分析（x2 /crosstabs），研究分类变量间是否存在关联性的常用方法
单因素方差分析（one way anova，F检验）
简单相关分析（pwarson相关系数r值）
一元线性回归分析（regression / linear）
多个变量：判别分析、聚类分析、因子分析、多元线性回归
注：1、频数/百分比中，有效百分比（valid percent）指频数对有效个案数（所谓有效个案数，即样本量减去缺失个案数）的比例。
2、Sig 显著度p值：显著性水平一般是0.05，也有取0.01的
4、假设检验
假设检验包括参数检验（定量），其中包括单样本及双样本（独立样本、配对样本）检验；
非参数检验（非定量），好像是针对不服从正态分布的变量，，同样有单样本、双样本检验。
二、 spss分析
1、卡方分析（定类变量是否存在某种关联性）
原假设：两个定类变量是互相独立，互不关联。
列联表（频数和百分数），原假设成立的前提下，可以计算出列联表中的频数应该是多少（期望频数），比较观测频数与期望频数的差，用卡方（x2）统计量来检验：
差值大，卡方检验结果显著，拒绝原假设，即两变量存在某种关联，具体如何关联，要看列联表中数据的分布形态
差值小，原假设成立，卡方检验结果不显著，不能拒绝原假设，不能轻易下不关联的结论
注：ü卡方检验受样本量的影响很大；
ü对变量取值的不同分类会引起卡方值的改变，
ü对定距/定比变量，要先将变量取值分组归类，才能用卡方分析，用recode命令
2、相关分析（研究变量间联系的密切程度）
具体看另外一篇笔记，总之先记得analye－correlate－bivarinte比较常用。
中间会得到简单相关系数，对于这个系数是否正确，还要排除相关系数为0的可能，里面的sig检验就是针对两者相关系数0的原假设的，p值<0.05，则相关系数成立，出现一个星号，显著水平在5％-1％之间，两个星号，在1％以下。
一般我们当然希望p值小，多个星号了。其实我感觉首先用图形看看，就可以知道相关系数是否为0了（为0就是根本没有相关性了，图很乱的。）
3、方差分析（重要的定性分析方法）
分类：单因素、多因素。
单因素方差分析（F分析检验）
研究一个变量是否依赖于另一个变量，前者叫因变量independent，后者叫自变量depengdent，又叫因素。
原理：
单因素的方差分析是按照自变量或因素的不同联值将样本分为几组，比较这几组的因变量的均值。一般情况下，这几个因变量的均值肯定不相等，这种不相等，可能由于这几组数据对应的总体均值的确存在差异，也可能仅仅由于数据的随机波动造成。通过方差的假设分析，可以判断数据的差异是由于何种原因造成，从而做定性判断（因素间的关系，影响的强度）。
原假设：几组数据总体均值没有差异，观察差异由数据随机波动造成。
求出组间变差及组内变差，要看两者比率（略加变化就可得F统计量）是否足够大，以决定是否拒绝原假设，当sig（p值）>0.05，则原假设成立，因素没有影响，当sig<0.05，则拒绝原假设，此题具有鉴别度，因素有影响，变量有差别。
注：因为是求均值，单因素方差分析的因变量显然是定距/定比变量
方差分析的部分内容见compare means－one way anova。
方差分析检验各组样本均值间是否具有显著性差异，检验几个因素谁有影响，谁的影响大，每个因素不同水平有无区别，哪个水平影响大。
比较对象，2个，在方差齐，正态分布之类条件下，使用T检验
比较对象，对于2个，在正态分布之类条件下，使用方差分析
细节：1、选入变量denpengdent variable（因变量）及 Fixed factor（固定自变）
其他random factor，随机因变量（需分类变量才行）
covariate，协变量（需连续型数值变量）
wls weight，加权变量
post hocxxx选项是研究多因素之间关系的，其实也用得少。
Model Full factorial/custom（交互作用的研究、维度）感觉用得多是custom /main effert，用full的话，得全部的交互关系，也用不着那么多的。
4、回归分析（研究某变量对另一变量的影响强度，重要的定量分析方法）
定量分析，预测，数学表达式，有线性、曲线、非线性、logistic等分析
1、一元线性回归，y＝a＋bx，y是估计值，a是截距，b是斜率，回归系数
R2判定系数，R2为回归模型所能解释的因变量变异性的百分比，例如R2＝0.77，即y的变异有77％是由x引起，这个判定系数在0-1之间，是用来判断回归直线的拟合优度的好坏。（它的前提假设很多，其中随机误差要求无自相关性，y服从正态分布）
2、多元线性回归，y＝b0＋b1x1＋b2x2＋……＋bnxn，其中b0是常数项，b1、b2等是偏回归系数。R复相关系数，R2为判断系数，在分析过程中，调用anova分析，p<0.05，回归系数不为0，即回归方差有意义，其实个人感觉作图看看很清楚了，不一定要检验的。
5、因子分析（研究变量的相关性）
根据因变量（经常是心理态度指标方面的题项）之间关系密切与否，予以分群，它的目的一般在于减少变量。它的数学式与多元回归分析很接近。
步骤：
1、定义问题，样本最少要求是变量数的4-5倍
2、构造相关矩阵
3、确定因子分析方法，其实默认主成分分析居多
4、确定因子数，在于取平衡，一般来说，用系统默认的贡献度大于1.0，则因子太少，累计贡献度低，要求累计贡献度很大，例如大于80％，这样因子又太多，无法达到减少因子的目的，另外，因子本身需要有较好的解释，不能够无法解释，没有专业、实际的意义。
5、因子旋转，其实默认的正交（Vxxx）居多
6、解释因子
7、计算或选择
8、判断
6、聚类/集群分析（研究样本/变量的相似性）
将变量属性相似程度较高的观察值加以分群，使得集群与集群间的差异性达到最大，而同一集群内观察值同构性很高。聚类分析一般用来减少样品。它也可以对变量进行集群。但好像很少用到。
K－xxx，快速聚类较简单，
而对于分层聚类（Hxxx－Cxxx）有下面的入门问题需要注意：
聚类分析中的冰柱图icicle如何看？
根据想划分的nembers of clusters，在图上划一横线，属于同一类的则在一起不被分开。
要看懂Cluster凝结的stage，明白每一步集群，都是以合并后编号小者为新观察值的编号。
注：欧氏距离，指每一变量差值平方和的平方根，其实这些都无所谓，知道是距离单位即可。
注：样品聚类，即Q型聚类，变量聚类，即R型聚类
7、 Compare Means过程
原假设：差异是由随机误差造成，变量数据间无显著性差异
检验：>0.05，假设成立，相同，无显著性差异；<0.05，拒绝假设，不同，有显著性差异
下面是compare neans的几个命令，各自的适用范围。
1、 Means（单变量描述）
单变量综合描述统计量的计算，可以分组求均值，例如，提交不同性别的工资均值，不做假设检验的，可做预先分析使用。
2、 one－sample T test（单变量与常量检验）
单样本：总体，检验样本是否来自总体，常用的是检验单变量与给定常量有无差异。
3、 independent－sample T test（单变量2个水平）
检验两个相关独立样本是否来自具有相同均值的总体。
与下面的配对T检验的不同在于其比较两组水平数量不同或来源不明，而配对比较的两组数据数量相同。
过程中，首先有F检验方差分析过程，sig>0.05，则表示方差齐，如果方差不齐，在最后检验表中，最后一张表中，要看“not assumed”的sig值，而不是“assumed”的sig值大于0.05与否。
4、 paired－sampled T test（单变量2个水平，配对个数）
检验两个相关配对样本是否来自具有均值相等的总体，和独立样本检验很象的。
通常是对同一观察对象在试验前和试验后观测的结果进行比较，例如想比较培训前后职工的工作效率。变量的水平可包含2个以上，不过感觉一般是比较单变量两个水平的居多。
5、 one－way anova（一维/一元方差分析，单变量多个水平）
检验单变量多组（多水平，2组以上）独立的组是否来自均值相同的总体。例如比较不同减肥的三种方案是否有显著性差异。
6、对于多变量的差异性检验，使用general linear model
（本质是与one－way anova相似的方差分析，多个变量多个水平，一般还是2个变量）。

注：
对于分类变量，用crosstabs做卡方检验。
对于比较变量分布不明，或者明显是非正态分布的，考虑使用Nonparametic Tests下的命令处理。