Ⅲ.两类结果时的主要影响因素筛选 — 两分类 Logistic 回归分析
1. 两分类 Logistic 回归分析的基本概念
前述多元逐步回归分析,因变量必须是连续性变量,而且近似于正态分布,拟合得到的是线性回归方程。
当因变量的取值只有两个或两种可能结果(通俗地讲,通常编码为“0”与“1”两个数值),因变量为互斥的两分类资料(显然这不是连续性变量、不呈正态分布),自变量可对结果产生的影响不一定是线性的时候,这时再用线性回归分析就不够合理了,就要用到本节所介绍的两分类 Logistic 回归分析来处理这种资料。
因变量取值只有两个或只有两种可能结果的情况很多,例如人们发病或未发病;患者存活或死亡;人们经商成功或失败;有癌症患者生存期达1年以上,有的患者不到1年就病死等等。Logistic 回归则特别适用于因变量为两分类的资料。如果因变量为连续型的计量资料(例如病人的生存期可有各种各样的月数、日数;高血压患者有不同的血压值等等),却要进行两分类 logistic 回归分析时,则需按某种标准将它划分为两分类变量(例如按生存期是否有 1年分为两组;按收缩压是否超过 140 mmHg分为两组等等),然后再拟合 Logistic 回归模型。
含有 k 个自变量的 Logistic 回归方程,出现结果为“1”的概率 Px 可表示为:
e (B0 + B1X1 + B2X2 + …… + BkXk)
Px = ─────────────────────
1 + e (B0 + B1X1 + B2X2 + …… + BkXk)
EXP (B0 + B1X1 + B2X2 + …… + BkXk)
或 Px = ─────────────────────
1 + EXP (B0 + B1X1 + B2X2 + …… + BkXk)
式中 Px 为出现结果为“1”的概率,B0 为方程的常数项(constant,有的文献将它记为α),B0、B1、……、Bk 是模型的参数,称为回归系数 B, EXP 表示e 为底。
医学上常以出现结果为“1”的概率(Px)为因变量,影响疾病发生的因素(X1、X2、...... Xk)为自变量,来拟合 Logistic 回归模型,并对自变量作相对危险性(relative risk,RR)或比数比(odds ratio,OR)的估计。
从前述 Logistic 回归方程可见,拟合方程运算后解出B0、B1、……、Bk 这些回归系数,即可算得每个患者出现结果为“1”的概率(Px)值。其中的 EXP(B), 即相当于该自变量相对危险性的 OR 值。
2. 两分类Logistic 回归分析实例
2.1 2×2 表(四格表)Logistic 回归分析实例:
四格表即 2×2 表,它分析只有 1 个自变量的资料,即分析什么原因造成了后果。
例 1:研究治疗方法(这 1 个自变量)对疗效有什么影响。不同疗效(effect)与所用治疗方法(treat)的关系,见表 11-2(引自金丕焕等主编,2000年,P.81)。即传统疗法有效率仅 25.0%;新疗法有效率达 66.7%。请用 Logistic 回归分析,说明治疗方法对疗效有什么影响。这是两分类资料的例子:疗效与治疗方法均为两分类。
表 11-2 是否患病与是否暴露与有害因素的关系
治疗方法(treat) 疗效 (effect) 合计
有效(1) 无效(0)
传统疗法 (1) 16 (25.0%) 48 (75.0%) 64
新疗法 (2) 40 (66.7%) 20(33.3%) 60
合计 56 68 124
所用程序文件名为 LogiRegre-Ex.sps 的例 *1。
*One examples of LOGISTIC REGRESSION; Filename: LogiRegre.sps.
*--------------------------------------------------------------------------.
*1. Prof. Jin Pihuan: Med. SAS Statistical Analysis, 2000. P.81.
DATA LIST FREE /treat effect n.
BEGIN DATA.
1 1 16 1 0 48 2 1 40 2 0 20
END DATA.
VALUE LABELS treat 1 '传统疗法' 2 '新疗法'
/effect 1 '有效' 0 '无效'.
WEIGHT BY n.
CROSSTABS /TABLES=treat BY effect /CELLS=COUNT ROW /STATISTICS=CHISQ.
LOGISTIC REGRESSION /VARIABLES=effect WITH treat
/METHOD=ENTER
/CASEWISE=PRED PGROUP RESID LRESID SRESID ZRESID.
*--------------------------------------------------------------------------.
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1 TREAT 1.792 .398 20.276 1 .000 6.000
Constant -2.890 .639 20.459 1 .000 .056
a Variable(s) entered on step 1: TREAT.
主要输出结果可见:Logistic 回归方程的系数(B)值:疗法(TREAT)为 1.792;截距(Constant)为 -2.890;使用传统疗法的有效率较低,相对危险性为 6.00 倍。
2.2 2×2×2 表Logistic 回归分析的实例:
前面2×2 表(即四格表),它分析只有 1 个自变量的资料;如果自变量(影响因素)有 2 个,每个因素又只分为 2 个水平,即形成 2×2×2 表。
例 2:病人的性别(sex)和疾病的严重程度(deg)这 2 个影响因素,对疗效(effect)有何影响?资料见表 11-3。
表 11-3 病人性别和疾病严重程度对疗效的影响
性别(sex) 疾病的严重程度(deg) 有效(1) 无效(0) 合计
女(0) 不严重(0) 21 6 27
严重(1) 9 9 18
男(1) 不严重(0) 8 10 18
严重(1) 4 11 15
所用程序文件名为 LogiRegre-Ex.sps 的例 *2。
*--------------------------------------------------------------------------.
*2. Jin Pi-Huang: Med. SAS Statistical Analysis,2000, P.84:.
DATA LIST FREE /sex deg effect n.
BEGIN DATA.
0 0 1 21 0 0 0 6 0 1 1 9 0 1 0 9
1 0 1 8 1 0 0 10 1 1 1 4 1 1 0 11
END DATA.
VARIABLE LABELS sex '性别' /deg '疾病严重度' /effect '疗效' /n '病例数'.
VALUE LABELS sex 0 '女' 1 '男'
/deg 0 '不严重' 1 '严重'
/effect 0 '无效' 1 '有效'.
WEIGHT BY n.
CROSSTABS TABLES=deg BY effect BY sex /CELLS=COUNT ROW /STATISTICS=ALL.
WEIGHT BY n.
LOGISTIC REGRESSION VAR=effect
/METHOD=FSTEP(LR) sex deg
/SAVE=PRED PGROUP COOK LEVER DFBETA RESID
LRESID SRESID ZRESID DEV
/CLASSPLOT
/CASEWISE
/PRINT=GOODFIT CORR ITER(1) CI(95)
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5).
*----------------------------------------------------------------------------.
主要输出结果:
Variables in the Equation
B S.E. Wald df Sig. Exp(B) 95.0% C.I.for EXP(B)
Lower Upper
Step 2 SEX -1.277 .498 6.575 1 .010 .279 .105 .740
DEG -1.054 .498 4.484 1 .034 .348 .131 .924
Constant 1.157 .404 8.217 1 .004 3.180
a Variable(s) entered on step 1: SEX.
b Variable(s) entered on step 2: DEG.
可见:B0 = 1.157。
B1 = -1.277, P = 0.010, OR1 = EXP(B1) = e -1.277 = 0.279,由于性别(sex)量化时女为 0,男为 1, B1 为负值,说明越是男性有效率越低;
B2 = -1.054,P = 0.034, OR2 = EXP(B2) = e -1。054 = 0.348, 由于疾病严重度(deg)量化时,不严重为 0,严重为 1, B2 为负值,说明越是疾病严重有效率越低。
有了B0、、B1 和B2,即可写出下列 Logistic 回归方程:
EXP (1.157 - 1.277 SEX - 1.054 DEG)
Px = ─────────────────────
1 + EXP (1.157 - 1.277 SEX - 1.054 DEG)
例如:女性(sex=0)疾病不严重(deg=0)的病人, 有效率 Px 为:
EXP (1.157 - 1.277×0 - 1.054×0) 3.1803778
Px = ───────────────────── = ─────── = 0.761
1 + EXP (1.157 - 1.277×0 - 1.054×0) 1+3.1803778
男性(sex=1)疾病严重(deg=1)的病人, 有效率 Px 为:
EXP (1.157 - 1.277×1 - 1.054×1) 0.30912795
Px = ───────────────────── = ──────── = 0.236
1 + EXP (1.157 - 1.277×1 - 1.054×1) 1+0.30912795
2.3 简单的两分类Logistic 回归分析实例:
例如:某市居民使用交通工具的社会调查结果见表 11-4。 其中 No = 序号,x1 = 年龄,x2 = 月收入,x3 = 性别(女 = 0, 男 = 1), y = 使用交通工具(0 = 骑自行车,1 = 乘公共汽车。可见 y 为二分类变量)。请用 Logistic 回归分析,说明影响使用交通工具类型的主要因素是什么。(引自余建英等主编. 2003 年, P.242)
请写出 Logistic 回归方程,解释以公共汽车作为交通工具的主要影响因素。
表 11-4 某市居民使用交通工具的社会调查结果
---------------------------------------------------------------------------------------
No x1 x2 x3 y No x1 x2 x3 y
---------------------------------------------------------------------------------------
1 18 850 0 0 2 21 1200 0 0
3 23 850 0 1 4 23 950 0 1
5 28 1200 0 1 6 31 850 0 0
7 36 1500 0 1 8 42 1000 0 1
9 46 950 0 1 10 48 1200 0 0
11 55 1800 0 1 12 56 2100 0 1
13 58 1800 0 1 14 18 850 1 0
15 20 1000 1 0 16 25 1200 1 0
17 27 1300 1 0 18 28 1500 1 0
19 30 950 1 1 20 32 1000 1 0
21 33 1800 1 0 22 33 1000 1 0
23 38 1200 1 0 24 41 1500 1 0
25 45 1800 1 1 26 48 1000 1 0
27 52 1500 1 1 28 56 1800 1 1
----------------------------------------------------------------------------------------
所用的程序文件名为 LogiRegre.sps 的例 *3。
*-------------------------------------------------------------------------.
*3. Yu Jian-Ying: Data Analysis & SPSS Application, 2003, P.242:.
DATA LIST FREE /No x1 x2 x3 Y.
BEGIN DATA.
1 18 850 0 0 2 21 1200 0 0
3 23 850 0 1 4 23 950 0 1
5 28 1200 0 1 6 31 850 0 0
7 36 1500 0 1 8 42 1000 0 1
9 46 950 0 1 10 48 1200 0 0
11 55 1800 0 1 12 56 2100 0 1
13 58 1800 0 1 14 18 850 1 0
15 20 1000 1 0 16 25 1200 1 0
17 27 1300 1 0 18 28 1500 1 0
19 30 950 1 1 20 32 1000 1 0
21 33 1800 1 0 22 33 1000 1 0
23 38 1200 1 0 24 41 1500 1 0
25 45 1800 1 1 26 48 1000 1 0
27 52 1500 1 1 28 56 1800 1 1
END DATA.
VARIABLE LABELS No '序号' / x1 '年龄' /x2 '月收入'.
VALUE LABELS x3 0 '女' 1 '男' /Y 0 '骑自行车' 1 '乘公共汽车'.
LOGISTIC REGRESSION VAR=y
/METHOD=ENTER x1 x2 x3
/SAVE=PRED PGROUP
/CLASSPLOT
/CASEWISE
/PRINT= SUMMARY GOODFIT CORR ITER(1) CI(95)
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5).
*For one woman (No=8):.
COMPUTE x1 = 42 .
COMPUTE x2 = 1000 .
COMPUTE x3 = 0 .
COMPUTE Px = EXP(-3.6546797 + 0.0821626 * x1 + 0.0015169 * x2 -2.5016299 * x3)/(1+
EXP(-3.6546797 + 0.0821626 * x1 + 0.0015169 * x2 -2.5016299 * x3)).
FORMATS Px(F8.5).
LIST VARIABLES=Px /CASES=FROM 1 TO 1.
RECODE x3 (0=1) (1=0).
VALUE LABELS x3 1 '女' 0 '男' /Y 0 '骑自行车' 1 '乘公共汽车'.
LOGISTIC REGRESSION VAR=y
/METHOD=ENTER x1 x2 x3
/SAVE=PRED PGROUP
/CLASSPLOT
/CASEWISE
/PRINT= SUMMARY GOODFIT CORR ITER(1) CI(95)
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5).
*----------------------------------------------------------------------------.
Logistic 回归命令的产生方法与步骤是:
程序编辑窗主菜单 Analyze → 选 Regression → 选 Binary Logictic (两分类变量 Logictic 回归分析,出现 Logistic Regression 窗口 → 将 y 选入右边的 Dependent (因变量) 窗口中 → 将 x1、x2 与 x3 均选入右边的 Covariats(协变量,这里是自变量) 窗口中,因为 x1、 x2 与 x3 是自变量,默认拟合方法是Enter(强制选入;但本例也可用逐步选择法:FSTEP和BSTEP)→ 再击下方的 Save 钮,将 Predicted values框中的 Probability(概率)和 Group membership(预测分组)勾选 → Continue → 再击下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → Paste,即出现程序文件中的 LOGISTIC REGRESSION 命令。
Variables in the Equation
B S.E. Wald df Sig. Exp(B) 95.0% C.I.for EXP(B)
Lower Upper
X1 .082 .052 2.485 1 .115 1.086 .980 1.202
X2 .002 .002 .661 1 .416 1.002 .998 1.005
X3 -2.502 1.158 4.669 1 .031 .082 .008 .793
Constant -3.655 2.091 3.054 1 .081 .026
a Variable(s) entered on step 1: X1, X2, X3.
使用交通工具影响因素分析结果,可得 Logistic 回归方程(需复制准确的系数值 B,才可能与程序所存储的结果 pre_1 相一致):
EXP(-3.6546797 + 0.0821626 * x1 + 0.0015169 * x2 -2.5016299 * x3)
Px = ───────────────────────────────────
1 + EXP(-3.6546797 + 0.0821626 * x1 + 0.0015169 * x2 -2.5016299 * x3)
EXP(-3.6546797 + 0.0821626 * 42 + 0.0015169 * 1000 -2.5016299 * 0)
Px = ───────────────────────────────────
1 + EXP(-3.6546797 + 0.0821626 * 42 + 0.0015169 *1000 -2.5016299 * 0)
= 0.78802 ≈ 0.788。
例如一位年龄 42 岁(x1=42)的女性(x3=0),月收入 1000 元(x2=1000),把这些数值代入上式,可得她乘公共汽车的可能性Px 是 0.78802(78.8%)。程序中已写了6 句命令来运算输出,而且与所存储的结果一致(pre_1 = 0.78802)。
可见:① 使用交通工具的主要影响因素是性别 x3,其系数绝对值最大(-2.052);Wald 值也最大(4.669)。x3 在 Logistic 回归方程中最重要。② x3 的系数为负值(-2.052),其 EXP(B) 值为 0.082,其含义是:性别(女 = 0,男 = 1)是乘公共汽车(y=1)的负性因素,即越是男性乘公共汽车的可能性越小,男性乘公共汽车的可能性只是 0.082(8.2%)。
注:如果对性别重编码(女 = 1, 男 = 0),输出的 Logistic 回归分析结果则为:
Variables in the Equation
B S.E. Wald df Sig. Exp(B) 95.0% C.I.for EXP(B)
Lower Upper
X1 .082 .052 2.485 1 .115 1.086 .980 1.202
X2 .002 .002 .661 1 .416 1.002 .998 1.005
X3 2.502 1.158 4.669 1 .031 12.202 1.262 118.011
Constant -6.156 2.687 5.251 1 .022 .002
a Variable(s) entered on step 1: X1, X2, X3.
这时 x3 的系数则变为正值(2.052,与前述符号相反),其 EXP(B) 值则为 12.202(与前述是倒数关系:1/0.082≈12.2),其含义是:女性乘公共汽车的可能性是男性的 12.2倍。
例 4:在慢性病社区管理、在健康教育工作中,我们常常要对患者进行早预防、早治疗的防治知识教育,以便取得最好的防治效果。例如老年人中有一些心肌梗死患者,未及时就医、未注意休息或过劳,或发生了心力衰竭、休克等,均会导致抢救未能成功而死亡。
下面是一项心肌梗死患者的救治资料,共 200 例患者的情况,目的是了解抢救未能成功导致患者死亡的主要影响因素是什么。
表 11-5中P 代表在医院抢救是否成功(P = 0,表示在医院抢救成功;P = 1,表示抢救未能成功而死亡。这就是因变量为两分类的情况);x1 代表抢救前是否发生过休克(x1=0,表示抢救前未发生过休克;x1 = 1,表示抢救前发生过休克);x2 代表抢救前是否发生过心力衰竭(x2 = 0,表示抢救前未发生过心力衰竭;x2 = 1,表示抢救前发生过心力衰竭);x3 代表患者是否及时就医(x3 = 0,表示发生心肌梗死症状到抢救 < 12小时,即及时就医;x3 = 1,表示发生心肌梗死症状到抢救 > 12小时,即未及时就医)。这是一项横断面调查资料、两分类资料(抢救是否成功)的Logistic 回归分析实例。n 为 x1、x2、x3 情况下的患者人数。
表 11-5 某病在医院抢救成功与否的影响因素
----------------------------------------------------------------------------------------
P = 0 (在院抢救成功) P = 1 (在院抢救未成功)
----------------------------------------------------------------------------------------
x1 x2 x3 n x1 x2 x3 n
----------------------------------------------------------------------------------------
0 0 0 35 0 0 0 4
0 0 1 34 0 0 1 10
0 1 0 17 0 1 0 4
0 1 1 19 0 1 1 15
1 0 0 17 1 0 0 6
1 0 1 6 1 0 1 9
1 1 0 6 1 1 0 6
1 1 1 6 1 1 1 6
----------------------------------------------------------------------------------------
所用的程序文件名为 LogiRegre.sps 的例 *4:
*One examples of LOGISTIC REGRESSION; Filename: LogiRegre.sps.
*----------------------------------------------------------------------.
*4. Fang Ji-Qian: Med. Stat. and Computer Experiment, P.484:.
DATA LIST FREE /P x1 x2 x3 n.
BEGIN DATA.
0 0 0 0 35 0 0 0 1 34 0 0 1 0 17 0 0 1 1 19
0 1 0 0 17 0 1 0 1 6 0 1 1 0 6 0 1 1 1 6
1 0 0 0 4 1 0 0 1 10 1 0 1 0 4 1 0 1 1 15
1 1 0 0 6 1 1 0 1 9 1 1 1 0 6 1 1 1 1 6
END DATA.
LIST VARIABLES=ALL /FORMAT=NUMBERED /CASES=FROM 1 TO 16.
WEIGHT BY n.
LOGISTIC REGRESSION VAR=P
/METHOD=FSTEP(LR) x1 x2 x3
/SAVE=PRED PGROUP COOK LEVER DFBETA RESID
LRESID SRESID ZRESID DEV
/CLASSPLOT
/CASEWISE
/PRINT=GOODFIT CORR ITER(1) CI(95)
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5).
*----------------------------------------------------------------------.
从程序文件可见,按表 11-2 录入数据后,由于n 为 x1、x2、x3 情况下的患者人数,故用了一句 WEIGHT BY n,表示x1、x2、x3 情况下要乘以患者人数 n。
产生 LOGISTIC REGRESSION 命令的方法与步骤是:
程序编辑窗主菜单 Analyze → 选 Regression (回归分析) → 选 Binary Logictic (两分类变量 Logictic 回归分析,出现 Logistic Regression 窗口 → 将 P 选入右边的 Dependent (因变量)窗口中 → 将 x1、x2 与 x3 均选入右边的 Covariats(协变量,这里是自变量) 窗口中,因为 x1 与 x2 是自变量,此时默认拟合方法是“Enter”(强制选入),要改为 Forward: LR ( 向前逐步法:似然比法 likelihood ratio,LR)→ 再击下方的 Save 钮,将 Predicted values、 Influence 与 Residuls 窗口中的预选项全勾选 → Continue → 再击下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → Paste,即出现程序文件中的 LOGISTIC REGRESSION 命令。
向前逐步法筛选影响因素到第三步的预测符合率为 70%,即“抢救成功 P=0”者预测也是“P = 0”共 134 例;“抢救成功 P=0”者预测为“死亡,P = 1”共 6 例;“死亡 P=1”者预测是“P = 0”共 54 例;“死亡 P=1”者预测也是“P = 1”共 6 例。
故符合率为 (134 + 6)/200 = 70%。
筛选影响因素结果,x1、x2 与 x3 全有影响,可得 Logistic 回归方程:
EXP (-2.086 + 1.110 * x1 + 0.073 * x2 + 0.975 * x3)
Px = ────────────────────────────────
1 + EXP (-2.086 + 1.110 * x1 + 0.073 * x2 + 0.975 * x3)
Classification Table
Predicted P Percentage Correct
Observed .00 1.00
Step 1 P .00 140 0 100.0
1.00 60 0 .0
Overall Percentage 70.0
Step 2 P .00 128 12 91.4
1.00 45 15 25.0
Overall Percentage 71.5
Step 3 P .00 134 6 95.7
1.00 54 6 10.0
Overall Percentage 70.0
a The cut value is .500
Variables in the Equation
B S.E. Wald df Sig. Exp(B) 95.0% C.I.for EXP(B)
Lower Upper
Step 1 X1 .898 .325 7.647 1 .006 2.455 1.299 4.638
Constant -1.157 .200 33.638 1 .000 .314
Step 2 X1 1.083 .343 9.953 1 .002 2.953 1.507 5.785
X3 1.017 .340 8.952 1 .003 2.766 1.420 5.386
Constant -1.799 .312 33.161 1 .000 .165
Step 3 X1 1.110 .348 10.140 1 .001 3.033 1.532 6.005
X2 .703 .329 4.557 1 .033 2.019 1.059 3.849
X3 .975 .344 8.034 1 .005 2.651 1.351 5.202
Constant -2.086 .351 35.257 1 .000 .124
a Variable(s) entered on step 1: X1. b Variable(s) entered on step 2: X3.
c Variable(s) entered on step 3: X2.
Casewise List
Case Selected Status ObservedP Predicted Predicted Group Temporary VariableResid ZResid
1 S 0 .111 0 -.111 -.352
2 S 0 .248 0 -.248 -.574
3 S 0 .201 0 -.201 -.501
4 S 0 .399 0 -.399 -.815
5 S 0 .274 0 -.274 -.614
6 S 0 .500 0 -.500 -.999
7 S 0 .432 0 -.432 -.872
8 S 0** .669 1 -.669 -1.420
9 S 1** .111 0 .889 2.837
10 S 1** .248 0 .752 1.743
11 S 1** .201 0 .799 1.996
12 S 1** .399 0 .601 1.226
13 S 1** .274 0 .726 1.629
14 S 1** .500 0 .500 1.001
15 S 1** .432 0 .568 1.146
16 S 1 .669 1 .331 .704
a S = Selected, U = Unselected cases, and ** = Misclassified cases.
Step number: 3
Observed Groups and Predicted Probabilities
80 ô ô
ó ó
ó ó
F ó ó
R 60 ô ô
E ó ó
Q ó ó
U ó 1 ó
E 40 ô 1 1 ô
N ó 0 0 1 ó
C ó 0 0 1 ó
Y ó 0 0 1 1 ó
20 ô 0 1 0 1 0 ô
ó 0 0 0 0 0 1 ó
ó 0 0 0 0 0 1 1 1 ó
ó 0 0 0 0 0 0 0 0 ó
Predicted òòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòò
Prob: 0 .25 .5 .75 1
Group: 000000000000000000000000000000111111111111111111111111111111
Predicted Probability is of Membership for 1.00
The Cut Value is .50
Symbols: 0 - .00
1 - 1.00
Each Symbol Represents 5 Cases.
例如:有 35 例患者其 x1、x2、x3 分别都是 0,这些患者死亡的概率 Px,据上述 Logistic 回归方程,按 SPSS 的计算写法是:
Px= EXP(-2.086 + 1.110*0 + 0.703*0 + 0.9750*0)/
(1+EXP(-2.086 + 1.110*0 + 0.703*0 + 0.975*0)) =0.111
有 34 例患者其 x1=0,x2=0,x3=1,死亡概率 Px 据上述 Logistic 回归方程:
Px= EXP(-2.086 + 1.110*0 + 0.703*0 + 0.9750*1)/
(1+EXP(-2.086 + 1.110*0 + 0.703*0 + 0.975*1)) =0.248 等。
详见运算输出结果“Casewise List”。
最后还输出预测结果分类图,见 Step number: 3 Observed Groups and Predicted Probabilities,即向前逐步法第 3 步的结果。
图中横坐标 Predicted Prob 为预测概率;“0”代表抢救成功存活,“1”代表患者死亡。在“0.5”处将横坐标分为左右两边。
从图中可直观地看出其预测分类结果与符合率(70%):
左边:“0” 预测为 “0”者有 134 例(图中有 26 个符号“0”,每个符号“0”代表 5 例患者,即 Each Symbol Represents 5 Cases 见图,近似为 134 例( 因为无法用整数的符号数表示 134 例);“1”预测为“0”者 54 例(图中有 12 个符号“1”,近似 54 例)。
右边:“1” 预测为 “1”者有 6 例(图中有 1 个符号“1”,每个符号“1”代表 5 例患者,即 Each Symbol Represents 5 Cases 见图,近似为 6 例(因为无法用整数的符号数表示 134 例);“0”预测为“1”者 6 例(图中有 1 个符号“0”,近似 6 例)。