spss实战案例----分析多个变量与因变量之间是否存在关系,
⽅差分析
本案例是IBM SPSS数据分析与挖掘实战案例精粹----第七章的学习记录
案例背景或⽬标:激素⽔平是否在对照组和实验组之间存在差异
分析⽅法:Bootstrap抽样,秩和检验,秩变换⽅法,cox回归
字段包括:性别,年龄,萎缩程度,胃粘膜细胞肠化⽣程度
基本思路:控制变量法,⾸先排除性别,年龄,萎缩程度,胃粘膜细胞肠化⽣程度的影响;
探索性数据分析:观察样本量,样本的分布,是否存在偏态分不等;
样本分布:分析-表
性别萎缩肠化年龄分组
男⼥轻度中度重度⽆轻度中度重度青年组中年组⽼年组
Count Count Count Count Count Count Count Count Count Count Count Count
组别试
组2512141671012132151210
组20110000000101110
查看激素⽔平分布:图形--图表构建程序
激素⽔平呈明显的正偏态分布,必须考虑假设检验⽅法对数据的分布要求;
采⽤Bootstrap抽样进⾏分析:常⽤经典统计学的分析⽅法,⽆⼀例外的需要对变量的分布进⾏假定,然后才能进⾏相应的计算;ootstrap 抽样的基本思想是在全部样本未知的情况下,借助部分样本的有放回多次抽样,构建某个估计的置信区间,抽象地说,通过样本得到的估计并没有榨⼲样本中的信息,bootstrap利⽤重采样,把剩余价值发挥在构建置信区间上。
bootstrap抽样⽅法:分析--⽐较均值--均值--因变量列表(激素⽔平),⾃变量列表(组别,性别,年龄),选项--中位数--加⼊“单元格统计量”,bootstrap⼦对话框中“执⾏bootstrap”
可以观察各个统计量95%区间差异,对某因素的影响进⾏分析;中位数并不重叠,可能存在统计学差异(初步分析);可以采⽤采⽤秩和检验进⾏更精确的分析:
bootstrap检验方法对因变量变量变换后的建模分析:
常见的变量变换⽅法:1,对数转换;2,平⽅根转换;3,平⽅根正弦转换sin(开⽅);4:平⽅转化;5,倒数转换;6,Box-Cox变换;
对于正偏态分布,⼀般常⽤的是对数变换:分析----描述统计----P-P图(数据符合指定分布时,P-P图中各点近似呈⼀条直线。)
将字段进⾏转换后,使⽤:
1)分析----⼀般线性模型----单变量
2)将Injisu选⼊“因变量”列表框
3)将组别,性别选⼊“固定因⼦”列表框,年龄选⼊“协变量”列表框
4)“模型”⼦对话框,将组别,性别,年龄的主效应选⼊“模型”列表框
5)“选项”⼦对话框,选择“残差图”和“缺乏拟合优度检验”
6)确定。
上图,总模型p值为0.003,说明整个模型对injisu的预测是有统计学意义的(变量之间相关的),分项来看,只有组别具有统计学意义;秩变换分析:
当变量转换⽆法解决问题时,可以使⽤秩变换:转换----个案排序-----将激素⽔平放⼊“变量”列表框;
将字段进⾏转换后,使⽤:
1)分析----⼀般线性模型----单变量
2)将Rjisu选⼊“因变量”列表框
3)将组别,性别选⼊“固定因⼦”列表框,年龄选⼊“协变量”列表框
4)“模型”⼦对话框,将组别,性别,年龄的主效应选⼊“模型”列表框
5)“选项”⼦对话框,选择“残差图”和“缺乏拟合优度检验”
6)确定。
利⽤Cox模型进⾏分析:秩变换分析会损失⼀些信息,除了⾮参数⽅法外,还可以利⽤⽣存分析中的COX回归模型进⾏分析
总结:性别,年龄对激素⽔平未发现有影响,试验组和对照组之间的激素⽔平存在明显差异;对于同⼀个统计问题,可以使⽤多种模型进⾏解决,没有正确的模型,只有更加适合的模型;当结论不⼀样时,应根据模型的特点以及真实情况,判断那种情况更接近真实;也可以使⽤投票策略进⾏确定(类似与随机森林,选择多数模型结果)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。