整个spss界面分为数据视图、变量视图和输出文档。
一、关于变量
1.变量名称不可重复;变量中的英文字母不区分大小写;变量中不能出现空格、括号、逗号等特殊字符;不可使用保留字
2.变量类型常用的有数值、日期和字符串
3.标签是对变量名称的解释说明,一般变量名称越简洁越好,而标签可对变量对名称做详细解释
4.值一般在该变量有有限个值的情况下使用,例如性别用1表示男2表示女,满意度用1-5不同级别的数值表示。
设置值之后,如果数据视图的视图->值标签勾选,对应的值会显示为值对应的标签,不勾选则显示值,例如1表示男2表示女,勾选则显示男或女否则显示1或2
5.设置缺失值表示在做统计时,将变量值等于该缺失值的记录当作无效记录处理。
6.度量标准
名义:无序分类变量,表示的变量值是离散的,一般用来代表某物的一个属性,不具有顺序和大小,例如性别
序号:有序分类变量,表示变量的值是离散的但是值之间有顺序关系,一般是用来定义等级差别的,例如满意度
度量:连续变量,表示变量的值通常是连续的,不仅可以进行排序而且还能进行加减,例如工资
二、常用操作
1.数据->选择个案
选择:默认选择全部个案,还可按条件或随机样本数选择
选择后的处理:默认在未被选择的个案序号上画斜线,后续统计时不统计该部分,也可将选定的个案复制到新的数据集,或者直接删除未选定个案(使用前建议保存原数据)
数据->加权个案,可选定变量作为频率变量
2.数据->拆分文件,不会生成新的文件,只在统计结果输出上有区别
默认是分析所有个案,结果不做拆分和分类
拆分文件并比较组:会按照分组变量一起输出结果
拆分文件并按组组织输出:会按照分组变量单独输出每个结果
例如按照性别对语文成绩进行描述统计,3种方式的输出结果如下图所示
数据->合并文件->添加个案,即添加记录
数据->合并文件->添加变量,即添加变量
3.转换->替换缺失值
默认使用序列的均值进行替换,也可使用线性插值法和点处的线性趋势进行替换
也可使用临近点的均值和临近点的中位数来进行替换缺失值,这两种方法需要指定临近点的个数
4.分类汇总,会生成新的列
分组变量:即分类依据的变量
变量摘要:即分类后对哪些变量进行汇总,汇总函数默认为均值,名称为变量名称_mean,可自行选择汇总函数和汇总产生的列名称
5.数据统计
转换->计算变量,会生成新的列
可对多个变量进行统计,例如统计多门学科的均值、各种类型工资的总和
转换->对个案内的值计数,会生成新的列
统计指定变量满足条件的变量个数
6.重新编码
转换->重新编码为不同变量,会生成新的列
对指定变量按照值的范围划分为不同的等级,例如将成绩为60分以下的划为不合格90分以上的划为优秀
转换->重新编码为相同变量,与重新编码为不同变量类似,但是不会生成新的列,而是直接替换原变量的值
转换->自动重新编码,系统会自动进行范围划分和等级设定
三、基本的统计分析
1.t检验
位置:分析->比较均值
作用:比较两个平均数的差异是否显著
使用前提:主要用于样本含量较小(例如n < 30)、总体标准差σ未知的正态分布。当样本较小时,要求样本取自正态总体;做两样本均数比较时,要求两样本的总体方差相等。
单样本t检验:检验单样本均值与确定的总体均值是否存在显著性差异,例如检验2018年的平均工资与2015年的平均工资(已知值)的差异
独立样本t检验:检验两个独立的样本的均值是否存在显著性差异,例如检验男性平均工资与女性平均工资的差异
配对样本t检验:检验两个配对样本是否存在存在显著性差异,例如检验本次学生成绩与上次成绩的差异
2.方差分析,即F检验
位置:分析->非参数检验->旧对话框
作用:检验自变量对观测变量的显著影响
使用前提:数据总体呈正态分布,多组样本的方差要齐性,各个观测值相互独立
单因素方差分析:检验一个自变量对一个观测变量的显著影响,分析->比较均值->单因素ANOVA
LSD:最小显著差法,t检验的简单变形
Bonferroni:在LSD的基础上改进,比LSD更严格
Tukey:
双因素方差分析:检验两个自变量对一个观测变量的显著影响,分析->一般线性模型->单变量(指一个因变量) (一般模型选择默认的全因子,对比选择简单,两两比较选择自变量组别超过3的变量,选项估计均值选择overall、输出选择前3项)
多元方差分析:检验自变量对多个观测变量的显著影响,分析->一般线性模型->多变量
重复测量方差分析:例如测量饮酒在上午和下午对人的意识影响,分析->一般线性模型->重复度量
3.相关性分析
位置:分析->相关
作用:研究变量之间的相关关系
皮尔逊相关系数尽量要求样本数量大于30,而斯皮尔曼相关系数对样本数量无要求但精度没有皮尔逊系数高。
双变量:研究两个变量之间的相关性关系,例如研究各个市的专利数量与GDP的相关关系
偏相关:研究变量的控制变量在一定情况下变量的相关性关系,例如高校数量可能影响专利数量和GDP,则在将高校数量作为控制变量的基础上对专利和GDP进行相关性分析
距离:研究多个变量之间的距离,例如各个国家的资源的差距。
4.回归分析
回归分析是相关性分析更具体的分析。
步骤:1提出回归模型假设,即获取样本,确定自变量和因变量
2.获取数据建立回归方程
3.确定回归方程
4.回归方程检验,包括回归方程的显著性、回归方程的拟合度检验、回归系数的显著性检验
5.关联分析
包括关联规则挖掘和序列模式挖掘,
作用:在数据中挖掘重复出现概率很高的模式或规则。
6.非参数检验
适用于小样本、或样本分布不满足正态分布、样本来自不同总体的检验;如果样本满足参数检验的条件,应优先使用参数检验。
检验效能低,这是由于对样本数据要求低
没有充分利用数据的全部信息,例如符号检验只考虑到成对数据的正负数量情况,而不考虑数据的大小
无法处理变量之间的交互作用
正态分布检验
分析->非参数检验->旧对话框-> 1-样本 K-S
分析->描述统计->探索,在绘制选项里勾选待检验的正态图