spss基本使用

整个spss界面分为数据视图、变量视图和输出文档。

一、关于变量

1.变量名称不可重复；变量中的英文字母不区分大小写；变量中不能出现空格、括号、逗号等特殊字符；不可使用保留字

2.变量类型常用的有数值、日期和字符串

3.标签是对变量名称的解释说明，一般变量名称越简洁越好，而标签可对变量对名称做详细解释

4.值一般在该变量有有限个值的情况下使用，例如性别用1表示男2表示女，满意度用1-5不同级别的数值表示。

设置值之后，如果数据视图的视图->值标签勾选，对应的值会显示为值对应的标签，不勾选则显示值，例如1表示男2表示女，勾选则显示男或女否则显示1或2

5.设置缺失值表示在做统计时，将变量值等于该缺失值的记录当作无效记录处理。

6.度量标准

名义：无序分类变量，表示的变量值是离散的，一般用来代表某物的一个属性，不具有顺序和大小，例如性别
序号：有序分类变量，表示变量的值是离散的但是值之间有顺序关系，一般是用来定义等级差别的，例如满意度
度量：连续变量，表示变量的值通常是连续的，不仅可以进行排序而且还能进行加减，例如工资

二、常用操作

1.数据->选择个案

选择：默认选择全部个案，还可按条件或随机样本数选择

选择后的处理：默认在未被选择的个案序号上画斜线，后续统计时不统计该部分，也可将选定的个案复制到新的数据集，或者直接删除未选定个案（使用前建议保存原数据）

数据->加权个案，可选定变量作为频率变量

2.数据->拆分文件，不会生成新的文件，只在统计结果输出上有区别

默认是分析所有个案，结果不做拆分和分类

拆分文件并比较组：会按照分组变量一起输出结果

拆分文件并按组组织输出：会按照分组变量单独输出每个结果

例如按照性别对语文成绩进行描述统计，3种方式的输出结果如下图所示

数据->合并文件->添加个案，即添加记录

数据->合并文件->添加变量，即添加变量

3.转换->替换缺失值

默认使用序列的均值进行替换，也可使用线性插值法和点处的线性趋势进行替换

也可使用临近点的均值和临近点的中位数来进行替换缺失值，这两种方法需要指定临近点的个数

4.分类汇总，会生成新的列

分组变量：即分类依据的变量

变量摘要：即分类后对哪些变量进行汇总，汇总函数默认为均值，名称为变量名称_mean，可自行选择汇总函数和汇总产生的列名称

5.数据统计

转换->计算变量，会生成新的列

可对多个变量进行统计，例如统计多门学科的均值、各种类型工资的总和

转换->对个案内的值计数，会生成新的列

统计指定变量满足条件的变量个数

6.重新编码

转换->重新编码为不同变量，会生成新的列

对指定变量按照值的范围划分为不同的等级，例如将成绩为60分以下的划为不合格90分以上的划为优秀

转换->重新编码为相同变量，与重新编码为不同变量类似，但是不会生成新的列，而是直接替换原变量的值

转换->自动重新编码，系统会自动进行范围划分和等级设定

三、基本的统计分析

1.t检验

位置：分析->比较均值

作用：比较两个平均数的差异是否显著

使用前提：主要用于样本含量较小(例如n < 30)、总体标准差σ未知的正态分布。当样本较小时，要求样本取自正态总体；做两样本均数比较时，要求两样本的总体方差相等。

单样本t检验：检验单样本均值与确定的总体均值是否存在显著性差异，例如检验2018年的平均工资与2015年的平均工资（已知值）的差异

独立样本t检验：检验两个独立的样本的均值是否存在显著性差异，例如检验男性平均工资与女性平均工资的差异

配对样本t检验：检验两个配对样本是否存在存在显著性差异，例如检验本次学生成绩与上次成绩的差异

2.方差分析，即F检验

位置：分析->非参数检验->旧对话框

作用：检验自变量对观测变量的显著影响

使用前提：数据总体呈正态分布，多组样本的方差要齐性，各个观测值相互独立

单因素方差分析：检验一个自变量对一个观测变量的显著影响，分析->比较均值->单因素ANOVA

LSD：最小显著差法，t检验的简单变形
Bonferroni：在LSD的基础上改进，比LSD更严格
Tukey：

双因素方差分析：检验两个自变量对一个观测变量的显著影响，分析->一般线性模型->单变量(指一个因变量) （一般模型选择默认的全因子，对比选择简单，两两比较选择自变量组别超过3的变量，选项估计均值选择overall、输出选择前3项）

多元方差分析：检验自变量对多个观测变量的显著影响，分析->一般线性模型->多变量

重复测量方差分析：例如测量饮酒在上午和下午对人的意识影响，分析->一般线性模型->重复度量

3.相关性分析

位置：分析->相关

作用：研究变量之间的相关关系

皮尔逊相关系数尽量要求样本数量大于30，而斯皮尔曼相关系数对样本数量无要求但精度没有皮尔逊系数高。

双变量：研究两个变量之间的相关性关系，例如研究各个市的专利数量与GDP的相关关系

偏相关：研究变量的控制变量在一定情况下变量的相关性关系，例如高校数量可能影响专利数量和GDP，则在将高校数量作为控制变量的基础上对专利和GDP进行相关性分析

距离：研究多个变量之间的距离，例如各个国家的资源的差距。

4.回归分析

回归分析是相关性分析更具体的分析。

步骤：1提出回归模型假设，即获取样本，确定自变量和因变量

2.获取数据建立回归方程

3.确定回归方程

4.回归方程检验，包括回归方程的显著性、回归方程的拟合度检验、回归系数的显著性检验

5.关联分析

包括关联规则挖掘和序列模式挖掘，

作用：在数据中挖掘重复出现概率很高的模式或规则。

6.非参数检验

适用于小样本、或样本分布不满足正态分布、样本来自不同总体的检验；如果样本满足参数检验的条件，应优先使用参数检验。

检验效能低，这是由于对样本数据要求低
没有充分利用数据的全部信息，例如符号检验只考虑到成对数据的正负数量情况，而不考虑数据的大小
无法处理变量之间的交互作用

正态分布检验

分析->非参数检验->旧对话框-> 1-样本 K-S

分析->描述统计->探索，在绘制选项里勾选待检验的正态图

spss基本使用

一、关于变量