数据预测统计分析产品-IBM-SPSS-Statistics-实例应用讲解 下载本文

IBM SPSS Statistics 是目前世界上主流的数据预测统计分析软件之一,本文从 IBM SPSS Statistics 的基本概念入手,对其在数据分析流程中的各个应用进行了简单介绍,通过针对一个实际问题的分析,并结合典型算法,介绍使用 IBM SPSS Statistics 进行数据分析的基本流程。读者可以在较短时间内了解如何使用 IBM SPSS Statistics 进行建模及数据预测分析。

IBM SPSS Statistics 简介及基本概念介绍

SPSS Statistics 统计分析预测软件是一款在调查统计行业,市场研究,医学统计,政府和企业的数据分析应用中久享盛名的统计分析工具,是世界上最早的统计分析软件,全球约有 28 万家产品用户,他们分布于通讯,医疗,银行,证券,保险,制造,商业,市场研究,科研教育等多个领域和行业,是目前世界上应用最广泛的专业数据预测统计分析软件。在 2009 年 IBM 收购 SPSS 公司之后,IBM SPSS Statistics 成为 IBM 商业智能分析优化解决方案的重要组成部分,最新的发布版本是 19.0 多国语言版。

基本概念

典型的 IBM SPSS Statistics 数据编辑器界面如下:

图 1 IBM SPSS Statistics 数据编辑器界面 ?

变量视图:变量视图用于管理变量的属性,包括变量名称,类型,标签,缺失值,度量标准等 10 个属性。

?

数据视图:数据视图用于管理录入的数据,一行表示一条记录在不同变量下的值,一列表示相同的变量在不同记录中的值。

图 2 变量类型定义界面

?

变量类型:IBM SPSS Statistics 主要包括 3 种类型,分别是:数值型,字符型和日期型,根据不同的显示方式,数值型又被细分为 6 种,为了便于统计计算,通常尽可能将变量类型定义为数值型的。

?

度量标准:在 IBM SPSS Statistics 中,按照对事物描述的精确程度,可以将变量分为 3 种度量标准,度量(Scale),名义(Nominal),序号(Ordinal),因为不同的变量度量标准适用不同的统计模型,因此正确定义一个变量的度量标准很重要。

?

度量(Scale)变量:通常也称为连续变量,表示变量的值通常是连续的,无界限的,如员工收入,企业销售额等。

?

名义(Nominal)变量:通常也称为无序分类变量,表示变量的值是离散的,相对有限个数的,通常变量值的个数不超过 10 个,但值之间没有顺序关系的,如性别。

?

序号(Ordinal)变量:通常也称为有序分类变量,表示变量的值是离散的,相对有限个数的,但值之间是有顺序关系的,如教育水平取值有:1 — 8 年,2 — 10 年,3 — 15 年,这些值之间存在顺序大小关系。

图 3 变量值标签定义界面

?

变量值标签:在 IBM SPSS Statistics 中,可以对分类变量进一步说明每一个值的具体意义或者标签值,然后在数据视图中,可以通过菜单:视图 -> 值标签,来切换显示变量的值,或者值的具体标签意义。

图 4 缺失值定义界面

?

缺失值:在一个大型调查中,可能有一些选项为不知道或者拒答,这就需要把这个值定义为缺失值,或者一些数据录入时发生丢失,就默认定义为系统缺失值。

数据分析方法论介绍

任何一个数据分析预测项目,按照整个分析过程的结构来看,都可以大致分解成 7 个阶段:计划阶段,数据收集,数据获取,数据准备,数据分析,结果报告,和模型发布预测阶段。 计划阶段

在该阶段需要弄清楚以下几个问题,以减少盲目的分析避免资源浪费:

? ? ? ? ? ? ? ?

确定研究问题 建立项目预算

确定研究范围及确定研究总体和个体 确定样本的抽取方法 分析评估所需样本量 确定数据的收集方式 确定与研究问题相关的数据 确定研究问题的分析方法和分析工具

数据收集阶段

如果已有现成数据则可以不必再进行数据收集,数据收集的方式有很多种,可以是电话访问,可以是面谈收集,也可以是拦截式访问,如果是从头进行数据收集,需要有一份标准的问卷,问题设计不仅要相关,还要能够从中得出有意义的结论。 数据获取阶段

该阶段的目的是将分散的,原始格式不同的数据读入分析工具中,使分析工具可以对数据进行分析。 数据准备阶段 该阶段的主要任务是:

? ? ? ?

清理数据以保证数据的准确性

对数据进行必要的转换,如生成新变量,将连续变量离散化,将字符变量数值化等 填充缺失数据

对数据进行合并,汇总等

数据分析阶段

利用各种数据分析方法对数据进行分析,得出结论,该阶段又可分为:

?

预分析:包括概括性统计描述和探索性统计描述推断两部分,前者是使用统计图和统计表对数据进行更好的理解,而后者则基于对数据的理解开始尝试进行分析,以寻找最终分析模型的雏形。

?

精确分析:基于上一步得到的各种信息,开始尝试拟合最佳的统计模型,以寻求对数据中所蕴含信息的最合理解释。

结果报告阶段

结果报告的目的是将整个数据分析项目的结果以图,表,文字的形式表达出来,使得决策者能够快速理解,基于此分析结果做出决策。 模型发布预测阶段

结果报告仅仅是对基于历史数据所建立的模型加以阐述,当需要利用该模型进行预测时,具体做法可以是在分析软件中加以预测,也可以将生成的模型编译成单独的模块,整合到应用平台中。 IBM SPSS 系列产品线对数据分析流程的支持

IBM SPSS 系列产品线对数据分析的各个阶段均有相应的产品支持,例如在计划阶段可以用 IBM SPSS Statistics 中的 Complex Sample 模块设定样本抽取计划;在数据收集阶段可以用 IBM SPSS Data Collection 产品来进行调查问卷设计和数据收集;在数据获取阶段,IBM SPSS

Statistics 可以通过 ODBC 读写绝大多数业界常用的数据库,或者使用文件合并,文件重构等操作对数据进行整合;在数据准备阶段可以用 IBM SPSS Statistics 中的 Statistics Base,Missing Values,Prepare Data for Model 等模块来进行必要的整理和修补;数据分析阶段是 IBM SPSS Statistics 的核心功能,包含很多业界通用和最新的统计模型;而 IBM SPSS Statistics 同样提供清晰明了的统计图,统计表来很好的支持结果报告阶段的需求;在模型发布预测阶段,IBM SPSS Statistics 的评分向导功能提供了用已知模型进行预测的功能。总之,以上提到的各个阶段均可以在 IBM SPSS 系列产品线中获得支持,而 IBM SPSS Statistics 作为一个核心平台,在整个数据分析,解决方案实施中起着关键作用。

IBM SPSS Statistics 实例应用分析