数据预测统计分析产品-IBM-SPSS-Statistics-实例应用讲解-南京廖华答案网

数据预测统计分析产品-IBM-SPSS-Statistics-实例应用讲解下载本文

IBM SPSS Statistics 是目前世界上主流的数据预测统计分析软件之一，本文从 IBM SPSS Statistics 的基本概念入手，对其在数据分析流程中的各个应用进行了简单介绍，通过针对一个实际问题的分析，并结合典型算法，介绍使用 IBM SPSS Statistics 进行数据分析的基本流程。读者可以在较短时间内了解如何使用 IBM SPSS Statistics 进行建模及数据预测分析。

IBM SPSS Statistics 简介及基本概念介绍

SPSS Statistics 统计分析预测软件是一款在调查统计行业，市场研究，医学统计，政府和企业的数据分析应用中久享盛名的统计分析工具，是世界上最早的统计分析软件，全球约有 28 万家产品用户，他们分布于通讯，医疗，银行，证券，保险，制造，商业，市场研究，科研教育等多个领域和行业，是目前世界上应用最广泛的专业数据预测统计分析软件。在 2009 年 IBM 收购 SPSS 公司之后，IBM SPSS Statistics 成为 IBM 商业智能分析优化解决方案的重要组成部分，最新的发布版本是 19.0 多国语言版。

基本概念

典型的 IBM SPSS Statistics 数据编辑器界面如下：

图 1 IBM SPSS Statistics 数据编辑器界面 ?

变量视图：变量视图用于管理变量的属性，包括变量名称，类型，标签，缺失值，度量标准等 10 个属性。

数据视图：数据视图用于管理录入的数据，一行表示一条记录在不同变量下的值，一列表示相同的变量在不同记录中的值。

图 2 变量类型定义界面

变量类型：IBM SPSS Statistics 主要包括 3 种类型，分别是：数值型，字符型和日期型，根据不同的显示方式，数值型又被细分为 6 种，为了便于统计计算，通常尽可能将变量类型定义为数值型的。

度量标准：在 IBM SPSS Statistics 中，按照对事物描述的精确程度，可以将变量分为 3 种度量标准，度量（Scale），名义（Nominal），序号（Ordinal），因为不同的变量度量标准适用不同的统计模型，因此正确定义一个变量的度量标准很重要。

度量（Scale）变量：通常也称为连续变量，表示变量的值通常是连续的，无界限的，如员工收入，企业销售额等。

名义（Nominal）变量：通常也称为无序分类变量，表示变量的值是离散的，相对有限个数的，通常变量值的个数不超过 10 个，但值之间没有顺序关系的，如性别。

序号（Ordinal）变量：通常也称为有序分类变量，表示变量的值是离散的，相对有限个数的，但值之间是有顺序关系的，如教育水平取值有：1 — 8 年，2 — 10 年，3 — 15 年，这些值之间存在顺序大小关系。

图 3 变量值标签定义界面

变量值标签：在 IBM SPSS Statistics 中，可以对分类变量进一步说明每一个值的具体意义或者标签值，然后在数据视图中，可以通过菜单：视图 -> 值标签，来切换显示变量的值，或者值的具体标签意义。

图 4 缺失值定义界面

缺失值：在一个大型调查中，可能有一些选项为不知道或者拒答，这就需要把这个值定义为缺失值，或者一些数据录入时发生丢失，就默认定义为系统缺失值。

数据分析方法论介绍

任何一个数据分析预测项目，按照整个分析过程的结构来看，都可以大致分解成 7 个阶段：计划阶段，数据收集，数据获取，数据准备，数据分析，结果报告，和模型发布预测阶段。计划阶段

在该阶段需要弄清楚以下几个问题，以减少盲目的分析避免资源浪费：

? ? ? ? ? ? ? ?

确定研究问题建立项目预算

确定研究范围及确定研究总体和个体确定样本的抽取方法分析评估所需样本量确定数据的收集方式确定与研究问题相关的数据确定研究问题的分析方法和分析工具

数据收集阶段

如果已有现成数据则可以不必再进行数据收集，数据收集的方式有很多种，可以是电话访问，可以是面谈收集，也可以是拦截式访问，如果是从头进行数据收集，需要有一份标准的问卷，问题设计不仅要相关，还要能够从中得出有意义的结论。数据获取阶段

该阶段的目的是将分散的，原始格式不同的数据读入分析工具中，使分析工具可以对数据进行分析。数据准备阶段该阶段的主要任务是：

? ? ? ?

清理数据以保证数据的准确性

对数据进行必要的转换，如生成新变量，将连续变量离散化，将字符变量数值化等填充缺失数据

对数据进行合并，汇总等

数据分析阶段

利用各种数据分析方法对数据进行分析，得出结论，该阶段又可分为：

预分析：包括概括性统计描述和探索性统计描述推断两部分，前者是使用统计图和统计表对数据进行更好的理解，而后者则基于对数据的理解开始尝试进行分析，以寻找最终分析模型的雏形。

精确分析：基于上一步得到的各种信息，开始尝试拟合最佳的统计模型，以寻求对数据中所蕴含信息的最合理解释。

结果报告阶段

结果报告的目的是将整个数据分析项目的结果以图，表，文字的形式表达出来，使得决策者能够快速理解，基于此分析结果做出决策。模型发布预测阶段

结果报告仅仅是对基于历史数据所建立的模型加以阐述，当需要利用该模型进行预测时，具体做法可以是在分析软件中加以预测，也可以将生成的模型编译成单独的模块，整合到应用平台中。 IBM SPSS 系列产品线对数据分析流程的支持

IBM SPSS 系列产品线对数据分析的各个阶段均有相应的产品支持，例如在计划阶段可以用 IBM SPSS Statistics 中的 Complex Sample 模块设定样本抽取计划；在数据收集阶段可以用 IBM SPSS Data Collection 产品来进行调查问卷设计和数据收集；在数据获取阶段，IBM SPSS

Statistics 可以通过 ODBC 读写绝大多数业界常用的数据库，或者使用文件合并，文件重构等操作对数据进行整合；在数据准备阶段可以用 IBM SPSS Statistics 中的 Statistics Base，Missing Values，Prepare Data for Model 等模块来进行必要的整理和修补；数据分析阶段是 IBM SPSS Statistics 的核心功能，包含很多业界通用和最新的统计模型；而 IBM SPSS Statistics 同样提供清晰明了的统计图，统计表来很好的支持结果报告阶段的需求；在模型发布预测阶段，IBM SPSS Statistics 的评分向导功能提供了用已知模型进行预测的功能。总之，以上提到的各个阶段均可以在 IBM SPSS 系列产品线中获得支持，而 IBM SPSS Statistics 作为一个核心平台，在整个数据分析，解决方案实施中起着关键作用。

IBM SPSS Statistics 实例应用分析

Word文档下载：数据预测统计分析产品-IBM-SPSS-Statistics.doc

搜索更多:数据预测统计分析产品-IBM-SPSS-Statistics