IBM SPSS Modeler 帮助 > 建模节点
筛选模型
目录
? ? ? ? ? ? ?
筛选字段和记录 特征选择节点 特征选择模型块 异常检测节点 异常检测模型块
IBM SPSS Modeler 帮助 > 建模节点 > 筛选模型
上一个
?
筛选字段和记录
? 分析的预备阶段中可以使用多个建模节点来查找对建模最有用的字段和记录。可使用特征选择节点来按照重要性筛选字段并为之排序,以及使用异常检测节点来查找不符合“正常”数据已知模式的异常记录。
“特征选择”节点会根据某组条件(例如缺失值百分比)筛选可删除的输入字段;对于保留的输入,将相对于指定目标对其重要性进行排序。例如,假如某个给定数据集有上千个潜在输入,那么哪些输
入最有可能用于对患者结果进行建模呢? 请参阅 主题 特征选择节点 详细信息。
“异常检测”节点确定不符合“正常”数据格式的异常观测值(离群值)。即使离群值不匹配任何已知格式或用户不清楚自己的查找对象,也可以使用此节点来确定离群值。 请参阅 主题 异常检测节点 详细信息。
? 注意:异常检测并不考虑任何特定的目标(相关)字段,也不考虑这些字段是否与正在预测的模式相关,只是通过基于模型中所选字段集的聚类分析确定异常记录或观测值。由于上述原因,您可能想将异常检测与特征选择或字段筛选和排序的其他方法结合使用。例如,您可以使用特征选择来确定与某个特定目标相关的最重要的字段,然后使用异常检测寻找针对这些字段而言最异常的记录。(另外一个方法是构建一个决策树模型,然后将所有错误分类的记录视为可能的异常进行检查。但是此方法很难用于进行大批量的复制和自动化。)
1 / 14
?
相关主题
? ? ? ? ? ?
异常检测节点 神经网络节点 统计模型 聚类模型 关联规则
时间序列建模节点
? ? ?
? Copyright Integral Solutions Limited 1994, 2010
IBM SPSS Modeler 帮助 > 建模节点 > 筛选模型
上一个
?
特征选择节点
? 数据挖掘问题可能包括成百甚至上千个可用作输入的备选字段。从而花费大量的时间和精力来检查模型究竟应该包含哪些字段或变量。为了缩小选择范围,可以使用特征选择算法来识别对某给定分析最为重要的字段。例如,如果你试着根据多种因素来预测患者结果,那么哪些因素最为重要呢?
? ?
特征选择由以下三个步骤组成:
? 筛选。删除不重要或有问题的输入、记录或个案(例如输入字段含有过多缺失值,或者输入字段的变异太大或太少而变得无用)。
? ? ?
? 秩。对剩余输入进行排序并根据重要性进行分级。
? 选择。识别在后续模型中使用的功能子集,例如通过仅保留最重要的输入,过滤或排除所有其它输入。 当下,许多组织的数据均已超载,因此简化和加快建模过程是特征选择的根本优势。通过将注意力迅速集中到最重要的字段上,可以降低所需的计算量,并且可以方便地找到因某种原因被忽略的小而重要的关系,最终获得更简单、精确和易于解释的模型。通过减少模型中的字段数量,可以减少评分时间以及未来迭代中所收集的数据量。
? ?
减少字段数量特别有利于 Logistic 回归这样的模型(字段数量限制在 350 个)。
示例。 有个电话公司拥有一个数据仓库,该数据仓库包含 5000 名公司客户对某次促销活动的响应的信息。数据包含有客户年龄、职业、收入、电话使用情况的统计数据等大量数据。三个目标字段表示客户是否对三个报价做出响应。该公司想利用这些数据来预测哪些客户最可能在将来对类似报价做出响应。
? 要求。单个目标字段(其角色设置为目标),以及要根据目标进行筛选或排序的多个输入字段。目标和输入字段均具有连续(数值范围)或分类的测量级别。
2 / 14
?
相关主题
? ? ? ? ? ?
特征选择模型设置 特征选择选项 特征选择模型块 特征选择模型结果 按照重要性选择字段
从特征选择模型中生成过滤器
? ? ?
? Copyright Integral Solutions Limited 1994, 2010
IBM SPSS Modeler 帮助 > 建模节点 > 筛选模型 > 特征选择节点
上一个
?
特征选择模型设置
? ? ?
“模型”选项卡上的设置含有标准模型选项以及用于调整输入字段筛选条件的设置选项。
特征选择的“模型”选项卡
?
3 / 14