【原创】定制代写开发r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代码数据), 咨询QQ:3025393450
有问题到百度搜索“大数据部落”就可以了 欢迎登陆官网:http://y0.cn/datablog
在R语言中进行缺失值填充:估算缺失值数据分析报告
介绍
缺失值被认为是预测建模的首要障碍。因此,掌握克服这些问题的方法很重要。 估算缺失值的方法的选择在很大程度上影响了模型的预测能力。在大多数统计分析方法中,按列表删除是用于估算缺失值的默认方法。但是,它不那么好,因为它会导致信息丢失。
您是否知道R具有用于遗漏价值估算的可靠软件包?
在本文中,我列出了5个R语言方法。
有关用于估算缺失值的5个强大R软件包的教程
链式方程进行的多元插补
通过链式方程进行的多元插补是R用户常用的。与单个插补(例如均值)相比,创建多个插补可解决缺失值的不确定性。
MICE假定丢失数据是随机(MAR)丢失,这意味着,一个值丢失概率上观测值仅取决于并且可以使用它们来预测。通过为每个变量指定插补模型,可以按变量插补数据。
【原创】定制代写开发r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代码数据), 咨询QQ:3025393450
有问题到百度搜索“大数据部落”就可以了 欢迎登陆官网:http://y0.cn/datablog
例如:假设我们有X1,X2….Xk变量。如果X1缺少值,那么它将在其他变量X2到Xk上回归。然后,将X1中的缺失值替换为获得的预测值。同样,如果X2缺少值,则X1,X3至Xk变量将在预测模型中用作自变量。稍后,缺失值将被替换为预测值。
默认情况下,线性回归用于预测连续缺失值。Logistic回归用于分类缺失值。一旦完成此循环,就会生成多个数据集。这些数据集仅在估算的缺失值上有所不同。通常,将这些数据集分别构建模型并组合其结果被认为是一个好习惯。 确切地说,此软件包使用的方法是: 1. PMM(预测均值匹配)–用于数字变量
2. logreg(逻辑回归)–对于二进制变量(具有2个级别) 3. polyreg(贝叶斯多元回归)–用于因子变量(> = 2级) 4. 比例赔率模型(有序,> = 2个级别) 现在让我们实际了解它。
> path <- \> setwd(path)
#load data > data <- iris
#Get summary > summary(iris)
#Generate 10% missing values at Random > iris.mis <- prodNA(iris, noNA = 0.1)
#Check missing values introduced in the data > summary(iris.mis)
【原创】定制代写开发r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代码数据), 咨询QQ:3025393450
有问题到百度搜索“大数据部落”就可以了 欢迎登陆官网:http://y0.cn/datablog
我删除了分类变量。让我们在这里关注连续值。要处理分类变量,只需对级别进行编码并按照以下步骤进行即可。
#删除类别变量
> iris.mis <- subset(iris.mis, select = -c(Species)) > summary(iris.mis)
md.pattern()的功能,它返回数据集中每个变量中存在的缺失值的表格形式。
> md.pattern(iris.mis)
让我们了解一下这张表。有98个观测值,没有缺失值。Sepal.Length中有10个观测值缺失的观测值。同样,Sepal.Width等还有13个缺失值。