缺失值的分类数据中的降维

小编典典

缺失值的分类数据中的降维

python

我有一个回归模型，其中因变量是连续的，但是90％的自变量是分类的（有序和无序），大约30％的记录具有缺失值（更糟糕的是，它们无规律地随机缺失，也就是说，超过百分之四十五的数据至少有一个缺失值）。没有先验理论来选择模型的规格，因此关键任务之一是在运行回归之前进行尺寸缩减。虽然我知道用于连续变量降维的几种方法，但我不知道关于分类数据的类似静态文献（也许，除了作为对应分析的一部分，这基本上是频率表上主成分分析的一种形式）。我还要补充一点，该数据集是具有200个变量的中等大小的500000个观察值。我有两个问题。

对于分类数据的降维以及稳健的插补，是否有很好的统计参考（我认为第一个问题是插补，然后是降维）？
这与上述问题的实现有关。我以前已经广泛使用R，并且倾向于将transcan和impute函数大量用于连续变量，并且使用树方法的变体来估算类别值。我对Python有一定的了解，因此，如果为此目的有不错的选择，那么我将使用它。python或R中的任何实现指针都会有很大帮助。谢谢。

阅读 279

2021-01-20

共1个答案

小编典典

关于归类数据，我建议检查小鼠包装。另外，请看一下此演示文稿，该演示文稿解释了它如何估算多元分类数据。不完整的多元数据的多重插补的另一个软件包是Amelia。阿米莉亚（Amelia）处理序数和名义变量的能力有限。

至于分类数据的降维（即一种将变量排列到同类聚类中的方法），我建议使用多重对应分析方法，该方法将为您提供最大化聚类同质性的潜在变量。与在主成分分析（PCA）和因子分析中所做的类似，MCA解决方案也可以旋转以增加组件的简便性。旋转背后的想法是找到变量的子集，这些子集与旋转的分量更清晰地重合。这意味着最大程度地简化组件可以帮助因素解释和变量聚类。R
MCA方法包含在ade4，MASS，FactoMineR和ca软件包中（至少）。至于FactoMineR，如果将它作为Rcmdr软件包已经建议的菜单中的附加菜单添加，则可以通过图形界面使用它，并安装RcmdrPlugin.FactoMineR

2021-01-20