首先,感谢您阅读我的信息,如果您能提供任何帮助我解决此问题的线索,也非常感谢。
由于我是Scikit学习的新手,请毫不犹豫地提供任何可以帮助我改进过程并使之更加专业的建议。
我的目标是对两个类别之间的数据进行分类。我想找到一个可以给我最精确结果的解决方案。目前,我仍在寻找最合适的算法和数据预处理。
在我的数据中,我有24个值:13个为名义值,6个为二值化值,其他为连续值。这是一条线的例子
“ RENAULT”;“ CLIO III”;“ CLIO III(2005-2010)”;“柴油”; 2010;“ HOM”;“ _ AAA”;“ _ BBB”;“ _ CC”; 0; 668.77; 3;“ Fevrier” ;“ _ DDD”; 0; 0; 0; 1; 0; 0; 0; 0; 0; 0; 247.97
我有大约90万条线需要学习,而我的测试则超过10万条线
当我想比较几种算法实现时,我想对所有标称值进行编码,以便可以在多个分类器中使用。
我尝试了几件事:
我查看了文档,并在“预处理和特征提取”页面上找到了这些信息。
我想要一种对所有标称值进行编码的方法,这样它们就不会被视为有序的。此解决方案可以应用于类别很多且资源薄弱的大型数据集。
有什么我没探索过的方法可以满足我的需求吗?
感谢您提供任何线索和建议。
要转换无序的分类功能,你可以尝试get_dummies在pandas,更多的细节可以参考它的文档。另一种方法是使用catboost,它可以直接处理分类特征,而无需将其转换为数字类型。