5. 数据集转换 4.1. 部分依赖图 5.2. 特征提取 5. 数据集转换 scikit-learn 提供了一个用于转换数据集的库, 它也许会 clean(清理)(请参阅 预处理数据), reduce(减少)(请参阅 无监督降维), expand(扩展)(请参阅 内核近似)或 generate(生成)(请参阅 特征提取) feature representations(特征表示). 像其它预估计一样, 它们由具有 fit 方法的类来表示, 该方法从训练集学习模型参数(例如, 归一化的平均值和标准偏差)以及transform 方法将该转换模型应用于不可见数据. 同时 fit_transform 可以更方便和有效地建模与转换训练数据. 将 Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器 中 transformers(转换)使用并行的或者串联的方式合并到一起. 成对的矩阵, 类别和核函数 涵盖将特征空间转换为 affinity matrices(亲和矩阵), 而 预测目标 (y) 的转换 考虑在 scikit-learn 中使用目标空间的转换(例如. 标签分类). 5.1. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器 5.1.1. Pipeline: 链式评估器 5.1.2. 回归中的目标转换 5.1.3. FeatureUnion(特征联合): 复合特征空间 5.1.4. 用于异构数据的列转换器 5.2. 特征提取 5.2.1. 从字典类型加载特征 5.2.2. 特征哈希(相当于一种降维技巧) 5.2.3. 文本特征提取 5.2.4. 图像特征提取 5.3 预处理数据 5.3.1 标准化,也称去均值和方差按比例缩放 5.3.2 非线性转换 5.3.3 归一化 5.3.4 类别特征编码 5.3.5 离散化 5.3.6 缺失值补全 5.3.7 生成多项式特征 5.3.8 自定义转换器 5.4 缺失值插补 5.4.1 单变量与多变量插补 5.4.2 单变量插补 5.4.3 多变量插补 5.4.4 参考 5.4.5 标记缺失值 5.5. 无监督降维 5.5.1. PCA: 主成份分析 5.5.2. 随机投影 5.5.3. 特征聚集 5.6. 随机投影 5.6.1. Johnson-Lindenstrauss 辅助定理 5.6.2. 高斯随机投影 5.6.3. 稀疏随机矩阵 5.7. 内核近似 5.7.1. 内核近似的 Nystroem 方法 5.7.2. 径向基函数内核 5.7.3. 加性卡方核 5.7.4. Skewed Chi Squared Kernel (偏斜卡方核?暂译) 5.7.5. 数学方面的细节 5.8. 成对的矩阵, 类别和核函数 5.8.1. 余弦相似度 5.8.2. 线性核函数 5.8.3. 多项式核函数 5.8.4. Sigmoid 核函数 5.8.5. RBF 核函数 5.8.6. 拉普拉斯核函数 5.8.7. 卡方核函数 5.9. 预测目标 (y) 的转换 5.9.1. 标签二值化 5.9.2. 标签编码 4.1. 部分依赖图 5.2. 特征提取