DataVec 是基于 Apache 2.0 许可的 ETL 机器学习(Extract,Transform,Load)操作库。 DataVec 的目的是将原始数据转换成可以馈送到机器学习算法的可用向量格式。
当前输入数据类型支持开箱即用:
CSV Data
Raw Text Data (Tweets, Text Documents, etc)
Image Data
LibSVM
SVMLight
MatLab (MAT) format
JSON, XML, YAML, XML