我正在尝试在Hadoop流作业中包括一个python软件包(NLTK),但不确定如何通过CLI参数“ -file”手动不包括每个文件来执行此操作。
编辑:一种解决方案是在所有从站上安装此软件包,但是我目前没有该选项。
我会将软件包压缩为a.tar.gz或a,.zip然后将整个tarball或归档文件作为-file选项传递给hadoop命令。过去我是用Perl做到的,而Python却没有。
.tar.gz
.zip
-file
也就是说,如果你使用Python我认为这对你仍然工作zipimport在http://docs.python.org/library/zipimport.html,它允许你直接从ZIP导入模块。
zipimport