小编典典

如何在Hadoop流作业中包含python软件包?

python

我正在尝试在Hadoop流作业中包括一个python软件包(NLTK),但不确定如何通过CLI参数“ -file”手动不包括每个文件来执行此操作。

编辑:一种解决方案是在所有从站上安装此软件包,但是我目前没有该选项。


阅读 166

收藏
2020-12-20

共1个答案

小编典典

我会将软件包压缩为a.tar.gz或a,.zip然后将整个tarball或归档文件作为-file选项传递给hadoop命令。过去我是用Perl做到的,而Python却没有。

也就是说,如果你使用Python我认为这对你仍然工作zipimporthttp://docs.python.org/library/zipimport.html,它允许你直接从ZIP导入模块。

2020-12-20