有人可以概述可用的各种Hadoop发行版之间的各种差异吗?
以Apache Hadoop发行版为基准。
是否有 充分的理由 在标准Apache Hadoop发行版上使用这些发行版之一?
免责声明:我今年夏天在Cloudera实习(但我最好的朋友在Yahoo! :-))
Yahoo发行版是Hadoop 20的一个版本,它们在集群的某些子集上运行(运行?)。它包括一组用于稳定性,错误修复等的补丁程序。它没有rpm或debian软件包等易于管理的功能。
Cloudera发行版以rpm和debs的形式打包(也提供源)。这意味着您可以通过标准方法等获取更新。它还包括稳定性和错误修复补丁。它一直在维护(不是说Yahoo不是- 我想一个人可以在github上检查一下他们上一次更新的时间)。它还包装Pig和Hive。
Cloudera的Hadoop 20发行版处于beta版本,而18则被认为是稳定的(有关更多信息,请访问Cloudera博客)。18版还包括Hive和Pig的软件包;对于20版本,您必须自己构建它们(尽管存在补丁,但还没有支持20版本的Pig或Hive的正式版本)。Cloudera和Yahoo 20版本之间可能存在重大重叠;两者都提供清单,因此您可以检查。有关Cloudera发行版的最新文档,请访问http://archive.cloudera.com。
雅虎不为其发布提供支持;他们为社区提供服务以提供补丁程序版本,因此有兴趣的人们可以构建Yahoo在内部运行的内容。考虑到Yahoo集群的规模,这是一个巨大的贡献,特别是如果您不是一直遵循JIRA的Hadoop开发人员。Cloudera支持其商业发行,并通过Hadoop邮件列表提供社区支持,以及针对发行版特定问题的GetSatisfaction页面。
两者都与原始Apache发行版有很大不同,因为它们在发行版之间进行了修补(cloudera版本20有60多个补丁!)。