commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。
Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于 org.commoncrawl.samples) 用来配置 InputFormat。