Beanbun 是一个简单可扩展的爬虫框架,支持分布式,支持守护进程模式与普通模式,守护进程模式基于 Workerman,下载器基于 Guzzle。
Beanbun 可以通过 composer 进行安装。
$ composer require kiddyu/beanbun
创建一个文件 start.php,包含以下内容
<?php use Beanbun\Beanbun; $beanbun = new Beanbun; $beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', 'http://www.950d.com/list-2.html', ]; $beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page); }; $beanbun->start();
在命令行中执行
$ php start.php
接下来就可以看到抓取的日志了。
更多详细内容,请查看 文档