如何在Scrapy中绕过cloudflare bot / ddos保护？

小编典典

如何在Scrapy中绕过cloudflare bot / ddos保护？

scrapy

我以前偶尔会抓取电子商务网页以获取产品价格信息。我有一段时间没有使用过使用Scrapy构建的刮板，而昨天却试图使用它-我遇到了机器人防护问题。

它使用的是CloudFlare的DDOS保护，基本上是使用JavaScript评估来过滤掉禁用了JS的浏览器（因此是抓取器）。评估功能后，将生成带有计算数字的响应。作为回报，服务会发回两个身份验证Cookie，这些身份验证Cookie附加在每个请求上，可以正常爬网该站点。这是它如何工作的描述。

我还发现了一个使用Cloudflare-Scrape的 Python模块，该模块使用外部JS评估引擎来计算数量并将请求发送回服务器。我不确定如何将其集成到Scrapy中。还是有一种不使用JS执行的更聪明的方法？最后是表格…

阅读 1728

2020-04-09

共1个答案

小编典典

因此，我在cloudflare-scrape的帮助下使用Python执行了JavaScript 。

在你的抓取中，你需要添加以下代码：

def start_requests(self):
  for url in self.start_urls:
    token, agent = cfscrape.get_tokens(url, 'Your prefarable user agent, _optional_')
    yield Request(url=url, cookies=token, headers={'User-Agent': agent})

以及解析功能。就是这样！

当然，你需要先安装cloudflare-scrape并将其导入到Spider。你还需要安装JS执行引擎。我已经有了Node.JS，没有怨言。

2020-04-09

如何在Scrapy中绕过cloudflare bot / ddos​​保护？

共1个答案

如何在Scrapy中绕过cloudflare bot / ddos保护？