使用中间件忽略Scrapy中的重复项

小编典典

使用中间件忽略Scrapy中的重复项

python

我是Python的新手，并且正在将Scrapy用于人员网络项目。

我使用Scrapy反复从多个网站提取数据，因此我需要在每次爬网时检查数据库中是否已存在链接，然后再添加它。我在piplines.py类中做到了这一点：

class DuplicatesPipline(object):
    def process_item(self, item, spider):
        if memc2.get(item['link']) is None:
            return item
        else:
            raise DropItem('Duplication %s', item['link'])

但是我听说使用中间件更好地完成此任务。

我发现在Scrapy中使用中间件有点困难，任何人都可以将我重定向到一个不错的教程。

欢迎咨询。

谢谢，

编辑：

我正在使用MySql和memcache。

这是我根据@Talvalin回答的尝试：

# -*- coding: utf-8 -*-

from scrapy.exceptions import IgnoreRequest
import MySQLdb as mdb
import memcache

connexion = mdb.connect('localhost','dev','passe','mydb')
memc2 = memcache.Client(['127.0.0.1:11211'], debug=1)

class IgnoreDuplicates():

    def __init__(self):
        #clear memcache object
        memc2.flush_all()

        #update memc2
        with connexion:
            cur = connexion.cursor()
            cur.execute('SELECT link, title FROM items')
            for item in cur.fetchall():
                memc2.set(item[0], item[1])

    def precess_request(self, request, spider):
        #if the url is not in memc2 keys, it returns None.
        if memc2.get(request.url) is None:
            return None
        else:
            raise IgnoreRequest()

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.IgnoreDuplicates': 543,
    'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 500, }

但是似乎在爬网时会忽略process_request方法。

提前致谢，

阅读 214

2021-01-20

共1个答案

小编典典

这是一些中间件示例代码，该代码将sqlite3表中的url加载(Id INT, url TEXT)到集合中，然后对照该集合检查请求url，以确定是否应忽略该url。修改此代码以使用MySQL和Memcache应该相当简单，但是如果您有任何问题或疑问，请告诉我。:)

import sqlite3
from scrapy.exceptions import IgnoreRequest

class IgnoreDuplicates():

    def __init__(self):
        self.crawled_urls = set()

        with sqlite3.connect('C:\dev\scrapy.db') as conn:
            cur = conn.cursor()
            cur.execute("""SELECT url FROM CrawledURLs""")
            self.crawled_urls.update(x[0] for x in cur.fetchall())

        print self.crawled_urls

    def process_request(self, request, spider):
        if request.url in self.crawled_urls:
            raise IgnoreRequest()
        else:
            return None

在不常见的情况下，您会遇到像我这样的导入问题并准备打您的显示器，上面的代码位于middlewares.py文件中，该文件位于具有以下DOWNLOADER_MIDDLEWARES设置的顶级项目文件夹中

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.IgnoreDuplicates': 543,
    'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 500,
}

2021-01-20