我想从下面的网站获取内容。如果我使用Firefox或Chrome之类的浏览器,则可以获取所需的真实网站页面,但是如果我使用Python请求包(或wget命令)来获取它,它将返回完全不同的HTML页面。我以为网站的开发人员为此做了一些阻碍,所以问题是:
wget
如何使用python请求或命令wget伪造浏览器访问?
提供User-Agent标题:
User-Agent
import requests url = 'http://www.ichangtou.com/#company:data_000008.html' headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'} response = requests.get(url, headers=headers) print(response.content)
假用户代理
最新的简单useragent伪造者与真实世界数据库
演示:
>>> from fake_useragent import UserAgent >>> ua = UserAgent() >>> ua.chrome u'Mozilla/5.0 (Windows NT 6.2; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1667.0 Safari/537.36' >>> ua.random u'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36'