我需要用python抓取网站。我使用urlib模块获取了源html代码,但是我还需要抓取由javascript函数(包含在html源代码中)生成的html代码。该功能在站点中的作用是,当您按下按钮时,它会输出一些html代码。如何使用python代码“按”此按钮?可以帮助我吗?我用firebug捕获了POST请求,但是当我尝试在url上传递它时,出现403错误。有什么建议么?
在Python中,我认为Selenium 1.0是必经之路。它是一个库,可让您从选择的语言中控制真正的Web浏览器。
您需要在运行脚本的计算机上安装有问题的Web浏览器,但这似乎是通过编程方式查询使用大量JavaScript的网站的最可靠方法。