我可以使用Watir从不带监视器的Linux服务器上的网站(使用AJAX)上抓取数据吗?(linode.com)?
做这件事有很多种方法:
使用HtmlUnit或Celerity或watir-webdriver(通过远程Selenium2 / WebDriver服务器)。
使用真实的浏览器+虚拟X服务器(Xvfb)。我建议使用watir-webdriver的Firefox驱动程序和Headless gem,这是从Ruby控制它的简单方法。
这基本上是速度和现实之间的权衡。如果网站有任何复杂的JavaScript或无效的HTML,我个人将使用#2,但是两种方法都值得研究。
对于未来,我一直在关注这个项目,这看起来像一个很棒的主意。