我想抓取无限滚动实现的页面的所有数据。以下python代码有效。
for i in range(100): driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") time.sleep(5)
这意味着每次我向下滚动到底部时,我都需要等待5秒,这通常足以使页面完成加载新生成的内容。但是,这可能不是省时的。该页面可能会在5秒内完成新内容的加载。每次向下滚动时,如何检测页面是否完成了新内容的加载?如果可以检测到此情况,知道页面完成加载后,可以再次向下滚动以查看更多内容。这样更省时。
该webdriver会通过等待页面加载默认.get()的方法。
webdriver
.get()
正如您在寻找@ user227215所说的某些特定元素一样,您应该使用它WebDriverWait来等待页面中的某个元素:
WebDriverWait
from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By from selenium.common.exceptions import TimeoutException browser = webdriver.Firefox() browser.get("url") delay = 3 # seconds try: myElem = WebDriverWait(browser, delay).until(EC.presence_of_element_located((By.ID, 'IdOfMyElement'))) print "Page is ready!" except TimeoutException: print "Loading took too much time!"
我用它来检查警报。您可以使用任何其他类型的方法来查找定位器。
编辑1:
我应该提到,webdriver默认情况下,会等待页面加载。它不等待加载内部框架或ajax请求。这意味着当您使用时.get('url'),浏览器将等待页面完全加载完毕,然后转到代码中的下一个命令。但是,当您发布ajax请求时,webdriver不要等待,您有责任等待适当的时间以加载页面或页面的一部分;因此有一个名为的模块expected_conditions。
.get('url')
expected_conditions