我要在页面https://www.reddit.com/search?q=Expiration&type=link&sort=new上抓取所有问题的链接和标题。元素具有以下结构:
<a data-click-id="body" class="SQnoC3ObvgnGjWt90zD9Z" href="/r/excel/comments/ayiahc/calculating_expiration_dates_previous_solution_no/"> <h2 class="s1okktje-0 cDxKta"> <span style="font-weight:normal">Calculating Expiration Dates - Previous Solution No Longer Works</span> </h2> </a>
我questions = driver.find_elements_by_xpath('//a[@data-click- id="body"]')习惯于获取问题,然后通过进行迭代for。我很高兴使用它question.get_attribute('href')来获取链接。
questions = driver.find_elements_by_xpath('//a[@data-click- id="body"]')
for
question.get_attribute('href')
不过,我不知道如何提取里面的标题span(从question)。
span
question
有谁知道如何做到这一点?
请尝试以下。
question.find_element_by_tag_name('span').text
或简单地
question.text