谷歌搜索网络抓取与python中的关键字列表

小编典典

谷歌搜索网络抓取与python中的关键字列表

selenium

我正在尝试通过使用名称列表作为输入来在Google搜索上进行网络抓取，并在DataFame中获取数据集。之前，我曾使用selenium进行Web抓取，但在
使用循环 构建 名称列表作为输入 来获取结果并抓取每个页面的语法时，我遇到了一段艰难的时期。这是我的Python代码如下：

baseUrl = 'https://www.google.com/search?q='
pluseUrl = input('CEO: ')    
url = baseUrl + quote_plus(pluseUrl)

browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")
browser.get(url)

table = browser.find_elements_by_css_selector('div.ifM9O')

df = pd.DataFrame(columns = ['ceo', 'value'])
values =[]


for row in table:
    ceo = str(([c.text for c in row.find_elements_by_css_selector('div.kno-ecr-pt.PZPZlf.gsmt.i8lZMc')])).strip('[]').strip("''")
    value = str(([c.text for c in row.find_elements_by_css_selector('div.Z1hOCe')])).strip('[]').strip("''")

ceo = pd.Series(ceo)
value = pd.Series(value)

df = df.assign(**{'ceo': ceo, 'value': value})


print(df)

这是将比尔·盖茨作为输入后的结果：

CEO: Bill gates
          ceo                                              value
0  Bill Gates  Born: October 28, 1955 (age 64 years), Seattle...

任何建议或建议将不胜感激。

阅读 382

2020-06-26

共1个答案

小编典典

试试这个：

baseUrl = 'https://www.google.com/search?q='
browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")
input_list = ["Bill Gates", "Elon Musk", "Warren Buffet"]
output = {}

def scrape_ceo_list(list_of_ceo):
     for ceo in list_of_ceo:
          browser.get(baseUrl + ceo)

          // query selectors, dataframes etc as per original code
          // ...

          output[ceo] = df

output 现在是一个数据帧字典，CEO名称作为字典键。

2020-06-26