我的Python代码处理了以下文本:
<td> <a href="http://www.linktosomewhere.net" title="title here">some link</a> <br /> some data 1<br /> some data 2<br /> some data 3</td>
您能建议我如何从内部提取数据<td>吗?我的想法是将其放入具有以下格式的CSV文件中:some link, some data 1, some data 2, some data 3。
<td>
some link, some data 1, some data 2, some data 3
我希望没有正则表达式会很困难,但实际上我仍然在反对正则表达式。
我或多或少地通过以下方式使用了代码:
tabulka = subpage.find("table") for row in tabulka.findAll('tr'): col = row.findAll('td') print col[0]
理想情况下是将每个td竞争以某个数组进行竞争。上面的HTML是python的结果。
获取BeautifulSoup并使用它。这很棒。
$> easy_install pip $> pip install BeautifulSoup $> python >>> from BeautifulSoup import BeautifulSoup as BS >>> import urllib2 >>> html = urllib2.urlopen(your_site_here) >>> soup = BS(html) >>> elem = soup.findAll('a', {'title': 'title here'}) >>> elem[0].text