我正在尝试解析某些网页以供将来使用。为了解析网页,我使用了urllib,lxml,BeautifulSoup,HTMLParser等不同的模块来实现我的目标。
在解析网页时,我没有遇到任何问题,直到遇到隐藏标签为止。
当我使用Chrome浏览器打开页面并使用开发人员工具查看页面元素时,我能够看到<embed>部分代码:
<embed>
<embed type="..." src="..." ID="..." >
并且只需手动复制/粘贴即可。
我需要ID从这个隐藏标签中进行解析。为什么我可以使用python从网站解析此部分?有什么办法解析这些隐藏的部分吗?
ID
我知道不可能在html源代码中看到诸如php和asp之类的一些代码部分,但我想事实并非如此。
此“隐藏”代码可能是由JavaScript在运行时生成的。
与尝试让某些内容运行脚本然后解析最终的DOM树相比,发现JavaScript的工作方式以及从何处获取数据(URL)的运气更好。