如何解析包含隐藏标签的HTML页面

小编典典

python

我正在尝试解析某些网页以供将来使用。为了解析网页，我使用了urllib，lxml，BeautifulSoup，HTMLParser等不同的模块来实现我的目标。

在解析网页时，我没有遇到任何问题，直到遇到隐藏标签为止。

当我使用Chrome浏览器打开页面并使用开发人员工具查看页面元素时，我能够看到<embed>部分代码：

 <embed type="..." src="..." ID="..." >

并且只需手动复制/粘贴即可。

我需要ID从这个隐藏标签中进行解析。为什么我可以使用python从网站解析此部分？有什么办法解析这些隐藏的部分吗？

我知道不可能在html源代码中看到诸如php和asp之类的一些代码部分，但我想事实并非如此。

阅读 259

2021-01-20

共1个答案

小编典典

此“隐藏”代码可能是由JavaScript在运行时生成的。

与尝试让某些内容运行脚本然后解析最终的DOM树相比，发现JavaScript的工作方式以及从何处获取数据（URL）的运气更好。

2021-01-20