我正在开发一个从网站上抓取数据的应用程序,我想知道应该如何获取数据。具体来说,我需要包含在使用特定CSS类的许多div标签中的数据-目前(出于测试目的)我只是在检查
div class = "classname"
在HTML的每一行中-都可以,但是我不禁感到有更好的解决方案。
有什么好方法可以给类添加一行HTML并提供一些好方法,例如:
boolean usesClass(String CSSClassname); String getText(); String getLink();
“ JTidy是HTML Tidy的Java端口,HTML Tidy是HTML语法检查器和漂亮的打印机。像其非Java表亲一样,JTidy可以用作清理格式错误的HTML的工具。此外,JTidy还提供了DOM接口。正在处理的文档,有效地使您能够将JTidy用作真实HTML的DOM解析器。
JTidy由Andy Quick撰写,后来他退出了维护者职位。现在,JTidy由一群志愿者维护。
在JTidy SourceForge项目页面上可以找到有关JTidy的更多信息。”