小编典典

从网页中提取链接

java

使用Java,如何从给定的网页中提取所有链接?


阅读 211

收藏
2020-09-18

共1个答案

小编典典

将Java文件下载为纯文本/ html格式,并通过Jsouphtml clean传递,两者相似,甚至可以用于解析格式错误的html 4.0语法,然后可以使用流行的HTML
DOM解析方法,例如getElementsByName(“ a”)或在jsoup中它甚至很酷,您只需使用

File input = new File("/tmp/input.html");
 Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Elements links = doc.select("a[href]"); // a with href
Elements pngs = doc.select("img[src$=.png]");
// img with src ending .png

Element masthead = doc.select("div.masthead").first();

并找到所有链接,然后使用

String linkhref=links.attr("href");

取自http://jsoup.org/cookbook/extracting-data/selector-
syntax

选择器具有与jQuery您知道jQuery函数链相同的语法,那么您一定会喜欢它。

编辑:如果您想要更多的教程,您可以尝试一下由mkyong制作的教程。

http://www.mkyong.com/java/jsoup-html-parser-hello-world-
examples/

2020-09-18