从网页中提取链接

小编典典

从网页中提取链接

java

使用Java，如何从给定的网页中提取所有链接？

阅读 211

2020-09-18

共1个答案

小编典典

将Java文件下载为纯文本/ html格式，并通过Jsoup或 html clean传递，两者相似，甚至可以用于解析格式错误的html 4.0语法，然后可以使用流行的HTML
DOM解析方法，例如getElementsByName（“ a”）或在jsoup中它甚至很酷，您只需使用

File input = new File("/tmp/input.html");
 Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Elements links = doc.select("a[href]"); // a with href
Elements pngs = doc.select("img[src$=.png]");
// img with src ending .png

Element masthead = doc.select("div.masthead").first();

并找到所有链接，然后使用

String linkhref=links.attr("href");

取自 http://jsoup.org/cookbook/extracting-data/selector-
syntax

选择器具有与jQuery您知道jQuery函数链相同的语法，那么您一定会喜欢它。

编辑：如果您想要更多的教程，您可以尝试一下由mkyong制作的教程。

http://www.mkyong.com/java/jsoup-html-parser-hello-world-
examples/

2020-09-18