使用Java,如何从给定的网页中提取所有链接?
将Java文件下载为纯文本/ html格式,并通过Jsoup或 html clean传递,两者相似,甚至可以用于解析格式错误的html 4.0语法,然后可以使用流行的HTML DOM解析方法,例如getElementsByName(“ a”)或在jsoup中它甚至很酷,您只需使用
File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); Elements links = doc.select("a[href]"); // a with href Elements pngs = doc.select("img[src$=.png]"); // img with src ending .png Element masthead = doc.select("div.masthead").first();
并找到所有链接,然后使用
String linkhref=links.attr("href");
取自http://jsoup.org/cookbook/extracting-data/selector- syntax
选择器具有与jQuery您知道jQuery函数链相同的语法,那么您一定会喜欢它。
jQuery
编辑:如果您想要更多的教程,您可以尝试一下由mkyong制作的教程。
http://www.mkyong.com/java/jsoup-html-parser-hello-world- examples/