将Java文件下载为纯文本/ html格式,并通过Jsoup或 html clean传递,两者相似,甚至可以用于解析格式错误的html 4.0语法,然后可以使用流行的HTML
DOM解析方法,例如getElementsByName(“ a”)或在jsoup中它甚至很酷,您只需使用
File input = new File("/tmp/input.html"); document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");Elements links = doc.select("a[href]"); // a with hrefElements pngs = doc.select("img[src$=.png]");// img with src ending .pngElement masthead = doc.select("div.masthead").first();并找到所有链接,然后使用
String linkhref=links.attr("href");取自http://jsoup.org/cookbook/extracting-data/selector-
syntax
选择器具有与
jQuery您知道jQuery函数链相同的语法,那么您一定会喜欢它。
编辑:如果您想要更多的教程,您可以尝试一下由mkyong制作的教程。
http://www.mkyong.com/java/jsoup-html-parser-hello-world-
examples/



