有什么标准的方法可以告诉您页面的最后修改时间?目前,我正在这样做:
URLConnection uCon = url.openConnection(); uCon.setConnectTimeout(5000); // 5 seconds String lastMod = uCon.getHeaderField("Last-Modified"); System.out.println("last mod: "+lastMod);
但是,看起来有些站点没有Last-Modified字段。
Last-Modified
http://www.cbc.ca具有以下标头字段:
X-Origin-Server Connection Expires null Date Server Content-Type Transfer-Encoding Cache-Control
我可以解析页面以尝试获取其日期,但这似乎是一个很大的痛苦。标准是什么?
(如果可能的话,我想坚持使用URLConnection,因为那是我用来下载网页的方法)
没有标准。动态生成的网页通常没有“ Last- Modified”字段,并且不同的网页以不同的方式包含日期。某些站点甚至不包含这样的日期,在底部包括“©<当前年份>”。您可以尝试在底部或顶部附近寻找一个日期,但是要 可靠地 从网页中提取日期必须是特定于站点的。