小编典典

使用Java获取页面的上次修改日期

java

有什么标准的方法可以告诉您页面的最后修改时间?目前,我正在这样做:

URLConnection uCon = url.openConnection();
uCon.setConnectTimeout(5000);   // 5 seconds
String lastMod = uCon.getHeaderField("Last-Modified");
System.out.println("last mod: "+lastMod);

但是,看起来有些站点没有Last-Modified字段。

http://www.cbc.ca具有以下标头字段:

X-Origin-Server
Connection
Expires
null
Date
Server
Content-Type
Transfer-Encoding
Cache-Control

我可以解析页面以尝试获取其日期,但这似乎是一个很大的痛苦。标准是什么?

(如果可能的话,我想坚持使用URLConnection,因为那是我用来下载网页的方法)


阅读 352

收藏
2020-11-26

共1个答案

小编典典

没有标准。动态生成的网页通常没有“ Last-
Modified”字段,并且不同的网页以不同的方式包含日期。某些站点甚至不包含这样的日期,在底部包括“©<当前年份>”。您可以尝试在底部或顶部附近寻找一个日期,但是要
可靠地 从网页中提取日期必须是特定于站点的。

2020-11-26