我正在尝试使用带有URLConnection的Java解析网页。我尝试像这样设置用户代理:
java.net.URLConnection c = url.openConnection(); c.setRequestProperty("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2");
但是最终的用户代理是我指定的,最后附加了“ Java / 1.5.0_19”。有没有一种方法可以在没有此添加的情况下真正设置用户代理?
暂时,将http.agent system属性设置为""可以解决问题(我前面没有代码)。
http.agent
""
你可能会逃脱:
System.setProperty("http.agent", "");
但这可能需要你与URL协议处理程序的初始化之间进行竞争,如果它在启动时缓存了值(实际上,我认为不是)。
还可以通过JNLP文件(可从6u10的applet使用)和在命令行上设置该属性:
-Dhttp.agent=
或对于包装器命令:
-J-Dhttp.agent=
只是为了澄清:setRequestProperty("User-Agent", "Mozilla ...")现在工作正常,并且不会java/xx在末尾追加!至少使用Java 1.6.30及更高版本。
setRequestProperty("User-Agent", "Mozilla ...")
java/xx
我用netcat(端口侦听器)在机器上侦听:
$ nc -l -p 8080
它只是在端口上侦听,因此你会看到任何请求的内容,例如原始的HTTP标头。
并获得了以下不带setRequestProperty的http标头:
GET /foobar HTTP/1.1 User-Agent: Java/1.6.0_30 Host: localhost:8080 Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 Connection: keep-alive
和setRequestProperty:
GET /foobar HTTP/1.1 User-Agent: Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2 Host: localhost:8080 Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 Connection: keep-alive
如你所见,用户代理已正确设置。
完整示例:
import java.io.IOException; import java.net.URL; import java.net.URLConnection; public class TestUrlOpener { public static void main(String[] args) throws IOException { URL url = new URL("http://localhost:8080/foobar"); URLConnection hc = url.openConnection(); hc.setRequestProperty("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2"); System.out.println(hc.getContentType()); } }