我正在做一个项目,我需要做很多屏幕抓取工作,以尽可能快地获取大量数据。我想知道是否有人知道任何好的API或资源来帮助我。
顺便说一下,我正在使用Java。
到目前为止,这是我的工作流程:
想法:
如果您还没有弄清楚,这是我第一次弄明白这一点,因此我很难说清楚我的需求是什么。非常感谢您之前曾经做过的任何人的投入。
我发现JSoup非常适合HTML解析。
有关更多指针,请查看本文:如何编写多线程网络爬虫