zhihu-spider - Spring Boot 项目框架


Apache-2.0
跨平台
Java

软件简介

项目背景

从一开始是想编写一个单纯的知乎爬虫,并实现其持久化,并由此展开周期性爬取知乎问题及答案以及其用户资料信息,完善前后端分离归档分类,信息检索等项目模块。但是在实现过程中,我逐渐发现自己对信息爬取的技能知识掌握严重不足,萌发了搭建知乎信息中转持久化的数据流平台,并提供HTML+JSON和RabbitMQ等消息接口,从而使有兴趣的伙伴开发并使用其熟悉的语言环境,实现信息爬取,从而持久化到此项目中来,完成最开始的开发目标。

项目的基础理论

1.
面向数据流的项目开发。将我需要什么数据,转换为我能提供什么功能让你帮我提供什么样的数据。实现从信息获取,信息持久,信息展示,信息检索的整体的数据流功能程序开发。

2.
面向接口的项目开发。采用HTML+JSON和RabbitMQ的消息接口,从而让异构系统可轻松调用,爬虫的客户端、服务器端、信息展示的前端可实现完美解耦,职责清晰,并行开发。