quick-crawler

java实现的爬虫框架

从头开始，一步一步的实现一个可用的爬虫框架，每个地方加一个里程碑的tag，主要用于记录这个工程的诞生过程

tag 记录列表

1. v0.001

实现了一个最简单，最基础的爬虫, 处于能用的阶段

2. v0.002

利用HttpClient来替代jdk的http请求；新增http参数配置

3. v0.003

实现深度爬网页

支持正向、逆向链接过滤
在内存中保存爬取记录，用于去重过滤
提供爬取完成后的回调方法，用于结果处理

4. v0.004

实现爬取队列

每个Job只执行当前网页的抓取，将网页中满足深度抓取的链接塞入队列
新增Fetcher类，用于控制抓去任务

5. v0.005

实现Job任务中爬取 + 结果解析的分离；完成任务结束的标识设定

新增 ResultFilter 实现爬取网页的分析，并将满足条件的链接塞入爬取队列
新增 JobCount 来记录任务的爬取完成数，以此完成整个任务的结束标识设定

6. v0.006

添加日志埋点

7. v.0.007

新增动态配置信息支持

采用配置文件方式，支持配置信息的动态变更

8. v.0.008

对象池的实现

采用对象池来管理Job任务的创建

相关博文

一灰灰Blog地址: https://blog.hhui.top/

所有QuickCrawel相关博文汇总: QuickCrawel java爬虫归档

Related Projects

damai

👍 👍 👍 高度仿制大麦网售票系统，使用 SpringCloudAlibaba、Kafka、Redis、Sentinel、ElasticSearch、ShardingSphere 等架构，实现 ...

09 Jul 2024 194

quick-fix

应用内存服务访问, 应用内数据访问订正工具

30 Dec 2018 40

JCSprout

👨‍🎓 Java Core Sprout : basic, concurrent, algorithm

17 Dec 2017 27,064

JavaSec

a rep for documenting my study, may be from 0 to 0.1

18 Oct 2021 1,863

javacore

☕ JavaCore 是对 Java 核心技术的经验总结。

18 Aug 2017 3,239

Android-Notes

✨✨✨这有一包小鱼干，确定不要吃嘛？( 逃

22 Nov 2018 1,768

JavaFamily

【Java面试+Java学习指南】一份涵盖大部分Java程序员所需要掌握的核心知识。

12 Nov 2019 35,992

Java-Notes

计算机科学基础知识、Java开发、后端/服务端、面试相关 computer-science/Java-development/backend/interview

24 Mar 2018 1,547

java-load

记录自己从零开始学习Java SE的道路

06 Nov 2020 108

CodeGuide

本代码库是作者小傅哥多年从事一线互联网 Java 开发的学习历程技术汇总，旨在为大家提供一个清晰详细的学习教程，侧重点更倾向编写Java核心内容。如果本仓库能为您提供帮助，请给予支持(关注、点赞...

14 Apr 2020 10,394

JavaInterview

【Java面试+Java后端技术学习指南】：一份通向理想互联网公司的面试指南，包括 Java，技术面试必备基础知识、Leetcode、计算机操作系统、计算机网络、系统设计、分布式、数据库（MyS...

19 Feb 2020 4,694

java-notes

自己的学习笔记。包含：个人秋招经历、🐂客面经问题按照频率总结、Java一系列知识、数据库、分布式、微服务、前端、技术面试、每日文章等(持续更新)

09 Mar 2019 2,149

advanced-programmer

专业程序员修炼之路。

10 Apr 2019 2,744

Java-learning

Java相关知识总结，包括Java基础、MySQL、Springboot、mybatis、Redis、rabbitMQ等等，面试必备！

26 Dec 2018 1,901

leetcode-linghu-templete

算法面试必备，推荐刷题网站www.lintcode.com。北大学霸的《LeetCode刷题模板》+V领取: jiuzhangfeifei

17 Aug 2020 3,214