第 40 篇：数据存储——Redis 缓存与分布式工具

发布时间：2026/6/26 15:21:09

前三篇我们学习了文件、MySQL、MongoDB 三种存储方案，它们都是"持久化存储"——数据永久保存在磁盘上。但爬虫中还有很多"临时性、高频访问、对速度要求极高"的场景，比如：URL 去重：判断某个 URL 有没有爬过；限速控制：控制某个 IP 每秒请求数；任务队列：分布式爬虫的任务分发；缓存：临时存一些热点数据；计数器：统计爬了多少条、失败了多少次。这些场景用 MySQL / MongoDB 也能做，但性能不够。这时候就轮到Redis登场了。Redis 是一个开源的内存数据库，数据存在内存中，读写极快（10万+ QPS），支持多种数据结构，是爬虫工程师的又一把"瑞士军刀"。一、Redis 是什么Redis（Remote Dictionary Server）是一个开源的键值型内存数据库：内存存储：数据存在内存中，速度极快；持久化：支持 RDB 和 AOF 两种持久化方式，断电不丢；