
前三篇我们学习了文件、MySQL、MongoDB 三种存储方案,它们都是"持久化存储"——数据永久保存在磁盘上。但爬虫中还有很多"临时性、高频访问、对速度要求极高"的场景,比如:URL 去重:判断某个 URL 有没有爬过;限速控制:控制某个 IP 每秒请求数;任务队列:分布式爬虫的任务分发;缓存:临时存一些热点数据;计数器:统计爬了多少条、失败了多少次。这些场景用 MySQL / MongoDB 也能做,但性能不够。这时候就轮到Redis登场了。Redis 是一个开源的内存数据库,数据存在内存中,读写极快(10万+ QPS),支持多种数据结构,是爬虫工程师的又一把"瑞士军刀"。一、Redis 是什么Redis(Remote Dictionary Server)是一个开源的键值型内存数据库:内存存储:数据存在内存中,速度极快;持久化:支持 RDB 和 AOF 两种持久化方式,断电不丢;