
影刀RPA避坑指南网页反爬虫机制应对——IP代理User-Agent与Cookie管理用影刀RPA做数据采集最头疼的不是技术是采集到一半被网站制裁了——IP被封、请求被拒、弹验证码。这不是你能不能采集的问题而是怎么文明采集的问题。这篇讲常见的反爬机制和应对方法。反爬的五个层级层级检测手段难度影刀RPA应对L1User-Agent检查低设置UA伪装L2请求频率检测低随机延时L3IP频率限制中代理IP池L4Cookie/登录态验证中Cookie持久化自动登录L5验证码/行为分析高降频模拟真人人工介入建议逐层应对不是所有网站都需要上到L5。大多数电商平台的采集做到L3就够了。L1User-Agent伪装每个HTTP请求都带一个User-Agent标识告诉网站你用的什么浏览器。影刀浏览器默认的UA是带了自动化标记的。# 常见UA伪装列表随机抽取ua_list[Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 Chrome/120.0.0.0,Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 Chrome/119.0.0.0,Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 Chrome/120.0.0.0,]# 影刀HTTP请求指令 → 请求头# User-Agent: {随机选一个}影刀内置浏览器设置→高级→自定义User-Agent改成普通Chrome的UA即可。店群矩阵自动化突破运营极限L2请求频率控制频率控制不是简单加等待要模仿人类浏览的节奏importrandomimporttimedefsmart_delay(action_type):根据操作类型返回合理的延迟delays{page_load:(2.0,5.0),# 页面加载scroll:(0.8,2.5),# 滚动click:(0.5,1.5),# 点击read:(1.0,4.0),# 读取数据next_page:(3.0,8.0),# 翻页search:(1.5,4.0),# 搜索后}low,highdelays.get(action_type,(1.0,3.0))time.sleep(random.uniform(low,high))翻页频率建议搜索引擎类3~8秒/页电商类目页2~5秒/页社交媒体类5~10秒/页L3代理IP当同一个IP短时间内发大量请求网站会封IP。解决方案是用代理。付费代理方案主流代理服务商的接入方式# 影刀的HTTP请求设置代理# 在HTTP请求指令配置中# 代理设置 → 手动代理# 代理地址proxy.example.com:8080# 代理账号your_username# 代理密码your_password选购建议短效代理1~5分钟适合高频采集IP自动切换长效代理按天适合需要稳定IP的场景如登录态维护不推荐免费代理慢、不稳定、数据可能被窃取低成本方案拨号宽带如果采集量不大用家里的拨号宽带每天重启一次路由器就换一个公网IP比买代理便宜。L4Cookie和登录态Cookie持久化影刀浏览器关闭后Cookie就没了下次重新登录浪费时间# 思路每次跑完流程把关键Cookie存储到文件# 下次开始时先加载Cookie# 保存CookiePython代码块importjson cookiesget_browser_cookies()# 获取当前浏览器Cookiewithopen(rC:\配置\cookies.json,w)asf:json.dump(cookies,f)# 加载Cookiewithopen(rC:\配置\cookies.json)asf:cookiesjson.load(f)set_browser_cookies(cookies)# 注入到浏览器但Cookie有过期时间一般是几小时到几天。过期后自动走登录流程就行。temu店群自动化报活动案例自动登录# 登录态检测流程# 1. 打开目标网站# 2. 判断是否已登录检查页面是否有退出登录按钮或个人中心入口# 已登录 → 继续主流程# 未登录 → 执行登录子流程# 3. 登录子流程# - 点击登录按钮# - 输入账号密码# - 处理验证码如果有# - 验证登录结果L5验证码应对验证码是终极防线策略是能避则避降低频率到不会触发验证码这是最优解触发验证码后的处理截图保存验证码页面发通知告知需要人工处理暂停当前任务跳到下一个任务# 验证码检测与处理ifcheck_captcha_exists():screenshot(captcha_alert)send_notification(流程遇到验证码需要人工处理)skip_current_task()# 跳到下一个任务# 注意不要写自动识别验证码的逻辑# 这种做法不稳定且可能违反网站条款数据采集的道德底线遵守robots.txt网站给你的爬虫指引Disallow的不采遵守网站条款用户协议里如果明确禁止自动化采集就不要碰不影响网站正常服务凌晨采集、控制并发、不要打垮对方服务器不采集个人隐私数据用户手机号、地址等隐私信息绝不对接商业数据用于内部分析采集竞品数据用于运营分析可以但不要二次倒卖#影刀RPA #RPA自动化 #反爬虫 #代理IP #数据采集安全作者林焱本文为《影刀RPA学习手册》系列文章之一内容源于实操经验的整理与分享。