1 协议攻击常用思路
爬虫常用的 js 逆向思路:
- 找核心逻辑(参数加密、处理逻辑)
- 复写加密算法/抠核心 js — node.js 模拟执行 / 其他 V 8 引擎执行 :
- 模拟发送请求
- 保存采集的数据并对数据进行处理
2 协议攻击防御思路
防御方反爬的思路:
- 如何增加对方复写算法的难度
- 如何增加对方抠核心 js 的难度
- 如何阻止对方使用 node.js / 其他 V 8 引擎执行 js
防御方一般的解决方法:
- 可以利用算法魔改且增大算法长度来处理
- 可以利用代码混淆操作来处理
- 就需要针对于 node.js、VM 2、V 8 执行环境进行对抗
主流执行 js 的方案:
- node.js 直接执行,node.js 相关的沙箱直接执行 —> vm 2
- 使用开源的/闭源纯净 v 8 进行执行
- 使用魔改浏览器/原生浏览器/无头浏览器环境进行执行
- 其余的骚操作 —- 这个暂时不考虑
协议攻击防御思路最终目的是增大玩协议的爬虫工程师的难度,让爬虫的采集成本大于数据价值本身,比对主流浏览器和其他非法环境的区别,然后制作检查点识别特殊环境,禁止其访问或降低其权限。
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 dacker1993@gmail