用 OpenClaw 挂机,抓取网页时频频翻车的烦人 bug 终于有解了。
一个名为 Scrapling 的数据采集神器,几乎一夜之间就成了 OpenClaw 的 " 最强外挂 "。

摇身一变成为龙虾神器后,这个发布一年多的项目人气直接大爆发,狂揽 2.3 万 stars,一口气冲上了 GitHub 单日趋势榜第一名。


让智能体上网抓数据,最烦的就是遇到那种动不动就跳出来让你选图片的真人验证,稍微不注意就会被关进小黑屋。
Scrapling 自带的 StealthyFetcher 隐身获取器专门就是来搞定这些恶心拦截的。
它能完美模拟最新版浏览器的指纹和操作行为,帮 OpenClaw 开箱即用地绕过这些阻拦。

以前那些老旧的爬虫工具实在太死板了,它们通常死死扣住几个固定的路径,只要网页排版稍微挪动一丁点,原本好好的自动化任务就会立刻罢工报错。
这种崩溃会直接导致 AI 任务流瞬间瘫痪,甚至本来看一下网页就知道的信息,还得费劲去研究怎么改代码。
Scrapling 最硬核的地方在于它拥有一套智能的自适应算法。
即使网站为了防爬或者是为了换新视觉而彻底打乱了 HTML 结构,它的解析器也能通过相似度比对自动感知数据在哪,然后重新定位到正确的关键信息上。
有了这种不需要人工干预的智能追踪能力,小龙虾就能实现真正的 24 小时 " 稳如老虾 ",再也不用担心大半夜因为网站悄悄更新而让挂机任务全线断更了。
轻松上手,还能省钱
既然 AI 已经能像回自己家拿东西一样,顺溜地绕过拦截并搞定网页改版,那接下来的重点就是怎么更聪明地处理这些信息。
方法很简单,只要开启 Scrapling 内置的 MCP 模式就可以了。
在数据喂给大模型之前,它会先精准提取正文,把网页里那些又长又臭的废话、乱七八糟的广告和没用的冗余代码统统剔除掉。
因为喂给 AI 的内容变精简了,API 调用的 Token 费用自然也就大幅降了下来,主打一个省钱又省心。
除了能帮咱们省钱,它对挂机环境的要求也极其亲民。
这个框架内存占用非常小,哪怕你手头只有个吃灰多年的旧笔记本,或者是租个入门级服务器,它都能轻松跑起来。

万一遇到偶尔断网或者是突然断电,爬取进度也会被牢牢保存下来,等网络或电源恢复了,它就能无缝接力继续干活,完全不需要手动去重启任务。
而且这个插件不仅不挑机器,也不挑人,不必会用 Python 写代码,它直接提供了一套开箱即用的命令行工具。
只要照着教程在黑窗口里敲一行非常简单的短指令,就能立刻调用它的全部采集能力。

项目地址:
https://github.com/D4Vinci/Scrapling
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
今天,你养虾了吗?
欢迎加入【龙虾养成讨论组】,一起交流养虾经验!扫码添加小助手加入社群,记得备注【OPENCLAW】哦~
一键关注 点亮星标
科技前沿进展每日见