扒网站工具,看好哪个网站,指定好URL,自动扒下来做成模版。所见网站,皆可为我所用!
强力 Java 爬虫,列表分页、详细页分页、ajax、微内核高扩展、配置灵活
一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性;
风铃虫是一款轻量级的高效爬虫工具,配置简单,方便二次开发,能抓取js渲染的网页,可以抓取任何数据,支持保存网页快照,智能防封杀,天然适合分布式。
Crawler基于Java开发的一款跨平台爬虫,可以使用Shell脚本和DOS命令进行任务式处理
webmagic 是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。
A configurable web spider with a easy-to-use WebUI interface
新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。
一款低入侵分布式爬虫框架,仅仅依赖少量第三方包,具有多进程多线程,集成反爬、验证码破解方案,自由定制,cookie自动管理,多数据源支持(database,nosql,es),客户端-服务端分离(充分利用ip)集群支持等特性)
抓取微信公众号全部文章,采用AnyProxy+Javascript+Java实现