扒网站工具,看好哪个网站,指定好URL,自动扒下来做成模版。所见网站,皆可为我所用!
新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。
webmagic 是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。
不懂数据采集技术,也可轻松采集海量数据!简单易上手,人人可用的数据采集工具!
二代蜘蛛侠,此版本完全重新开发,比上一代更加强大(性能,易用,架构,分布式,简洁,成熟)
springboot【小说阅读网站】,多线程抓取小说数据(单本或者批量),持久化到MySQL数据库,能定时跟源站数据同步=小说定时更新。通过jsoup采集数据到mysql数据,redis作为缓存框架,减轻服务器压力。部署在linux,网站UI套纵横中文网!
基于java的爬虫系统,可爬取国内主流视频网站的视频数据,目前支持爬取豆瓣、猫眼、IMDB、百度百科、优酷、电视猫数据。
爬虫项目,微信公众号文章爬虫,网站文章爬虫,群发邮件系统
丑牛迷你采集器是一款基于Java Swing开发的专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从 网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站
运行于java环境的一个免费开源的企业信息采集器(简单的java网络爬虫)。
信息采集完成后自动导出Excel表格。
基于Jsoup+Poi+Sqlite开发完成。