node-spider

介绍

基于nodejs的通用爬虫框架，得益于nodejs的高性能异步io，爬虫的执行效率非常高。目前版本仅支持http/https协议，可以设置header属性和cookie会话保持，暂时还不支持代理。在下一个版本中会加入代理和更多的网络协议支持。写的不够好请多指教，有问题直接法Issues谢谢大家。

软件架构

该框架主要分为调度器(node-shceduler) 下载器(node-downloader) 请求(node-request) 结果(node-response) 爬虫(node-spider) 数据抽取(node-pipeline)。程序运行时：'调度器'从爬虫抽取'请求'或者'结果'，如果是'请求'交给'下载器',如果是对象则交给node-pipeline保存数据。

安装教程

git clone https://gitee.com/cysir/node-spider.git
sudo npm link node-spider
cd node-spider && sudo npm install -g

使用说明

spider-cli create xxx #创建项目，xxx为爬虫名
crawl xxx #运行项目 xxx为爬虫名注意！运行项目时爬虫的目录应该为当前目录的子目录
spider里的parse方法的参数response.selector使用的是cheerio的解析库，可以参考cheerio的文档:https://www.npmjs.com/package/cheerio

参与贡献

Fork 本仓库
新建 Feat_xxx 分支
提交代码
新建 Pull Request

写在最后

刚接触nodejs不久就被它强大的异步IO特性所吸引。五一就在构思nodejs作为一个jsvascript的运行环境是不是可以直接解析动态网页呢，再加上异步io似乎非常的适合爬虫程序(最后证明要解析动态网页还得使用其他办法)。我在网上略微搜索了一下，貌似基于nodejs的爬虫框架并不多，而我也正想试试nodejs的异步io爬虫和java的多线程爬虫到底熟强熟弱，所以就有了node-spider这个框架。终于在五一的第三天实现了一个粗糙的简版爬虫框架，非常欢迎有兴趣的coder参与到其中来。项目中附带一个zyw的爬虫demo:)

2019年5月7日更新

重写了下载器，使用队列管理请求: 爬虫增加了并行的控制和请求失败的重试机制，可以在config.json里设置最大并发访问的请求，重试次数，重试的时间间隔

wwg / node-spider

node-spider

介绍

软件架构

安装教程

使用说明

参与贡献

写在最后

2019年5月7日更新

简介

发行版

贡献者

近期动态

wwg / node-spider .gitee-modal { width: 500px !important; }

node-spider

介绍

软件架构

安装教程

使用说明

参与贡献

写在最后

2019年5月7日 更新

简介

发行版

贡献者

近期动态

搜索帮助

wwg / node-spider

2019年5月7日更新