同步操作将从 Cysir/node-spider 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
基于nodejs的通用爬虫框架,得益于nodejs的高性能异步io,爬虫的执行效率非常高。目前版本仅支持http/https协议,可以设置header属性和cookie会话保持,暂时还不支持代理。在下一个版本中会加入代理和更多的网络协议支持。写的不够好请多指教,有问题直接法Issues谢谢大家。
该框架主要分为调度器(node-shceduler) 下载器(node-downloader) 请求(node-request) 结果(node-response) 爬虫(node-spider) 数据抽取(node-pipeline)。 程序运行时:'调度器'从爬虫抽取'请求'或者'结果',如果是'请求'交给'下载器',如果是对象则交给node-pipeline保存数据。
刚接触nodejs不久就被它强大的异步IO特性所吸引。五一就在构思nodejs作为一个jsvascript的运行环境是不是可以直接解析动态网页呢,再加上异步io似乎非常的适合爬虫程序(最后证明要解析动态网页还得使用其他办法)。我在网上略微搜索了一下,貌似基于nodejs的爬虫框架并不多,而我也正想试试nodejs的异步io爬虫和java的多线程爬虫到底熟强熟弱,所以就有了node-spider这个框架。终于在五一的第三天实现了一个粗糙的简版爬虫框架,非常欢迎有兴趣的coder参与到其中来。项目中附带一个zyw的爬虫demo:)
重写了下载器,使用队列管理请求: 爬虫增加了并行的控制和请求失败的重试机制,可以在config.json里设置最大并发访问的请求,重试次数,重试的时间间隔
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。