牛咖-neocrawler nodejs 的爬虫系统。 特点: 支持web界面方式的摘取规则配置(css selector & regex); 包含无界面的浏览器引擎(phantomjs),支持js产生内容的抓取; 用http代理路由的方式防止抓取并发量过大的情况下被对方屏蔽; nodejs none-block 异步环境下的抓取性能比较高; 中央调度器负责网址的调度(同一时间片内一定数量的抓取任务中根据网站的权重来决定派发任务量; 支持多种抓取实例并存,定制摘取引擎和存储方式。
最近更新: 接近9年前已经实现web界面和ZK集群,直接查看《MySQL-Binlog使用文档.doc》根据指示一步步操作即可。---使用过程中有问题或者bug,请进入官方群: 398822659 : 连接到MySQL数据库,基于Netty框架,实时解析MySQL的二进制日志binlog而非定时查询数据库,提取出用户级感兴趣的事件:INSERT,UPDATE,DELETE,供后续分析如事件抛到大数据系统进行分析。目前支持的事件包括:ROTATE, FORMAT_DESCRIPTION, QUERY,TABLE_MAP, [WRITE_ROWS,EXT_WRITE_ROWS] [UPDATE_ROWS,EXT_UPDATE_ROWS] [DELETE_ROWS,EXT_DELETE_ROWS] XID ROWS_QUERY --- JDK版本:1.8 MySQL版本:【5.6.12,5.6.20】通过测试,其它版本未进行兼容性测试。
最近更新: 8年前Ip2region (2.0 - xdb) 是一个离线 IP 数据管理框架和定位库,支持亿级别的数据段,10微秒级别的查询性能,提供了许多主流编程语言的 xdb 数据管理引擎的实现。