609 Star 2.1K Fork 745

自风 / Spiderman2

 / 详情

关于去重和增量更新问题

已完成
拥有者
创建于  
2016-01-28 17:19

现在如果把列表页也加入去重,由于持久化了,会导致无法做增量更新,因为列表页URL一般都不会变化的,但是内容却会变化,而去重一般都是以URL作为key。
为了解决这个问题,是否可以考虑对于某些Page的去重可以配制成不持久化,这样通过调度器每次重新从种子开始抓取的时候,就可以清空这些Page记录。
落地实现,可以考虑将Store分为可清空与不可清空两种。然后在Page里面增加一个配置项isClearable

评论 (3)

最新变化:将持久化的消息分组,组映射到Page,由Page的isPersisted属性决定此分组是否要永久持久化。

不需要永久持久化的,会在Spiderman重启或者重新调度的时候自动删除。

状态更改为 已关闭

登录 后才可以发表评论

状态
负责人
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
参与者(1)
117 l weiwei 1578913730
Java
1
https://gitee.com/l-weiwei/Spiderman2.git
git@gitee.com:l-weiwei/Spiderman2.git
l-weiwei
Spiderman2
Spiderman2

搜索帮助