/ 详情

关于去重和增量更新问题

Done
owner
Opened this issue  
2016-01-28 17:19

现在如果把列表页也加入去重,由于持久化了,会导致无法做增量更新,因为列表页URL一般都不会变化的,但是内容却会变化,而去重一般都是以URL作为key。
为了解决这个问题,是否可以考虑对于某些Page的去重可以配制成不持久化,这样通过调度器每次重新从种子开始抓取的时候,就可以清空这些Page记录。
落地实现,可以考虑将Store分为可清空与不可清空两种。然后在Page里面增加一个配置项isClearable

Comments (3)

最新变化:将持久化的消息分组,组映射到Page,由Page的isPersisted属性决定此分组是否要永久持久化。

不需要永久持久化的,会在Spiderman重启或者重新调度的时候自动删除。

Status changed to closed

Sign in to comment

状态
Assignees
Milestones
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
Branches
Planed to start   -   Planed to end
-
Top level
Priority
参与者(1)
117 l weiwei 1578913730