/ 详情

若model设置为多个,则任务去重会把所有结果都认为去重

Done
owner
Opened this issue  
2016-12-21 11:39

由于ResultTask的getKey只通过以下几个属性作为重复条件:

  1. seed url
  2. page name
  3. model name
  4. request url

这样会导致有一种情况无法正常识别。该情况为:
同一个页面下分多个model,比如在一个列表里获取多个model数据,之前也有人提出来问题 #49:提过问题:我配置了一个抽取模板,抽取页面上的一个小说页面列表数据,要保存书名,作者等等信息。问题是,你这框架怎么做的循环解析页面上的每本书籍信息的。
这种情况下获取的多个结果数据,由于上面的4个条件都一样因此会被当做是重复数据过滤掉,最终只有一个Result数据被保留下来,这显然是不对的

Comments (2)

自风 created 任务
自风 added label bug

解决方案为:为model增加一个属性key,作为第5个用来判断是否重复的条件。

<model xpath="" isArray="1" key="a">
    <field name="a" />
    <field name="b" />
</model>
自风 updated 任务
自风 closed 任务

Sign in to comment

状态
Assignees
Milestones
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
Branches
Planed to start   -   Planed to end
-
Top level
Priority
参与者(1)
117 l weiwei 1578913730