/ 详情

提过问题:我配置了一个抽取模板,抽取页面上的一个小说页面列表数据,要保存书名,作者等等信息。问题是,你这框架怎么做的循环解析页面上的每本书籍信息的。

Done
Opened this issue  
2016-11-25 11:36

输入图片说明输入图片说明

Comments (5)

我给的图有3个书籍信息,用框括起来的,每本书要抽多个字段,你的model配置,只有具体的字段xpath,怎么做的循环抽的呢

你这种情况可以在model配置一个xpath

<model xpath="">
</model>

请看 #50:若model设置为多个,则任务去重会把所有结果都认为去重

解决方案为:为model增加一个属性key,作为第5个用来判断是否重复的条件。

<model xpath="" isArray="1" key="a">
    <field name="a" />
    <field name="b" />
</model>

最新代码也增加了一个TestDianping.java和dianping.xml例子。你可以参考下。

修复关闭

自风 closed 任务
自风 translation missing: en.project.new_issues_operate_log.link_issue若model设置为多个,则任务去重会把所有结果都认为去重

Sign in to comment

状态
Assignees
Milestones
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
Branches
Planed to start   -   Planed to end
-
Top level
Priority
参与者(2)
117 l weiwei 1578913730