609 Star 2.1K Fork 746

自风 / Spiderman2

 / 详情

HTMLCleanerExtractor 默认设置了 setTreatDeprecatedTagsAsContent(true)导致的问题

已完成
拥有者
创建于  
2017-08-29 14:59

如题,由于设置了上述选项,导致有些过期的HTML标签无法正常抽取,比如:

<div><font>xxx</font></div>

若想取得font标签内部的xxx,很自然想到用:

xpath=//div/font/text()

但获取到的是:Nothing,因为上述选项把这种过期标签当做内容Content来解析了,而不是当做标签(Tag),当使用:

xpath=//div/text()

的时候,是可以拿到结果:

<font>xxx></font>

由此可见,上述选项把这个font当做是div标签下的text来处理了。
经过测试发现,只要把该选项去掉,或者这是为false,同样的xpath,可正常拿到:

xxx

评论 (1)

自风 创建了任务

cecf717
已修复。

自风 关闭了任务

登录 后才可以发表评论

状态
负责人
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
参与者(1)
117 l weiwei 1578913730
Java
1
https://gitee.com/l-weiwei/Spiderman2.git
git@gitee.com:l-weiwei/Spiderman2.git
l-weiwei
Spiderman2
Spiderman2

搜索帮助