HTMLCleanerExtractor 默认设置了 setTreatDeprecatedTagsAsContent(true)导致的问题 · Issue #IET25 · 自风/Spiderman2 - Gitee.com

开源项目 > WEB应用开发 > Web爬虫 &&

/ 详情

已完成

拥有者

创建于

2017-08-29 14:59

如题，由于设置了上述选项，导致有些过期的HTML标签无法正常抽取，比如：

<div><font>xxx</font></div>

若想取得font标签内部的xxx，很自然想到用:

xpath=//div/font/text()

但获取到的是：Nothing，因为上述选项把这种过期标签当做内容Content来解析了，而不是当做标签（Tag），当使用：

xpath=//div/text()

的时候，是可以拿到结果：

<font>xxx></font>

由此可见，上述选项把这个font当做是div标签下的text来处理了。
经过测试发现，只要把该选项去掉，或者这是为false，同样的xpath，可正常拿到：

xxx

创建了任务

cecf717
已修复。

关闭了任务

登录后才可以发表评论

Java

1

https://gitee.com/l-weiwei/Spiderman2.git

git@gitee.com:l-weiwei/Spiderman2.git

l-weiwei

Spiderman2

Spiderman2