/ 详情

HTMLCleanerExtractor 默认设置了 setTreatDeprecatedTagsAsContent(true)导致的问题

Done
owner
Opened this issue  
2017-08-29 14:59

如题,由于设置了上述选项,导致有些过期的HTML标签无法正常抽取,比如:

<div><font>xxx</font></div>

若想取得font标签内部的xxx,很自然想到用:

xpath=//div/font/text()

但获取到的是:Nothing,因为上述选项把这种过期标签当做内容Content来解析了,而不是当做标签(Tag),当使用:

xpath=//div/text()

的时候,是可以拿到结果:

<font>xxx></font>

由此可见,上述选项把这个font当做是div标签下的text来处理了。
经过测试发现,只要把该选项去掉,或者这是为false,同样的xpath,可正常拿到:

xxx

Comments (1)

自风 created 任务
自风 closed 任务

Sign in to comment

状态
Assignees
Milestones
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
Branches
Planed to start   -   Planed to end
-
Top level
Priority
参与者(1)
117 l weiwei 1578913730