代码拉取完成,页面将自动刷新
如题,由于设置了上述选项,导致有些过期的HTML标签无法正常抽取,比如:
<div><font>xxx</font></div>
若想取得font标签内部的xxx,很自然想到用:
xpath=//div/font/text()
但获取到的是:Nothing,因为上述选项把这种过期标签当做内容Content来解析了,而不是当做标签(Tag),当使用:
xpath=//div/text()
的时候,是可以拿到结果:
<font>xxx></font>
由此可见,上述选项把这个font当做是div标签下的text来处理了。
经过测试发现,只要把该选项去掉,或者这是为false,同样的xpath,可正常拿到:
xxx