1.3K Star 3.5K Fork 1.3K

自风 / Spiderman

 / 详情

抓取js执行后的网页

待办的
创建于  
2016-05-24 17:32

如题,能否抓取js执行后的网页?

评论 (4)

使用WebDriver,参考git@osc.xml

是否有线程控制模块?我现在的情况是:我自己写的爬虫,因为要同时爬的网站比较多,线程开的比较多,CPU占用率居高不下。

可以控制的

<property key="worker.download.size" value="1" /><!-- 下载线程数 -->
    <property key="worker.extract.size" value="1" /><!-- 页面抽取线程数 -->
    <property key="worker.result.size" value="1" /><!-- 结果处理线程数 -->

登录 后才可以发表评论

状态
负责人
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
参与者(3)
117 l weiwei 1578913730
Java
1
https://gitee.com/l-weiwei/spiderman.git
git@gitee.com:l-weiwei/spiderman.git
l-weiwei
spiderman
Spiderman

搜索帮助