登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
Gitee AI
NEW
我知道了
查看详情
登录
注册
代码拉取完成,页面将自动刷新
开源项目
>
WEB应用开发
>
Web爬虫
&&
捐赠
捐赠前请先登录
取消
前往登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
Watch
不关注
关注所有动态
仅关注版本发行动态
关注但不提醒动态
609
Star
2.1K
Fork
742
自风
/
Spiderman2
代码
Issues
31
Pull Requests
0
Wiki
统计
流水线
服务
Gitee Pages
JavaDoc
质量分析
Jenkins for Gitee
腾讯云托管
腾讯云 Serverless
悬镜安全
阿里云 SAE
Codeblitz
我知道了,不再自动展开
全部
全部
清除搜索筛选条件
看板
里程碑
全部
开启的
31
进行中
0
已完成
48
已关闭
0
低优先级
默认排序
最新创建
最早创建
最近更新
最早更新
高优先级
低优先级
优先级
不指定
严重
主要
次要
不重要
里程碑
无里程碑
标签
负责人
创建者
关于元素重复问题的集中回复
置顶
question
#IFI1C
自风
负责人:
自风
如何保存某个xpath下包含html标签的内容
置顶
question
#IBZ99
cgnq
3
Chrome获取XPath的方法
置顶
question
#IG3B4
自风
提过问题:我配置了一个抽取模板,抽取页面上的一个小说页面列表数据,要保存书名,作者等等信息。问题是,你这框架怎么做的循环解析页面上的每本书籍信息的。
置顶
question
#IBC98
bogy
5
在Idea里由于pom的依赖scope为provided导致运行时无法找到zbus类的问题
置顶
bug
#IBP4P
自风
关于Spiderman对于【深度优先、广度优先】的解释说明
置顶
question
#IG3D0
自风
需要登录的网站能爬吗?
置顶
question
#I8WFG
Major-chen
7
ChromeDriver下载地址
置顶
question
#IBZBR
自风
若下载线程数量设置为2个或以上,会导致计数器不准确
bug
#IBP4X
自风
1
部分测试留下的代码清理
enhancement
#I8BNP
自风
2
doc下截图用的什么程序
#I8YPZB
yuxx3
单机版支持队列持久化,重启可从断点位置继续抓取
feature
#I865C
自风
4
负责人:
自风
缺少绕过网站安装的safedog的实现
#IC0F7
码农
分布式版的队列实现选型
feature
#I865G
自风
3
负责人:
自风
64位window7启动webDriverDownload失败
question
#IB57O
乐一天
2
请问支持ajax渲染后的抓取吗?
#IHLWL
小馍馍
1
Match Rule的值和Request的url值没有做trim操作,导致匹配失败
bug
#ICMCL
自风
1
超时重试策略
#IR19J
chrrity
发现一个bug ,LinksExtractor 处理相对路径时不正确,一直取的baseUrl 丢失context
bug
#IBTIG
果zi
2
爬到的结果存在哪里了呢?
question
#I8EUI
mlc0202
2
Java
1
https://gitee.com/l-weiwei/Spiderman2.git
git@gitee.com:l-weiwei/Spiderman2.git
l-weiwei
Spiderman2
Spiderman2
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册