登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
Gitee AI
NEW
我知道了
查看详情
登录
注册
代码拉取完成,页面将自动刷新
开源项目
>
WEB应用开发
>
Web爬虫
&&
捐赠
捐赠前请先登录
取消
前往登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
Watch
不关注
关注所有动态
仅关注版本发行动态
关注但不提醒动态
609
Star
2.1K
Fork
742
自风
/
Spiderman2
代码
Issues
31
Pull Requests
0
Wiki
统计
流水线
服务
Gitee Pages
JavaDoc
质量分析
Jenkins for Gitee
腾讯云托管
腾讯云 Serverless
悬镜安全
阿里云 SAE
Codeblitz
我知道了,不再自动展开
全部
全部
清除搜索筛选条件
看板
里程碑
全部
开启的
31
进行中
0
已完成
48
已关闭
0
高优先级
默认排序
最新创建
最早创建
最近更新
最早更新
高优先级
低优先级
不指定
不指定
严重
主要
次要
不重要
里程碑
无里程碑
标签
负责人
创建者
如何保存某个xpath下包含html标签的内容
置顶
question
#IBZ99
cgnq
3
提过问题:我配置了一个抽取模板,抽取页面上的一个小说页面列表数据,要保存书名,作者等等信息。问题是,你这框架怎么做的循环解析页面上的每本书籍信息的。
置顶
question
#IBC98
bogy
5
在Idea里由于pom的依赖scope为provided导致运行时无法找到zbus类的问题
置顶
bug
#IBP4P
自风
需要登录的网站能爬吗?
置顶
question
#I8WFG
Major-chen
7
部分测试留下的代码清理
enhancement
#I8BNP
自风
2
单机版支持队列持久化,重启可从断点位置继续抓取
feature
#I865C
自风
4
负责人:
自风
分布式版的队列实现选型
feature
#I865G
自风
3
负责人:
自风
请问支持ajax渲染后的抓取吗?
#IHLWL
小馍馍
1
Match Rule的值和Request的url值没有做trim操作,导致匹配失败
bug
#ICMCL
自风
1
发现一个bug ,LinksExtractor 处理相对路径时不正确,一直取的baseUrl 丢失context
bug
#IBTIG
果zi
2
爬到的结果存在哪里了呢?
question
#I8EUI
mlc0202
2
感觉这个比webharvest还难用
question
#I95PO
tianwch
4
运行spiderman2提示java.io.FileNotFoundException: spiderman-bootstrap.xml,请问这个配置文件...
question
#IAW52
bogy
6
目前版本支持IP代理吗?
feature
question
#I8WU3
lipeng_3g
4
改进配置文件设计
feature
#I87JY
自风
2
/spiderman/src/main/java/net/kernal/spiderman/queue/ZBusTaskQueue.java 报错
bug
#I8PXC
人军
2
ip代理问题
wontfix
bug
#IAXXJ
Major-chen
6
spiderman2抓取页面源代码怎么配置
question
#I8YFI
yht大神
2
改用事件机制来驱动Worker的工作,避免使用任何的Thread.sleep操作
wontfix
#I8AC1
自风
7
增加内存浏览器的支持
enhancement
#I8RWY
自风
1
负责人:
Neoman
Java
1
https://gitee.com/l-weiwei/Spiderman2.git
git@gitee.com:l-weiwei/Spiderman2.git
l-weiwei
Spiderman2
Spiderman2
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册