登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
Gitee AI
NEW
我知道了
查看详情
登录
注册
代码拉取完成,页面将自动刷新
开源项目
>
WEB应用开发
>
Web爬虫
&&
捐赠
捐赠前请先登录
取消
前往登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
Watch
不关注
关注所有动态
仅关注版本发行动态
关注但不提醒动态
609
Star
2.1K
Fork
746
自风
/
Spiderman2
代码
Issues
31
Pull Requests
0
Wiki
统计
流水线
服务
Gitee Pages
JavaDoc
质量分析
Jenkins for Gitee
腾讯云托管
腾讯云 Serverless
悬镜安全
阿里云 SAE
Codeblitz
我知道了,不再自动展开
全部
全部
清除搜索筛选条件
看板
里程碑
全部
开启的
31
进行中
0
已完成
48
已关闭
0
最早创建
默认排序
最新创建
最早创建
最近更新
最早更新
高优先级
低优先级
优先级
不指定
严重
主要
次要
不重要
里程碑
无里程碑
标签
负责人
创建者
提过问题:我配置了一个抽取模板,抽取页面上的一个小说页面列表数据,要保存书名,作者等等信息。问题是,你这框架怎么做的循环解析页面上的每本书籍信息的。
置顶
question
#IBC98
bogy
5
在Idea里由于pom的依赖scope为provided导致运行时无法找到zbus类的问题
置顶
bug
#IBP4P
自风
如何保存某个xpath下包含html标签的内容
置顶
question
#IBZ99
cgnq
3
需要登录的网站能爬吗?
置顶
question
#I8WFG
Major-chen
7
根据各自需求和经验参与讨论投票项目架构设计
question
#I82HL
自风
3
负责人:
自风
maven pom里缺少jdk8的指明
bug
#I860G
自风
2
负责人:
Neoman
单机版支持队列持久化,重启可从断点位置继续抓取
feature
#I865C
自风
4
负责人:
自风
分布式版的队列实现选型
feature
#I865G
自风
3
负责人:
自风
关于URL去重的思路
feature
#I872A
自风
2
负责人:
自风
改进配置文件设计
feature
#I87JY
自风
2
关于插件扩展的思考
feature
#I87KY
自风
3
Spiderman2整个架构的设计思路
question
#I87LZ
自风
12
支持动态代理
feature
#I8992
自风
1
负责人:
Neoman
全面转向Java8
enhancement
#I89VH
自风
3
改用事件机制来驱动Worker的工作,避免使用任何的Thread.sleep操作
wontfix
#I8AC1
自风
7
对于关键词搜索结果的采集需求
feature
#I8B70
自风
2
K.readLine和所有的new File操作都存在一个路径问题
bug
#I8BJO
自风
2
部分测试留下的代码清理
enhancement
#I8BNP
自风
2
在不去重场景下的问题
bug
#I8BZ0
自风
7
单篇文章分页支持
feature
#I8CTP
自风
3
Java
1
https://gitee.com/l-weiwei/Spiderman2.git
git@gitee.com:l-weiwei/Spiderman2.git
l-weiwei
Spiderman2
Spiderman2
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册