当前仓库属于关闭状态,部分功能使用受限,详情请查阅 仓库状态说明
1 Star 2 Fork 3

武鹏飞 / spiders
关闭

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

个人信息

  • 姓名:武鹏飞
  • 生日:1992.07.04
  • 现居:北京 · 昌平
  • 电话:155 1011 9444
  • 邮箱:wu.pengfei55555@163.com

教育背景

  • 2012.09-2016.07 吉林农业科技学院 本科学士

求职意向

  • 工作性质:全职
  • 期望职业:python爬虫工程师
  • 期望行业:互联网/数据服务
  • 工作地区:北京
  • 期望薪资:面议
  • 目前状况:已离职,到岗时间面议

工作经历

  • 2016.04 -- 2018.01 中软国际有限公司 python工程师

专业技能

  1. 熟悉 Linux操作系统;
  2. 熟悉python语言;
  3. 熟悉爬虫过程,掌握使用Requests包爬虫技术以及scrapy框架;
  4. 了解熟悉Python 多线程爬虫及其机制;
  5. 了解re、xpath、BeautifulSoup4数据提取技术;
  6. 了解Selenium+PhantomJS动态HTML抓取;
  7. 了解mysql、mongdb、redis操作;
  8. 了解HTTP/HTTPS协议,TCP/IP网络协议;
  9. 遵循PEP8规范。

个人项目

  1. SuningSpider - 苏宁图书爬虫。爬取苏宁图书全站图书信息,通过构建url,实现对全站图书列表的抓取,并通过DuplicatesPipeline管道对item去重保存至本地json文件。
  2. SinaSpider - 新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博 Cookie 进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。
  3. distribute_crawler - 小说下载分布式爬虫。使用 scrapy,Redis, MongoDB,graphite 实现的一个分布式网络爬虫,底层存储 mongodb 集群,分布式使用 redis 实现,爬虫状态显示使用 graphite 实现,主要针对一个小说站点。
  4. LianJiaSpider - 链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。
  5. scrapy_jingdong - 京东爬虫。基于 scrapy 的京东网站爬虫,保存格式为 csv。
  6. QunarSpider - 去哪儿网爬虫。 网络爬虫之 Selenium 使用代理登陆:爬取去哪儿网站,使用 selenium 模拟浏览器登陆,获取翻页操作。代理可以存入一个文件,程序读取并使用。支持多进程抓取。
  7. findtrip - 机票爬虫(去哪儿和携程网)。Findtrip 是一个基于 Scrapy 的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)。
  8. 163spider - 基于 requests、MySQLdb、torndb 的网易客户端内容爬虫
  9. doubanspiders- 豆瓣电影、书籍、小组、相册、东西等爬虫集
  10. tbcrawler- 淘宝和天猫的爬虫,可以根据搜索关键词,物品 id 来抓去页面的信息,数据存储在mongodb。

自我评价

  1. 具备优秀的文档阅读能力,能流畅阅读各种API技术文档等;
  2. 学习能力强,思路清晰,对新技术有一定的渴望;
  3. 为人踏实,能快速地融入团队,服从领导安排的各项任务;
  4. 良好的沟通能力,积极主动,对工作尽心尽责,抗压能力强

空文件

简介

基于scrapy框架的爬虫项目 展开 收起
Python
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/vet0704/spiders.git
git@gitee.com:vet0704/spiders.git
vet0704
spiders
spiders
master

搜索帮助

53164aa7 5694891 3bd8fe86 5694891