1.码云:https://gitee.com/pythonywy/html_to_md
2.github:https://github.com/a568972484/html_to_md
需要安装的python模块
pip3 install requests
pip3 install lxml
pip3 install beautifulsoup4
代码以更新可以运行Crawl_blog_post_6.1.py
,可以运行visual.exe
,exe文件就不用安装依赖
由于不同博客具有不同的见状性`要根据博客能让进行适当的修改就可以使用此程序
程序没有加入多进程
与多线程
进去增加博客园的负担
爬取内容请不要用做商业用途
初衷主要是为了帮助博主把已上传的随笔下载至本地方便修改
2019.7.20
增加了功能
功能介绍:爬取某个分目录下博客
版本升级至5.0,增加了可视化界面可视化界面exe程序,增加了见状性,
只需下载exe运行即可
温馨提示:
程序由可能会被流氓杀毒软件屏蔽请自行恢复
绝对无毒的,没有添加任何恶意信息
运行程序第一功能和第三功能会因为博客数量多出现卡顿,由于本人对程序理解还不深刻没能找到解决办法,请大家见谅请不要关闭程序,结束后会自动出现数据的
都是自学的一些模块可能会有点理解不到位请大家见谅,需要原代码的解压密码私聊我就好了.
核心代码在'core_code.py'中注释都加全了
2019.8.21
增加了功能
功能介绍:按照分类爬取分类下所有博客,内容添加hexo传输内容包括标题,日期,方便个人博客搭建
exe文件没有更新,更新了核心文件
修复了:无法获取博客内容
md文本内容匹配更加规范,内容更加完善
2019.9.2
版本更新至6.1
2019.10.16
2019.10.18
更新
,py程序已更新该程序只为了帮助学习
码云名称:YWY
码云链接:https://gitee.com/pythonywy
github_id:a568972484
github_url:https://github.com/a568972484
作者博客:小小咸鱼ywy
博客链接:`https://www.cnblogs.com/pythonywy
希望得到大家相关体验,好进行后续的改进,谢谢
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
1. 开源生态
2. 协作、人、软件
3. 评估模型