点击上方“Python爬虫与数据挖掘”,进行关注
回复“书籍”即可获赠Python从入门到进阶共10本电子书
今
日
鸡
汤
昨夜风开露井桃,未央前殿月轮高。
大家好,我是Python进阶者。昨天给大家分享了Python自动化办公的文章,Py自动化办公—Word文档替换、Excel表格读取、Pdf文件生成和Email自动邮件发送实战案例,留言,点赞都非常不错,欢迎取阅!
前几天在转载小小明大佬C站(CSDN)的文章的时候,遇到了一个头大的事情,一开始我都是去他的C站上找到对应的文章,之后挨个复制粘贴到我的公众号后台,后来我发现他的文章写得很肝,动则几千字,上万字,干货满满,挨个复制粘贴的我累的发慌,整理一篇文章半个小时左右。正在头大之时,小小明大佬给我丢来一个他自己开发的漫游者工具,专门用于导出C站的文章,我直呼好家伙,有了这个工具,我整理一篇文章5分钟左右,这效率yyds!
软件介绍首先你需要下载这个软件,可以点击原文获取,软件不太大,安装之后打开,界面如下图所示:
经过小小明大佬迭代改进,目前已经是V0.3版本了,这个软件的主要功能如下:
主要功能:
阅读指定用户的文章
对缓存文章列表快速搜索
导出文章链接列表 (支持txt,csv和tsv三种格式,含发布时间,阅读数,点赞数 和 评论数)
快速复制标题和链接
原生批量导出自己的文章(Markdown和富文本均可导出;支持对接富文本批量转Markdown服务;支持私密文章导出;支持按发布年月分组导出;支持仅导出搜索结果;分组导出包含明细统计) 功能十分的丰富,基于我自己的需求,这里我只需要使用第五个功能,批量导出自己的文章,下面一起来看看吧!
打开后,输入你想读取的用户的ID,即可查看他的公开文章,点进【Python进阶者】的主页看看,主页链接是:https://blog.csdn.net/pdcfighting,说明该用户的ID是pdcfighting。
为什么显示有1204篇文章却只缓存1137篇?这是因为文章标题文字完全一致的文章导致了覆盖。默认情况下勾选了缓存全部链接选项,此时点击读取链接时,会一次性逐页读取全部公开链接,并自动移动到最后一页。如果需要读取指定页,需要先取消勾选,然后输入需要读取的页面后,点击读取链接即可读取指定页。(每页100条链接)
注意:未登录状态下,不输入用户ID,直接读取链接将读取作者的文章链接。登录后,不输入用户ID,则读取登录用户的文章链接。输入ID的情况下,都以输入的ID为准。
2)快速输入cookie这款软件本身也提供了从剪切板的cURL(Bash)命令字符串中解析出cookie进行操作。首先复制请求对应的cURL(Bash)命令,注意必须是bash版本,不要复制cmd版本:
之后点击菜单栏的小工具:
输入保存的文件名之后便在程序当前目录下保存了cookie文件。保存后,点击一下检查cookie之后,标题栏已显示当前登录的用户:
此时直接点击读取链接,就是读取自己的文章了。
3)批量导出自己的文章之后点击批量导出文章按钮,之后就开始批量导出了。
在本地也可以看到导出的html文件,如下图所示:
这样就完成了C站文章的全部导出。原本使用Markdown编辑器编辑的则导出Markdown,使用富文本编辑器编辑的文章则导出HTML。那有读者就郁闷了,这导出来大部分都是格式的,现在很多自媒体平台都是支持md格式的,那么怎么将富文本编辑器编辑的文章(即HTML格式)转换为Markdown格式呢?不要慌,问题不大,这里小小明大佬都给你安排上了。
4)HTML格式文档转Markdown格式转换之前,首先需要安装nodejs,下载地址https://nodejs.org/zh-cn/download/,点击对应的自己电脑的版本下载安装即可,没啥难度。
接下来还需要下载下面的服务源码,可以点击阅读原文获取。
解压后,形式如下:
在解压的目录下执行命令:
node html2md.js
此时,我们的程序中就可以启动链接md转换服务了:
此时再点击批量导出,耗时与没有启动该服务时差不多,之后可以发现之前富文本编辑的文章都已转换为Markdown,如下图所示:
打开文件之后,发现几乎没啥失真的问题,简直太强了!
总结这篇文章基于小小明大佬开发的漫游者工具,顺利完成了C站上发布的历史文章批量导出备份,而且还实现了将富文本HTML格式文件顺利转换为Markdown格式文件,内容几乎不失真,可以同步到多个其他的自媒体平台,省时省心!
最后感谢【小小明】大佬提供的素材和软件,亲测有效,这里的介绍只是冰山一角,更多内容可以点击阅读原文获取更多漫游者软件知识,欢迎大家积极尝试。
小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。
------------------- End -------------------
往期精彩文章推荐:
手把手教你JS逆向搞定字体反爬并获取某招聘网站信息
如何用Python下载百度指数的数据
分享一次实用的爬虫经验
补充篇:盘点6种使用Python批量合并同一文件夹内所有子文件夹下的Excel文件内所有Sheet数据
欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持
想加入Python学习群请在后台回复【入群】
万水千山总是情,点个【在看】行不行
/今日留言主题/
随便说一两句吧~~



