这个功能思来想去想了好久,终于实现了基本功能,本身基于别人的后台权限管理系统写了一个博客系统,其实博客系统只是一小部分,但今天只讲博客部分,其余详见:html
RZSpider详见:https://blog.csdn.net/rico_zhou/article/details/83618255 https://www.rzspider.top U:testadmin P:testadmin前端
RZBlog详见:https://blog.csdn.net/rico_zhou/article/details/83617549 https://www.rzspider.top/rzblogjava
博客搬家简单来讲就是把例如CSDN,博客园,开源中国等程序员博客汇集地所写的博客一键转移到本身的博客网站,固然是爬取本身的博客(别人的不是不能,而是不能够),而且保持样式尽可能不便,图片也下载到本身的网站,以及其余一些设置。本文在前端页面博客搬家详情弹窗部分HTML参考了 张亚东博客但仅此而已,后台的框架代码均自写。git
将CSDN,博客园,开源中国,简书,以及今日头条,还有本地WORD文档以html形式搬家到自有网站,如需修改请使用HTML编辑器,如summernote,并保持基本样式不便,图片自转移。程序员
采用java语言,使用框架htmlunit爬取页面,使用jsoup解析页面,对于word文档则使用poi解析,辅助fastjson。github
因为代码是从项目中截取,虽然可独立运行,可是可能会有一些无用代码,敬请见谅!json
不使用代理,不考虑性能,仅为简单实现,见谅!框架
博客搬家系列(一)-简介:http://www.javashuo.com/article/p-ctgxpaub-bu.html编辑器
博客搬家系列(二)-爬取CSDN博客:http://www.javashuo.com/article/p-eegrpfzv-x.htmlide
博客搬家系列(三)-爬取博客园博客:http://www.javashuo.com/article/p-hbjeoaya-gc.html
博客搬家系列(四)-爬取简书文章:https://blog.csdn.net/rico_zhou/article/details/83619538
博客搬家系列(五)-爬取开源中国博客:https://blog.csdn.net/rico_zhou/article/details/83619561
博客搬家系列(六)-爬取今日头条文章:https://blog.csdn.net/rico_zhou/article/details/83619564
博客搬家系列(七)-本地WORD文档转HTML:https://blog.csdn.net/rico_zhou/article/details/83619573
博客搬家系列(八)-总结:https://blog.csdn.net/rico_zhou/article/details/83619599
完整源码请见github:https://github.com/ricozhou/blogmove