PDF文件如何转成markdown格式

百度上根据pdf转makrdown为关键字进行搜索,结果大多数是反过来的转换,即markdown文本转PDF格式。html

可是PDF转markdown的解决方案不多。git

正好我工做上有这个需求,因此本身实现了一个解决方案。github

下图是一个用PDF XChange Editor打开的PDF文件,我想将其内容经过markdown格式导出。markdown

(1) 首先将该PDF导出成word格式,后缀.docx网络

(2) 使用typora得到该word文档的markdown源代码:工具

此时任务只完成了一半,由于typora这个工具转换成的markdown格式,若是原始的word文档里包含图片,这些图片以本地图片的形式存在于markdown里,那我若是直接将包含了这些本地图片的标签的markdown发布到简书,CSDN,开源中国,腾讯云,阿里云这些支持markdown的社区时,这些本地图片将没法显示。网站

所以咱们必须找到一个高效的方法,将word里包含的本地图片先上传到网络上,再用生成的包含了图片网络url的markdown标签替换本地图片标签。
(3) 把word文件的后缀从.docx改为.zip, 解压后,在文件夹word的子文件夹media里能找到全部的本地文件。阿里云

把这些本地文件所有上传到网站,生成下面这些url:url

我写了一个工具,能够把仅包含了本地图片标签的markdown源代码和包含了上述在线图片url标签的源代码作一个合并,后并后,本地图片标签会被在线图片标签取代:spa

这个工具能够从我github上得到:
https://github.com/i042416/Kn...

下图就是个人原始PDF转换成markdown格式后发布在某社区上的效果,和原始PDF外观彻底一致:

要获取更多Jerry的原创文章,请关注公众号"汪子熙":

相关文章
相关标签/搜索