python docx文档转html页面

文章连接:mp.weixin.qq.com/s/uMb2ziRS1…html

说到word文档转html的,网上一搜一大把,各类在线word转html页面,使用起来也方便。可是在实际项目中要使用的话,须要本身开发,这里就提供一个简单的方法。
后缀 .doc 和 .docx 都是word文档,doc是word2003以及以前版本保存的文档,docx是word200七、word2010等保存的新型文档,本质都是属于文字排版的文件。注意 这里提供的方法暂时是针对docx的。前端

这里使用pydocx的库,安装pip3 install pydocx,能够直接对docx文件进行处理,简单粗暴,PyDocX.to_html("**.docx"),返回值就是转换后的html的源码,而后再经过写文件,写到html文件里面。bash

from pydocx import PyDocX
html = PyDocX.to_html("test.docx")
f = open("test.html", 'w', encoding="utf-8")
f.write(html)
f.close()
复制代码

这里对文件的处理都是当前文件夹下面的,获得的html文件能够直接打开查看,经过对html查看,能够发现文字转换成了P标签,图片使用base64 的方式显示的。服务器

这里是对本地的文件进行处理,进一步部署到服务器上,我使用的是Django的项目,前端页面经过form 表单进行上传docx 文件。微信

<form method="post" enctype="multipart/form-data">
<input type="file" name="file" accept="application/vnd.openxmlformats-officedocument.wordprocessingml.document">
</form>
复制代码

<input> type属性定为file,accept="application/vnd.openxmlformats-officedocument.wordprocessingml.document" 筛选docx 的文件。app

使用地址:www.manjiexiang.cn/blog/wordto…post

这里上传的文件是docx格式的word文档,针对doc 的文档,能够手动改为docx后缀名,进行上传使用。 尝试用代码转换成docx,window平台下有相应的库,ubantu 暂时无果,欢迎码友提供解决方法。
介绍下window平台下的代码转换方法,pip3 install pypiwin32安装这个库,里面有win32com,将doc文档转成docx 的。学习

from win32com import client
word = client.Dispatch("Word.Application")
doc = word.Documents.Open("D:\\***\\**.doc") //绝对路径 doc文件
doc.SaveAs("D:\\***\\**.docx",16) //保存的docx 文件,绝对路径
doc.Close()
word.Quit()
复制代码

欢迎关注个人我的博客:www.manjiexiang.cn/ui

更多精彩欢迎关注微信号:春风十里不如认识你
一块儿学习,一块儿进步,欢迎上车,有问题随时联系,一块儿解决!!!spa

相关文章
相关标签/搜索