第一步:安装Microsoft Office Document Imaging
要安装Microsoft Office Document Imaging,须要先下载该软件。其实Microsoft Office Document Imaging不须要下载,Microsoft Office 200三、2007都提供了该工具,咱们能够在“开始”菜单的“Microsoft Office 工具”找到该软件。若是在“Microsoft Office 工具”没有该软件,能够插入Microsoft Office安装盘,选择“Office 工具”中的“Microsoft Office Document Imaging”安装该软件。
第二步:把PDF文档“打印”为多页面的图像
Microsoft Office Document Imaging安装后,会给Windows安装一个叫Microsoft Office Document Image Writer的虚拟打印机,该打印机能把任何文档,包括PDF文档打印为MDI或TIF格式的图像:
1. 用Adobe Reader等PDF浏览器打开PDF文件;
2. 选择“文件→打印”,打开“打印机”对话框;
3. 在“名称”中选择“Microsoft Office Document Image Writer”打印机,打印范围能够选择所有页面或当前页面;
4. 在正式打印前,还须要设置输出格式和图像的保存位置:点击“属性”,选择输出格式和保存文件夹,通常状况下,咱们选择MDI格式便可;
5. 点击“肯定”,选择的页面就会被打印为MDI格式的文件
提示:MDI和TIF是图像文件,它们共同的特色是一个文件中能够包含多页图像,所以咱们能够把一个具备不少页的PDF文件打印为一个MDI或TIF文件。
第三步:执行OCR,把图像中的文字识别为可编辑的文本
默认设置下,打印完成后,生成的MDI文件会自动被Microsoft Office Document Imaging打开。在Microsoft Office Document Imaging中,咱们可使用“页面窗格”或工具栏上的“上一页”或“下一页”按钮,查看包含在MDI或TIF文件中的多页图像。定位到须要的页面,咱们就能够执行OCR识别了。
1. 选择须要识别的页面,而后点击工具栏上的OCR识别按钮,如图7所示,能够选择全部页面或当前页面进行识别;
2. 点击“肯定”,Microsoft Office Document Imaging启动OCR识别引擎开始对选择的页面进行识别;
3. 点击工具栏上的框选工具,在须要提取的文字上画框,而后点击右键,选择“将文本发送到WORD”,便可将要提取的文字发送到WORD中;
4. 若是要将整个页面或全部页面上的文字发送到WORD,可点击工具栏上的“将文本发送到WORD”按钮,在打开的对话框上选择“全部页面”或“当前页面”,便可将所选页面上的文字发送到WORD中。
提示:MDI文件还有一个特性就是能将识别出的文本和原来的图像同时保存下来。这也就是说,咱们下次打开MDI文件,不须要再执行OCR识别,就可把页面上文字发送到WORD中。
第四步:在WORD中纠错,排版文本
经过观察发送到WORD的文本,咱们会发现不少文字被错误地识别成其它字。实际上,100%地识别图像上文字是不可能的,要提升识别率,咱们可选用清晰度较高的PDF文件,另外,若是文件被打印成TIF格式,选择较高的分辨率也能提升识别率。不过还好,借助Word强大的文字编辑与排版功能,咱们能够对照原版对识别后的文档进行校订。浏览器
文章如转载,请注明转载自【网管小王的独立博客】:http://www.5iadmin.com/ide