JAVA获取word表格中数据的方案

上一个项目的开发中须要实现从word中读取表格数据的功能,在JAVA社区搜索了不少资料,终于找到了两个相对最佳的方案,由于也获得了很多网友们的帮助,因此不敢独自享用,在此作一个分享。

两个方案分别是:一,用POITableIterator获取表格中的数据;二,用PageOffice来获取。java

为何说是两个相对最佳的方案呢?由于两个方案都各有优缺点,POI的优势很明显,就是免费,这正是PageOffice的缺点,PageOffice是一个国产的商业Office组件;POI的缺点有点多,接口复杂调用起来比较麻烦,尤为是很差读取word指定位置处的内容。因为获取表格数据的代码是在服务器端执行的,因此要求很高的代码质量,要考虑到代码执行效率问题、用户请求并发问题、大文档执行慢阻塞页面的问题等等,POI的架构属于仿VBA接口的模型,比VBA代码还要复杂,在调用方便上未作任何优化,光看代码都以为头疼。因此在实际使用的过程当中会遇到这些问题须要本身解决,相对来讲这正是PageOffice的优势,使用PageOffice的话,就不会遇到这些问题,由于PageOffice的获取word中表格数据的工做是在客户端执行的,确实也符合了分布式计算思想,减轻服务器端压力,最为强悍的是,用PageOffice居然能够从word表格中用很简单一句代码把图片提取出来,实在是出乎意料……apache

顶礼膜拜中……编程

膜拜完毕再回回神儿,PageOffice是收费的,可是事半功倍,并且还能实现许多POI没法实现的功能。若是确实预算紧张,仍是须要用POI,再难用也要捏着鼻子用了……,闲话少撤,看代码实现。服务器

POI获取word表格中数据的代码以下:架构

====================================并发

package PoiTest;分布式


import java.io.FileInputStream;ide

import org.apache.poi.hwpf.HWPFDocument;优化

importorg.apache.poi.hwpf.usermodel.Paragraph;spa

import org.apache.poi.hwpf.usermodel.Range;

import org.apache.poi.hwpf.usermodel.Table;

importorg.apache.poi.hwpf.usermodel.TableCell;

importorg.apache.poi.hwpf.usermodel.TableIterator;

importorg.apache.poi.hwpf.usermodel.TableRow;



importorg.apache.poi.poifs.filesystem.POIFSFileSystem;


public class ExportDocImpl {

public static void testWord() {

 try {

  FileInputStream in = new FileInputStream("F:\\table.doc");// 加载文档

  POIFSFileSystem pfs = new POIFSFileSystem(in);

  HWPFDocument hwpf = new HWPFDocument(pfs);

  Range range = hwpf.getRange();// 获取文档的读取范围

  TableIterator it = new TableIterator(range);

  // 迭代文档中的表格

  while (it.hasNext()) {

   Table tb = (Table) it.next();

   // 迭代行,默认从0开始

   for (int i = 0; i < tb.numRows(); i++) {

    TableRow tr = tb.getRow(i);

    // 迭代列,默认从0开始

    for (int j = 0; j < tr.numCells(); j++) {

      TableCell td = tr.getCell(j);

    // System.out.println(td.text());

     // 取得单元格的内容

     for (int k = 0; k < td.numParagraphs(); k++) {

      Paragraph para = td.getParagraph(k);

      String s = para.text();

      System.out.println(s.replaceAll("\r","").replaceAll("","")+":"+s2.replaceAll("\r","").replaceAll(" ",""));

     }


    }

   }

   }


   in.close();

  }catch (Exception e) {

  e.printStackTrace();

  }

}


public static void main(String[] args){

 testWord();

}


}


PageOffice获取word表格中数据的代码:

=====================================

import com.zhuozhengsoft.pageoffice.*;

import com.zhuozhengsoft.pageoffice.wordreader.*    ;


        //建立word文件处理对象

WordDocument doc= new WordDocument(request, response);

        DataRegiondataReg = doc.openDataRegion("PO_table");

        SimpleDateFormatformat = new SimpleDateFormat("yyyyMMddHHmmSS");

        //获取Word中指定单元格内插入的图片

        Shapeshape = dataReg.openTable(1).openCellRC(1,5).openShape(1);

        Stringpath = "photos/" + format.format(new Date()) + ".jpg";

        StringPhotoUrl = request.getSession().getServletContext()

                           .getRealPath(path);

        shape.saveAsJPG(PhotoUrl);//保存图片到某个目录下


        Tabletable = dataReg.openTable(1);

        //Word中的table获取数据

        StringName = table.openCellRC(1, 2).getValue();

        StringSex = table.openCellRC(2, 2).getValue();

        StringEduGrade = table.openCellRC(2, 4).getValue();

        StringProfession = table.openCellRC(3, 2).getValue();

        StringJob = table.openCellRC(3, 4).getValue();

        StringExperience = table.openCellRC(4, 2).getValue();

        StringAddress = table.openCellRC(6, 3).getValue();

        StringEmail = table.openCellRC(7, 3).getValue();

        StringPhone = table.openCellRC(8, 3).getValue();


        doc.close();


PageOffice的以上代码是从例子代码里拷贝出来的,能够从PageOffice的官网下载中心下载“PageOffice for JAVA Word ResumeDemo[示例代码]”看看里面的具体代码和实现效果。须要说明一点,PageOffice中提到了一个数据区域(DataRegion)的概念,其实所谓的数据区域本质上就是书签,可是这个书签必须以“PO_”开头,编程的时候代码里这个前缀还必须大写,虽然有这么一点不方便,可是好处很大,若是word文件中有多个表格的话,能够用数据区域去指定PageOffice获取word中哪一个表格的数据,定位很是方便,比方说PO_Table的书签里有一个表格,那么无论这个表格在整个word文件中是第几个表(word中的表格没有名称只有Index,从文件头到末尾依次编号的)用doc.openDataRegion("PO_table").openTable(1);老是能够获取到这个表格的数据,很是方便,用POI就不行了,表格、图片位置移动,代码必须重写。

就写这么多吧,作个共享,但愿对你们都有帮助。

相关文章
相关标签/搜索