Tika提取文件元数据

时间 2019-11-12

标签 tika 提取文件数据繁體版

原文原文链接

Tika能够从文件中提取元数据。html

什么是元数据：spa

元数据是文件所提供的的附件信息即文件的属性。　　code

word文档的元数据：htm

Tika提取元数据：对象

咱们可使用文件parse()方法提取元数据，传递一个空的元数据对象做为一个参数。这种方法提取指定的文件的元数据(若是该文件中包含有)，并将它们放置在元数据对象。所以，在使用parse()解析文件后，就能够提取该对象的元数据。blog

下面是完成提取元数据的例子文档

　　@Test
    public void getMetadataToImg() throws IOException, TikaException, SAXException {
        File file = new File("F:\\页面\\数字档案室\\html - 副本\\style\\erms\\images\\hintIcon.png");
        Parser parser = new AutoDetectParser();
        BodyContentHandler handler = new BodyContentHandler();
        Metadata metadata = new Metadata();
        FileInputStream inputstream = new FileInputStream(file);
        ParseContext context = new ParseContext();
        parser.parse(inputstream, handler, metadata, context);
        String[] metadataNames = metadata.names();
        for (String name : metadataNames) {
            System.out.println(name + ": " + metadata.get(name));
        }
    }

获取结果：get

文档参考网址：https://www.sxt.cn/tika/tika_metadata_extraction.htmlinput