JAVA URL协议扩展支持HDFS

时间 2019-11-18

标签 java url 协议扩展支持 hdfs 栏目 Java 繁體版

原文原文链接

问题：

最近在作天然语言处理的时候,使用了谢菲尔德大学的Gate,奈何Gate只能从本地文件读取配置和语义文件,特将此改形成从HDFS读取,而且和Spark集成起来,作到实时解析
改造完成后才发现能够使用自定义URL来实现，这样改动量就会少一点，后知后觉，特作此记录

扩展的两种方式：

重写URLStreamHandler

//构造方法
public URL(URL context, String spec, URLStreamHandler handler) throws MalformedURLException

//重写URLStreamHandler
new URLStreamHandler(){
     @Override
     protected URLConnection openConnection(URL u) throws IOException {
          return null;
     }
 }

//重写URLConnection, getInputStream,getOutputStream和其余方法根据可根据实际状况决定是否重写
class TestURLConnection extends URLConnection {
    public TestURLConnection(URL url) {
        super(url);
    }

    @Override
    public void connect() throws IOException {
    }

    @Override
    public InputStream getInputStream() throws IOException {
        return super.getInputStream();
    }

    @Override
    public OutputStream getOutputStream() throws IOException {
        return super.getOutputStream();
    }
}

重写URLStreamHandlerFactory

new URLStreamHandlerFactory(){
        @Override
        public URLStreamHandler createURLStreamHandler(String protocol) {
            return null;
        }
}

public static void setURLStreamHandlerFactory(URLStreamHandlerFactory fac) {
        synchronized (streamHandlerLock) {
            if (factory != null) {
                throw new Error("factory already defined");
            }
            SecurityManager security = System.getSecurityManager();
            if (security != null) {
                security.checkSetFactory();
            }
            handlers.clear();
            factory = fac;
        }
    }

本质仍是使用了URLStreamHandler，可是要注意，setURLStreamHandlerFactory只可以调用一次，当工程很大，依赖不少的时候，可能会有框架中的代码先于业务代码，调用过此方法，因此为了不此种状况，最好使用方法一apache

PS:编写HDFS的大牛早就想到了,因此直接使用org.apache.hadoop.fs.FsUrlStreamHandler 便可框架