hadoop(7)--下载数据源码解析(上)

时间 2019-11-24

原文原文链接

前面了解了hadoop写文件，读文件的执行过程，那么hadoop内部是怎么实现的呢？接下来看一下从hdfs中读取文件的源码，一块儿来分析一下，这样就会更加了解hdfsjava

首先将hadoop/share/common中的jar以及所依赖的lib中的jar，hadoop/share/hdfs中的jar以及所依赖的lib中的jar,导入到工程node

image.png

总共59个jar包，写一个测试类linux

package cn.xmf.haddop;


import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import java.io.FileOutputStream;
import java.io.IOException;

/** * Created by Administrator on 2018/4/11. */
public class hdfs {
    public static void main(String[] args) throws IOException {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS","hdfs://my01:9000/");
        FileSystem fs = FileSystem.get(conf);
        FSDataInputStream input = fs.open(new Path("/jdk-8u161-linux-x64.tar.gz"));
        FileOutputStream output = new FileOutputStream("d:/jdk8.tgz");
        IOUtils.copy(input,output);
    }
}

复制代码

运行以后，会将以前hdfs根路径下的jdk下载到d盘，效果以下图apache

这个就是下载下来的

接下来重点来了将断点打到FileSystem这一行，进入到FilegeSystem的get方法中分布式

image.png

继续点击get,进去oop

image.png

向下走,会走到测试

image.png

能够看出三目运算，执行CACHE.get(uri,conf),那么进入到这个里面看看ui

image.png

Cache是FileSystem的内部类，再往下看

image.png

继续走spa

image.png

这里就是根据scheme从SERVICE_FILE_SYSTEMS这个里面拿出class,那么hdfs对应对FileSystem的实例是什么，继续看一下3d

image.png

是DistributedFileSystem终于得到了，下面就很简单，就是将这个class返回，那么在获取FileSystem的时候，实际上是根据conf中配置的fs.defaultFS来肯定的哪种FileSystem。OK到这里刚才第一句话的原理才分析透彻，哪一句话呢？

image.png

就是图上的这一句话：
FileSystem fs = FileSystem.get(conf);
好了！到这里先暂停一下，说一下这个FileSystem都有哪些实现类，刚才的DistributedFileSystem看名字的意思就是分布式文件系统，说白了就是hdfs的文件系统，问什么它在命名的时候不叫HdfsFileSystem呢？缘由就是：他愿意，哈哈，你能咋地，若是这个是你开发的，你能够叫HdfsFileSystem，可是你不是，我也不是，说这么多就是要记住DistributedFileSystem是HDFS的FileSystem。好了！看一下FileSystem都有哪些实现类