整合 Tachyon 运行 Apache Flink(译)

整合 Tachyon 运行 Apache Flinkhtml

本人详述了如何基于Tachyon 运行 Apache Flink, 这样在 Tachyon 中能够很便捷的处理文件存储。web

前提apache

首先,得存在 Java 环境。 咱们也假设你已经根据 Local Mode 或 Cluster Mode 指导安装了 Tachyon 和 Flink 。oop

请在 Apache Flink  website 查找指导设置Flinkspa

配置

Apache Flink 容许经过文件系统包装Hadoop文件系统使用Tachyon。全部,配置Tachyonn主要是在 Hadoop 配置文件中。code

在 core-site.xml 配置属性

若是你已经有 Hadoop 配置,接下来 Flink 安装,添加以下属性在 core-site.xml 配置文件:orm

<property>
    <name>fs.tachyon.impl</name>
    <value>tachyon.hadoop.TFS</value>
</property>
xml

若是你没有配置 hadoop,你必需要建立 core-site.xml 而且添加下面的Property:htm

<configuration>
    <property>
        <name>fs.tachyon.impl</name>
        <value>tachyon.hadoop.TFS</value>
    </property>
</configuration>

确保 core-site.xml 的路径在 conf/flink-config.yaml

接下来,你必须在在Flink中指定Hadoop配置的路径, 在 Flink 根目录下打开 conf/flink-config.yaml, 到含有 core-site.xml   directory  设置配置 fs.hdfs.hadoopconf 的值。在 Hadoop 更新版本中,该目录一般以 etc/hadoop/ 结尾。ip

确保 Flink 对于 tachyon-0.7.1.jar 是可用的

在最后一步中,咱们须要确保 Tachyon jar 文件对于 Flink 是可用的,由于它包含 tachyon.hadoop.TFS 类的配置。

有如下几种不一样方式来实现:

  • 将 tachyon-0.7.1.jar 文件放入Flink 的 lib/ 的目录下 (为本地和伪集群配置)

  • 将 tachyon-0.7.1.jar 文件放入Flink 对于 YARN 的 ship/ 目录下

  • 在HADOOP_CLASSPAH 环境变量中指定 jar 文件位置 (确保全部集群节点都是可用的). 例如像这样:

    export HADOOP_CLASSPATH=/pathToTachyon/client/target/tachyon-client-0.7.1-jar-with-dependencies.jar

结合Tachyon 使用 Flink

为告终合 Tachyon 使用 Flink,仅仅须要使用 tachyon://scheme 。

若是Tachyon是本地安装,有效的路径是相似这样:tachyon://localhost:19998/user/hduser/gutenberg

相关文章
相关标签/搜索