HDFS学习笔记4 -- Centralized Cache技术

  对于高频率使用的数据,用户能够将其放人某文件夹,而后向各个DataNode发出指示将其中的数据缓存在内存里。这种状况下,用户还能够利用一组zero-copy的API,同时因为再也不须要反复验证数据完整性,能够显著提升计算效率。缓存

  各DataNode的缓存由NameNode统一管理,周期性地向后者发送cache report。NameNode周期性地查询本身的缓存指令集(Set of cache directives)来决定须要将哪些块缓存或解除缓存。内存

  每条缓存指令(Cache directive)能够定义一条须要被缓存路径,若是指定的是文件夹,则只有其中第一级的文件能被缓存。指令中还能够指定一些额外的参数,如复制系数和过时时间等。资源

  缓存池(Cache pool)是一个管理单元的概念,对于一组缓存指令集,对不用的用户进行指令的读,写,添加,删除等权限管理功能。同时还能够用于资源管理,如规定最大缓存量。还能够提供一些缓存数据的统计信息。另外,还能够为它的全部cache设置一个最大生存时间。效率

  目前只支持文件和文件夹级的缓存,未来可能会支持文件块及子块级的缓存。权限

相关文章
相关标签/搜索