海量小文件的的根源

作者:祝威廉,资深数据架构,11年研发经验。同时维护和开发多个开源项目。擅长大数据/AI领域的一些思路和工具。现专注于构建集大数据和机器学习于一体的综合性平台,降低AI落地成本相关工作上。 小文件的问题其实以前也一直困扰着我,对于传统数仓,导致小文件多的原因非常多: 分区粒度,如果你分区非常多,就会导致更多的文件数产生 很多流式程序是只增操作,每个周期都会产生N个文件,常年累月,积石成山。 以前为
相关文章
相关标签/搜索