离线大数据开发实战(读书笔记)

第一章 概述 数据分为以下几类: 1.结构化数据 :数据库中的数据 2.半结构化数据:日志文件、XML/JSON 3.非结构化数据:图像、声音 数据储存处理 1.离线处理:按天进行数据处理,每天凌晨等数据采集和同步的数据到位后,相关的数据处理任务会被按照预先谁的ETL(抽取、转换、加载)逻辑以及ETL任务之间的拓扑关系一次调用。最终数据会被写入离线数据仓库中。离线数据仓库通常是按照某一种建模思想(
相关文章
相关标签/搜索