采集方式聚集(sqoop、spark、flume、logstash、filebeat)

前文:            数据仓库中ods层通常使用外部表,通常默认采用 \001 做为分隔符,但textfile格式在遇到文本数据就会有分隔符及换行符问题,因此采用parquet做为存储格式,但也会引进数据类型转换的问题。java             对于日志数据,kafka中常常存放不一样来源的日志数据,可经过Flume的正则匹配将数据发送到不一样的hdfs文件夹。mysql    
相关文章
相关标签/搜索