1.大致的一个流程:前端
前端日志数据 --> Nginx -->Logstash 生产者--> kafka -->Hdfs多线程
其中Logstash 生成者消息不少 按照topic区分 每个产品6个topic 每一个topic三个分区 ,kafka consumer有消费不过来的问题。测试
由于 多线程写入HDFS 会有租约的问题 (这个目前没有解决)spa
后续跟踪记录线程
Kafka Consumer 项目 配置一次拉取多条记录 以及手工提交offset等日志
明天 测试新的 写入HDFS的方案。kafka