使用SparkSQL 分析日志中IP数、流量等数据

写在前面 前面文章中,咱们使用Spark RDD从非结构化的日志文件中分析出了访问独立IP数,单个视频访问独立IP数和每时CDN流量,这篇文章主要介绍使用Spark SQL从结构化的数据中完成这些数据的分析,以下图全部,先将日志文件结构化成csv文件,此文件可从源码cdn.csv中获取css Pom文件中添加SparkSQL依赖 <dependency> <groupId>
相关文章
相关标签/搜索