浅谈pandas,pyspark 的大数据ETL实践经验

文章大纲 0.序言 1. 数据接入 2. 脏数据的清洗 2.1 文件转码 2.2 指定列名 2.3 pyspark dataframe 新增一列并赋值 2.4 时间格式处理与正则匹配 3. 缺失值的处理 4. 数据质量核查与基本的数据统计 4.1 统一单位 4.1.1 年龄 4.1.2 日期 4.1.3 数字 4.2 去重操做 4.3 聚合操做与统计 4.4 Top 指标获取 5.数据导入导出 参
相关文章
相关标签/搜索