Python+PySpark 做用户画像

一、数据准备 主要用到两个数据文件: action.txt , document.txt 。 下表为 action.txt ,数据格式: userid docid behaivor time ip ,即: 用户编码 文档编码 行为 日期IP地址 下表为 document.txt ,数据格式: docid channelname source keyword:score ,即: 文档编码 类别(大类
相关文章
相关标签/搜索