掘金15W沸点简单分析(二)

时间 2020-09-29 标签 15w 沸点简单分析

1、数据预处理与入库

获取到了原始数据以后，下一步就是清洗入库。html

1.1 数据模型

由于是简单分析，因此只获取话题、用户、消息三块内容。具体以下：python

class Pins(object):
    """
    沸点
    """
    msg_id = None            # 沸点ID
    topic_id = None            # 话题ID
    topic_title = None        # 话题名称
    user_id = None            # 用户ID
    user_name = None        # 用户名
    msg_content = None        # 沸点内容
    msg_ctime = None        # 沸点建立时间
    msg_digg_count = 0      # 沸点点赞数
    msg_comment_count = 0   # 沸点评论数

    def __repr__(self):
        return '<Pins: %s>' % self.msg_id

1.2 数据库表建立

数据库的话，使用MySQL。由于沸点内容msg_content中含有emoji表情，因此在建表时字符集编码须要使用utf8mb4。mysql

建表SQL语句以下：git

CREATE SCHEMA `juejin` DEFAULT CHARACTER SET utf8mb4 ;

CREATE TABLE `juejin`.`pins` (
  `msg_id` VARCHAR(20) NOT NULL COMMENT '消息ID',
  `topic_id` VARCHAR(20) NOT NULL COMMENT '主题ID',
  `topic_title` VARCHAR(16) NOT NULL COMMENT '主题名称',
  `user_id` VARCHAR(20) NOT NULL COMMENT '用户ID',
  `user_name` VARCHAR(32) NOT NULL COMMENT '用户昵称',
  `msg_content` TEXT CHARACTER SET 'utf8mb4' NOT NULL COMMENT '消息内容',
  `msg_ctime` VARCHAR(16) NOT NULL COMMENT '消息建立时间戳',
  `msg_digg_count` INT(11) NOT NULL COMMENT '消息点赞数',
  `msg_comment_count` INT(11) NOT NULL COMMENT '消息评论数',
  `msg_createdate` DATETIME NOT NULL DEFAULT now() COMMENT '消息建立时间(同msg_ctime时间戳)',
  PRIMARY KEY (`msg_id`));

1.3 原始数据的读取及入库

接上文，咱们已经将全部沸点数据保存至json_data文件夹下。只须要将该文件下全部的json文件遍历读取出来，在作简单的处理，而后存入数据库便可。github

示例代码以下：web

def read_all_data():
    """
    遍历读取全部json数据，而后入库
    :return:
    """
    pins_list = []
    for dirpath, dirnames, filenames in os.walk('./json_data'):
        filenames = sorted(filenames, key=lambda _: _[5: 9])
        for filename in filenames:
            filename = os.path.join('./json_data', filename)
            print(filename)
            with open(filename, 'r') as pins_file:
                items_data = json.loads(''.join(pins_file.readlines()))['data']
                for item in items_data:
                    pins = Pins().parse_from_item(item)
                    pins_list.append(pins)
                    insert_db([pins])
    return pins_list

最终，数据库表以下图所示。sql