segmentfault 线下活动数据分析

时间 2019-11-10

标签 segmentfault 线下活动数据分析栏目快乐工作繁體版

原文原文链接

开始说明

目标：练习爬虫python
KeyWord：python3.5 scrapy BeautifulSoup4 mysql flask
echart3mysql

segmentfault 上的不少线下技术交流活动都很好，我本身也参加过一些，就比较好奇这些活动都有哪些特色，好比说：git

通常在星期几举办？github
什么月份比较多？web
哪一个城市比较多？sql
通常都是哪些类型的？flask

主要分两个部分：爬虫抓取部分、数据展现部分segmentfault

爬虫抓取部分

主要思路：

肯定要抓取的数据有哪些。
包括：活动名称、举办时间（日期、星期）、城市、活动目前状态等等。框架
肯定抓取多少页。
一直抓到页面上没有「下一页」按钮为止。scrapy

因而，写了个简单的爬虫把这些数据都拿到手，分析了一下。

实施步骤：

1.分析页面连接和内容，肯定要抓取的内容

这里主要是结合 BeautifulSoup 来肯定数据；

2.建立数据表

肯定要抓取的数据后存储在 Mysql 中，语句以下：

CREATE TABLE `blog`.`<table_name>` (
    `id` int(11) NOT NULL AUTO_INCREMENT,
    `name` varchar(100) NOT NULL,
    `c_date` varchar(20) NOT NULL,
    `week` varchar(8) NOT NULL,
    `week_number` int(11) NOT NULL,
    `city` varchar(20) NOT NULL,
    `icon` varchar(100) NOT NULL,
    `status` varchar(10) NOT NULL,
    `detail` varchar(100) NOT NULL,
    `join_link` varchar(100) NOT NULL,
    `link` varchar(100) NOT NULL,
    PRIMARY KEY (`id`)
) ENGINE=`InnoDB` AUTO_INCREMENT=1708 DEFAULT CHARACTER SET utf8
COLLATE utf8_general_ci ROW_FORMAT=COMPACT CHECKSUM=0 DELAY_KEY_WRITE=0;

3.编码实现

使用 scrapy 框架，代码在这：爬虫部分代码。

展现部分

使用百度的 echart3 图表工具，web 框架使用 flask。
代码在这里：数据展现部分代码。
下图是我想到的几种状况分析：

以上！