目标:练习爬虫python
KeyWord:python3.5
scrapy
BeautifulSoup4
mysql
flask
echart3
mysql
segmentfault 上的不少线下技术交流活动都很好,我本身也参加过一些,就比较好奇这些活动都有哪些特色,好比说:git
通常在星期几举办?github
什么月份比较多?web
哪一个城市比较多?sql
通常都是哪些类型的?flask
主要分两个部分:爬虫抓取部分、数据展现部分segmentfault
肯定要抓取的数据有哪些。
包括:活动名称、举办时间(日期、星期)、城市、活动目前状态等等。框架
肯定抓取多少页。
一直抓到页面上没有「下一页」按钮为止。scrapy
因而,写了个简单的爬虫把这些数据都拿到手,分析了一下。
这里主要是结合 BeautifulSoup
来肯定数据;
肯定要抓取的数据后存储在 Mysql
中,语句以下:
CREATE TABLE `blog`.`<table_name>` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` varchar(100) NOT NULL, `c_date` varchar(20) NOT NULL, `week` varchar(8) NOT NULL, `week_number` int(11) NOT NULL, `city` varchar(20) NOT NULL, `icon` varchar(100) NOT NULL, `status` varchar(10) NOT NULL, `detail` varchar(100) NOT NULL, `join_link` varchar(100) NOT NULL, `link` varchar(100) NOT NULL, PRIMARY KEY (`id`) ) ENGINE=`InnoDB` AUTO_INCREMENT=1708 DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci ROW_FORMAT=COMPACT CHECKSUM=0 DELAY_KEY_WRITE=0;
使用 scrapy
框架,代码在这:爬虫部分代码。
使用百度的 echart3
图表工具,web 框架使用 flask
。
代码在这里:数据展现部分代码。
下图是我想到的几种状况分析:
以上!