一步一步教你PowerBI利用爬虫获取天气数据分析

  对于爬虫你们应该不会陌生,咱们首先来看一下爬虫的定义:网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页,自动获取网页内容的应用程序。看到定义咱们应该已经知道它是能够从万维网上下载网页解析网页数据的。你们想一下在数据分析情景中它的应用场景有哪些?采集天气数据,网站采集文章,采集各类票务信息,股票信息采集等等有不少地方都会用的爬虫采集数据进行数据分析。经过数据分析增长分析维度信息,尤为是行业数据对标。json

  说起爬虫有些软件工程师会第一时间想到Python。Python确实是很是方便的开发软件,会附带大量的依赖库,能够很是简单快速构建爬虫应用程序目前有一些框架只须要写提取规则就能够实现数据提取。咱们这里要讲的爬虫是针对PowerBI软件中建立的采集天气数据爬虫程序。不少行业会受天气影响较大,若是可以知道某地区的天气数据历史记录,就可让销售数据的维度更加丰富。从而给决策者判断问题时作出更好的参考。接下来小黎子将以湖北省主要城市为例,带领你们一块儿实现PowerBI构建爬虫抓取天气数据历史记录。本案例的数据源来自于网络-天气后报,网页中的数据最简单的一种形式就是表格。经过本文你们能够和我同样实现下图的天气报告网络

 

1、分析网站的URL结构框架

一、肯定城市列表URL数据编辑器

我要分析的数据是湖北省主要城市的天气,首先在天气后报网站中找到历史天气,点击进入后找到湖北省函数

 

 

二、肯定城市的URL信息学习

打开任意一个城市的界面,能够单独页面内容为武汉市各年度历史天气列表。主要URL中有WUHAN字符。这里咱们能够肯定每一个城市的连接都存在着相同的规律。网站

三、肯定月份的URL信息搜索引擎

点击上图的任意月份,进入月份的天气列表页。经过分析URL地址咱们也能够看到规律。URL中城市拼音加年月的变量能够得到各个城市各个月份天天的天气情况。spa

 

 

2、构建爬虫主体3d

在分析URL过程当中咱们已经找到了网页URL的规律,所以,咱们能够创建城市列表和日期列表。将两个参数引入URL,从而抓取城市不一样时间的天气数据。注意,历史天气数据是回顾过去的,天气预报也是同样的分析思路。

一、创建城市列表

 

 

二、创建日期列表

在城市列表中添加开始日期

 

 

结束日期

 

 

日期,注意这里须要将日期转换为数值,提取完成后再转换为日期

 

 

展开日期列数据,将格式更改成日期类型

 

 

添加年月列

 

 

提取年和月数据用于后续切片器

 

 

删除重复项

 

 

三、将咱们处理好的数据赋值到URL中

城市列表和日期列表都已经处理好了,下一步就是处理两个列表和URL的关联关系

新建URL自定义列

 

 

忽略隐私检查

 

 

展开URL列,选择Source和Data列便可

 

 

展开Data列,只保留前四列数据

 

 

删除多余的内容,筛选去除标题和空白行

 

 

拆分气温为最高和最低气温,按分隔符/拆分

 

 

去除温度符号℃,用于转换为数值

 

 

处理后

 

 

到这里咱们已经完成了爬虫的数据清洗工做,接下来就开始进入可视化报告制做。

注意:因为起始日期为2011-1-1下载的数据量比较大,须要等待很长时间。你们能够将起始日期更改成2019-1-1之后的日期加载数据会比较快一点。

 

3、制做可视化报告

一、制做年份,月份,城市切片器。城市切片器注意设置方向为水平方向

二、气温趋势线

三、天气明细矩阵表

 

 

四、区域地图

你们能够根据本身的喜爱调整不一样的主题颜色

 

4、总结

咱们顺利完成了抓取湖北省各个城市的2019年的历史天气数据。在使用PowerBI爬虫应用时须要注意的点:

一、分析URL规律是开始处理爬虫的最重要的环节

二、经过PowerBI输入数据功能创建城市列表和使用M函数创建日期列表。

三、两个列表结合处理URL地址解析对应的天气数据,经过WEB.CONTENTS提取网页内容是爬虫的核心内容。你们能够继续延伸学习M函数的使用方法。

四、在后续的文章中也会出现少许的M函数使用,编辑器中会有智能提示告诉你们使用规则,你们也能够经过微软官网查看M函数的语法。

注意:PowerBI爬虫应用不仅是可以解析这种简单的结构,目前有不少的网站后台都是传递的json数据,PowerBI也是能够应对的处理的,只是须要将JSON数据转换为表格。在后续的分析情景中我会进一步来说解爬虫应用。

相关文章
相关标签/搜索