http://www.cnblogs.com/muchen/p/5391101.htmlhtml
阅读目录
•前言
•Power BI的三大工做区
•导入数据
•数据塑形 - 工做区介绍
•数据塑形 - 工做流程
•报表制做 - 工做区介绍
•报表制做 - 详细流程
•小结
•课后做业数据库
前言浏览器
报表制做流程的第一步显然是从各个数据源导入数据,Power BI能从不少种数据源导入数据:如Excel,CSV,XML,以及各种数据库(SQL Server,Oracle,My SQL等),两大主流开源平台(Hadoop,Spark)等等。本文篇幅所限,没法一一说明,仅就网页获取数据的方式进行讲解(其余方式大同小异)。 而后本文将在Power BI后台工做区(下简称后台区)对获取到的数据集进行塑形。所谓塑形就是肯定数据集的列名以及数据类型,还有进行一些基本数据清洗转换工做,以保证Power BI报表模块能正确解读数据集。塑形后的数据集其实就是Power BI报表绘制区(下简称报表区)的输入。 一旦数据塑形好,咱们就能切换到Power BI报表区绘制各类报表了。最后本文将制做一张报表,愉快地结束本次学习。
回到顶部markdown
Power BI的三大工做区ide
在上篇中,大体介绍了Power BI的开发流程,以下图所示:
Power BI中,报表区和后台区分别对应"报表绘制"和"数据塑形"阶段。关联工做区(下简称关联区)则负责关联Power BI中的多个表。读者如今无需纠结这个工做区,后期教程会对它进行详细讲解。 刚打开Power BI,将进入到报表区。下图标记了报表区中后台区的入口:
点击左侧中间那个亮蓝色按钮则会进入到后台区的"只读模式"。它不是真正的后台工做区不能对数据作任何转换处理工做,这点初学者务必注意。 下图标记了后台区进入报表绘制区的入口,点击该按钮会返回到报表区并使用塑形后的数据更新报表:
导入数据工具
本文采用的数据集来源于以下网页: http://www.bankrate.com/finance/retirement/best-places-retire-how-state-ranks.aspx 该网页描述的主题是"退休之后生活在哪里(美国哪一个州)最合适",表中字段信息均为各州在居住成本、税率、犯罪率等方面在全国的排名。 用浏览器打开看看:
本文工做的第一步,就是使用Power BI将这份表格抓下来。不须要把网页拷出来,更不须要写爬虫,只须要将网页地址告诉Power BI,它就能帮你把这份表格完完整整地抓下来。 首先,在报表区点击获取数据:
而后,选择Web格式数据:
再输入要抓取的网址:
稍后片刻这份表格就被抓下来啦,整个过程1分钟都不用:
而拿到数据的下一步,就是数据塑形。通常来讲网页显示的数据格式未必是您要的报表数据格式,下面咱们进入后台区来"捏一捏"这些数据。(进入后台区的方式上面讲了,这里就不浪费篇幅了哈)
回到顶部oop
数据塑形 - 工做区介绍布局
进入后台区后,将看到以下视窗:
主区域展现了本文从网页获取到的表格,此外上方还有一批功能栏。其中,开始功能栏内容以下:
这些都是最经常使用的数据塑形操做,如重载数据、删除行列、排序、列拆分、数据分组,合并查询等等。其余三个功能栏:转换、添加列、视图则是对应数据塑形功能的细化。 另外须要注意的是查询设置窗口。咱们在工做区作的任何操做在这里都会记录下来,可随时点选以回退到过去的操做(不要Ctrl + Z哈):
咱们在历史操做中作了修改后,下游操做也会被同步更新。另外点击途中红框处的那个X能够将该操做撤销。学习
关于查询设置窗口还有不少好玩的用法,本文篇幅所限就不一一说明了,读者可自行尝试。
回到顶部3d
数据塑形 - 工做流程
下面咱们回过头来看看获取到的这份表格:
首先检查行名、列名、行数、列数。发现多出了一个Header列,将它删掉。其余部分没啥问题。 而后检查各列的数据类型,确保须要统计的字段是可统计的类型(如整数,浮点数等)。具体方法是将功能栏切换到"转换功能栏",每当咱们点选一列时,下图红色标记位置将显示列的数据类型:
显然上图中列的数据类型是错的,须要将它转换为整数型。为何单就这一列有问题,没被正确转换为整型呢?这是由于该列有些字段含有文本字符,如上图中的蓝框标记处。 解决方法很简单,在"转换功能栏"配置替换机制将这些异常数据修复。好比将"27(tied)"替换为"27"就能够了。 数据修复完毕后,便可对它进行转型。只需右键->转换类型-> 整型便可,也能够直接在功能区进行修改:
然而,假如如今多了一个需求:要求数据集中还得有州的简称。怎么作?一个个输进去吗? 固然不是的,假如数据量很大,几千行,那不得加班加点搞了。几万行,几十万行呢?在使用任何工具的时候都应该思考如何"偷懒",这里可以使用Power BI的数据合并功能轻松作好这个需求。 在维基百科里,能够搜索到美国各州对应的简称(https://en.wikipedia.org/wiki/List_of_U.S._state_abbreviations),打开该网页:
接下来将把原来的表格关联到上述表(至关于SQL中的Join),并截取其中的ANSI列(该列表示各州简称)。用先前的方法,将该网页的这份报表抓取下来。而后对该表格内容进行如下塑形工做: 1. 移除头两行表头信息:
2. 移除底端26条信息(它们不是美国的州名,而是些美属领土)。方法和1相似,就不截图展现了。 3. 筛选掉行政特区:
4. 删除多余的列。直接在须要删除的列的表头右键,而后点选删除列便可。(可Ctrl法选择多个列) 5. 将第一行选定为表头:
6. 修改列名(右键点击列表头->重命名便可)。塑形完毕后,该表数据以下:
由于这份表格数据比较杂乱一点,和需求不是很是吻合,所以塑形工做多了点。不过大都是些界面操做,作下来也就5分钟左右的工做量。
接下来是见证奇迹的一刻^_^:将两份表格Join起来。具体方法是在"开始功能栏"点选"合并查询",而后设置链接信息:
点击肯定后,发现新生成的表居然多了一列呢:
展开它就是了:
要注意State Name是链接键属性,原表亦有该字段。故不用展开它。
至此,一个阶段的数据塑形算是完成了,接下来就能够进入到报表区绘制报表。下面是本阶段数据塑形的结果表:
其中选中的列表示各州的简称,是经过合并查询扩展到的字段。 须要提醒读者的是数据塑形得越规整,接下来的报表制做就越是驾轻就熟。因此请读者耐心看完这部分的讲解,心急吃不了热豆腐:)
回到顶部
报表制做 - 工做区介绍
回到报表绘制区,咱们将看到以下视窗:
其中开始功能区是制做报表过程当中经常使用到的编辑功能和可视化的管理功能。建模功能区容许用户在报表区完成一些简单的数据塑形工做。格式功能区则容许用户对工做区报表进行布局和图层控制。
报表区的右侧则是咱们的工做区:
这是报表区工做的核心位置,它的用法将在下一节详细讲解。
回到顶部
报表制做 - 详细流程
Power BI中,不管是绘制什么图表,整体的步骤都是如下几步。下面笔者以一个简单报表为例讲解Power BI中报表制做的整体过程。 1. 选中目标绘制图形。咱们这里选择一个经典的条状图吧:
发现柱状图有东西显示了:
显然因为一次分析的州太多,有限的空间显示不来的。。。 3. 筛掉一部分数据。若是咱们想只分析美国事宜退休人员居住排行榜前10的州,可设置筛选器:
这样设置将令Power BI绘制报表时只取用总排名前10的州的数据。点击应用后发现图像那么回事儿了:
但如今又发现一个问题。横轴的循序显然是按照州名排序的,这样的图根本看不出任何信息。 4. 调整可视化元素呈现顺序。关键是在建模功能区设置列的排序方式。咱们首先选中须要调整顺序的目标列: 而后在建模功能区修改该列的呈现规则,将其展示顺序绑定到Overall rank列:
这样柱状图就会按照Overall rank列递增的顺序绘制柱状。
5. 美化工做。点击下图红圈中的那个画笔便可进入美化工做区:
选项很是多,请读者们自行发挥本身的美学天赋吧! 6. 排版布局。在报表区的格式功能区有很多排版功能选择:
当报表中有不少图像元素时,读者可以使用这些功能对它们进行排版。具体方法和Office,Visio中的图形布局是彻底同样d的。
7. 保存发布。Power BI保存的本地工程文件为.pbix格式。除此以外用户还能够将报表发布出去,在移动端(如平板)随时展现已制做的报表。发布及发布后的使用方法会在下一章讲解,敬请期待。
回到顶部
小结
总的来讲,使用Power BI绘制报表最关键的仍是在于数据塑形步骤。只有这个步骤作好了,报表绘制起来才能驾轻就熟。 在充分掌握了数据塑形技巧后,就能够将更多精力放在各类各样的可视化图形上。要注意的是Power BI除了包含很多内置图表,还支持从微软官网或其余地方下载成百上千种图表格式。
回到顶部
课后做业
因为在以前咱们已经对数据作了初步塑形了,所以以后的报表制做将很是轻松愉快。接下来读者可尽情发挥本身的想象力制做各类酷炫报表,尽可能搞清楚Power BI中全部内置图形的绘制方法。 下面是笔者本身随便作的一份报表,轻拍^_^:
分类: 【09】数据可视化_PBI实践
标签: 数据可视化, Power BI