经过建立和解读直方图、柱状图和频数图,学习数据可视化基础知识。ide
优达学城学员背景普遍,若是咱们想知道都有哪些人,参加了这些课程,该怎么办?如今看看样本量为50 的一组数据
你们花4秒钟的时间看看这个表格,并告诉我这个样本中的大多数学生都来自哪一个国家
大多数学员都来自中国,可是只花 4 秒钟的时间来观察这一表格可能很难看出,你可能扫了一眼表格,发现上面写了好多“中国”,所以可以感受到哪一个国家出现的几率最高,你的大脑能够自动这么思考,可是对于统计学,咱们须要用简单的方式规范化这一流程,若是你此次没有猜对也没事,这个小测验的最终目标就是向你展现 有了表格也是很难快速得出结论的,有什么更好的方法呢?学习
咱们能够建立一个频次表,即数出每一个国家出现的频次,个人作法是逐个计数spa
最终结果应该是这样的 注意它们的总和应该是50,即样本的总观察次数,经过频次表咱们能够轻松地看出大多数学生来自中国。3d
咱们不只要研究绝对数值,还要看看这些数字之间的相互关系,换句话说,咱们可能想要知道来自每一个国家的学员所占的比例,了解有多少学员来自每一个国家构成一个总体,这就叫作相对频率。code
例如 这个样本的 50 名学员中有2名来自加拿大2/50 = 0.04,0.04 就是来自加拿大的学员所占的比例
经过相对频率,还能够看出在总体中所占的比例,若是咱们包含了吉尔吉斯斯坦,吉尔吉斯斯坦的比例就是 0,由于这 50 名学员中没有一位来自吉尔吉斯斯坦,若是不看国家而是看星球,会发现全部学员都来自地球,所以地球的比例是 1,也就是说 50 名学员都来自地球,50/50=1。blog
全部比例都始终在 0 到 1 之间或等于 0 或 等于1。数学
对于任何频率表来讲,相对频率(用比例表示)相加等于1。这表示表示咱们考虑了全部状况。event
如今咱们来分析下这个频率表,来自美国的学员所占的比例是多少?来自印度的学员所占的比例呢?对于欧洲和亚洲 哪一个地区的学员更多?
从表中能够看出 有 0.2 的学员来自美国,有 0.16 的学员来自印度。 从表中能够看出全部欧洲国家是英国、德国和瑞典;全部亚洲国家是中国、印度、日本和巴基斯坦。 欧洲学员的总比例是0.04+0.06+0.02=0.12 亚洲学员的总比例是0.24+0.16+0.16+0.02=0.58 看来亚洲学员的比例更高
显示相对频率的另外一种方式是百分比,百分比很是好用,由于和不少人同样,我我的甚至包括你在内,都不喜欢小数和分数,若是咱们用百分比来表示相对频率的话,咱们就可使用整数了,百分比实际上也是一种比例,只是咱们将它乘以 100 并称之为百分比。class
百分比的范围是从 0% 到 100% 就像比例是从 0 到 1 同样。一样的 全部百分比之和应该等于 100%。容器
这里有好多的数据,咱们能够经过只看各个洲的数据来简化流程。
如今数据更加简化了,虽然这个表格颇有意思,给咱们提供了新的信息,可是只经过这个表格咱们并不知道有多少学员来自各个国家,建立这个表格后给咱们带来了便利,由于咱们须要查看的类别变少了,在这种状况下是 3 个类别,但在过程当中也丢失了一些信息 即关于特定国家的信息,在建立频率分布表时 有时候简便性和信息性之间存在利弊关系,可是不能说哪一种方法就是正确的数据呈现方式,彻底取决于你要回答哪一种问题。
在这种状况下,若是你想知道有多少学员来自北美,这么整理数据就是最佳方法
可是若是你想知道有多少学员来自印度或其余特定国家,则这么整理数据就是最佳方法,关键在于根据你要回答的问题知道如何整理数据。
以前咱们分析学员都来自哪一个国家,如今咱们来分析下他们的年龄,这是一个学员年龄样本,一样是 50 我的
如何像分析国家数据同样分析这一数据?频率数据中再也不是国家而是年龄,如何建立这个表格?须要多少行?须要 50 行 每行表示一名学员?或者 66 行,每行表示一个年龄 从 10 岁到 75 岁?8 到 10 行,由于最容易理解?取决于你对数据进行分组的方式?或者 2 行 一行表示 50 岁以上的人数,一行表示 50 岁如下的人数?
咱们能够随便分组这一数据,实际上,咱们能够只要两行,一行表示小于 50 岁的学员人数,一行表示大于 50 岁的人数,可是咱们不须要这么分组,甚至能够每一个年龄一行,因此能够是 10、11、12 岁,而后数数有多少学员年龄是 10 岁,有多少是 11 岁,但这不是最简便的方式,由于可能全部年龄的出现频率是 1 次,少数几个是 2 次,那么为每行选择一个范围呢?例如 0 到 19 岁,20 到 39 岁,而后数数有多少学员是在 0 到 19 岁,20 到 39 岁等等,这就叫作区间或容器或桶,大多数状况下 咱们将称之为区间或容器,在这种状况下容器大小是 20,由于它包括 0。
咱们来建立一个组距是 20 的频率图表
给出一组混乱无章的数据,咱们能够经过频率表轻松地对数据可视化,在这种状况下 咱们划分了四个容器,容器大小是 20,咱们能够计算落入每一个区间的学员数量,如今咱们进一步介绍对这一数据进行可视化的方法。
如今请你绘制一个图表,这时 X 轴 表示年龄,Y 轴 表示频率,你须要针对这组数绘制一个柱状图 并显示每一个柱的高度应该是多少
刚刚建立了一个组距为 20 的直方图,其实咱们能够建立任何组距大小的直方图,组距大小也称为区间大小。组距愈来愈大的情形,能够看到如今每一个区间内的观察值愈来愈多,若是咱们不断让组距愈来愈大,最终会很难看清直方图的形状,由于组距太大了。最终每一个分组里会有太多的数据,直方图的形状甚至都没法识别了。
组距是指对频率进行计数的区间