R语言 ggplot2包

分析数据要作的第一件事情，就是观察它。对于每一个变量，哪些值是最多见的？值域是大是小？是否有异常观测？javascript

ggplot2的核心理念是将绘图与数据分离，数据相关的绘图与数据无关的绘图分离
ggplot2是按图层做图
ggplot2保有命令式做图的调整函数，使其更具灵活性
ggplot2将常见的统计变换融入到了绘图中。
ggplot的绘图有如下几个特色：第一，有明确的起始（以ggplot函数开始）与终止（一句语句一幅图）；其二，图层之间的叠加是靠“+”号实现的，越后面其图层越高。
ggplot图的元素能够主要能够归纳以下：最大的是plot（指整张图，包括background和title），其次是axis（包括stick，text，title和stick）、legend（包括backgroud、text、title）、facet这是第二层次，其中facet能够分为外部strip部分（包括backgroud和text）和内部panel部分（包括backgroud、boder和网格线grid，其中粗的叫grid.major，细的叫grid.minor）。
ggplot2里的全部函数能够分为如下几类：
用于运算（咱们在此不讲，如fortify_，mean_等）
初始化、展现绘图等命令（ggplot，plot，print等）
按变量组图（facet_等）
真正的绘图命令（stat_，geom_，annotate），这三类就是实现一个函数一个图层的核心函数。
微调图型：严格意义上说，这一类函数不是再实现图层，而是在作局部调整。
aes : 一样适用于修改geom_XXX() aes参数控制了对哪些变量进行图形映射，以及映射方式
图形属性（aes）横纵坐标、点的大小、颜色，填充色等css

ggplot(data = , aes(x = , y = )) +
geom_XXX(...) + ... + stat_XXX(...) + ... +
annotate(...) + ... + labs(...) +
scale_XXX(...) + coord_XXX(...) + guides(...) + theme(...) +
facet_XXX(...)
#完整ggplot2绘图示意：
library(ggplot2)
attach(iris)
p <- ggplot(data=iris,aes(x = Sepal.Length,y = Sepal.Width))
p + geom_point(aes(colour = Species)) + stat_smooth() +
labs(title = "Iris of Sepal.length \n According to the Sepal.Width") +
theme_classic() + theme_bw() +annotate("text",x=7,y=4,parse = T,label = "x[1]==x[2]",size=6, family="serif",fontface="italic", colour="darkred")java

geom :表示几何对象，它是ggplot中重要的图层控制对象，由于它负责图形渲染的类型。
几何对象（geom_）上面指定的图形属性须要呈如今必定的几何对象上才能被咱们看到，这些承载图形属性的对象多是点，多是线，多是barpython

stat :统计变换好比求均值，求方差等，当咱们须要展现出某个变量的某种统计特征的时候，须要用到统计变换nginx

annotate：添加注释 #因为设置的文本会覆盖原来的图中对应的位置，能够改变文本的透明度或者颜色例： annotate(geom='text')会向图形添加一个单独的文本对象 annotate("text",x=23,y=200,parse=T,label = "x[1]==x[2]")git

labs : labs(x = "这是 X 轴", y = "这是 Y 轴", title = "这是标题") ## 修改文字github

scale_: 标度是一种函数，它控制了数学空间到图形元素空间的映射。一组连续数据能够映射到X轴坐标，也能够映射到一组连续的渐变色彩。一组分类数据能够映射成为不一样的形状，也能够映射成为不一样的大小，这就是与aes内的各类美学（shape、color、fill、alpha）调整有关的函数。express

coord_：调整坐标，控制了图形的坐标轴并影响全部图形元素. 调整坐标 coord_flip()来翻转坐标轴。使用xlim()和ylim()来设置连续型坐标轴的最小值和最大值 coord_cartesian(xlim=c(0,100),ylim=c(0,100))

theme：调整不与数据有关的图的元素的函数。theme函数采用了四个简单地函数来调整全部的主题特征：element_text调整字体，element_line调整主题内的全部线，element_rect调整全部的块，element_blank清空。theme(panel.grid =element_blank()) ## 删去网格线

facet :控制分组绘图的方法和排列形式
# 不指定数据集时，data = NULL
一个图形对象就是一个包含数据，映射，图层，标度，坐标和分面的列表，外加组件options
ggplot(数据, 映射) geom_xxx(映射, 数据) stat_xxx(映射, 数据)

# 经过“+”实现不一样图层的相应累加，且越日后的图层表如今上方
点（point, text）：每每只有x、y指定位置，有shape但没有fill
线(line,vline,abline,hline,stat_function等)：通常是基于函数来处理位置
射(segment)：特征是指定位置有xend和yend，表示射线方向
面(tile, rect)：这类通常有xmax,xmin,ymax,ymin指定位置
棒(boxplot,bin,bar,histogram)：每每是二维或一维变量，具备width属性
带(ribbon,smooth):透明是特征是透明的fill
补：包括rug图，偏差棒(errorbar,errorbarh)
而后，就是按照你的须要一步步加图层了（使用“+”）。

基本语法：

几何对象（geom）：用来展现数据的几何对象，如geom_point,geom_bar,geom_abline；

图形属性（aes）：图形属性决定了图形的外观，如字体大小、标签位置及刻度线；

坐标（coordinate）：数据如何被映射到图中。如coord_cartesian:笛卡尔坐标、coord_polar:极坐标、coord_map:地理投影；

统计变换（stat）：对数据进行汇总，如箱线图：stat_boxplot、线图：stat_abline、直方图：stat_bin

分面（facet）：用来描述数据如何被拆分为子集，以及对不一样子集是如何绘制的。

几何对象：

为了指定图形类型，必须加入图层，可采用layer()函数。可使用“point”等短名称来指定几何对象。layer函数容许将几何对象做为名称和值的配对，这样就不须要指出函数全名，而只须要geom_后面的部分。几何对象以下：

统计变换

标度函数

坐标系

分面

位置

Chap1. R 基础

Chap2. 快速探索数据（略）

## 概述 qplot()函数的语法与基础绘图系统相似，简短易输入，一般用于探索性数据分析。qplot(x,y,data,geom=c(xx,xx))

条形图

直方图

箱线图

绘制函数图像

Chap3. 条形图

重要细节：条形图的高度表示的是数据集中变量的频数，仍是表示变量取值自己

## 概述条形图一般用来展现不一样的分类下（x轴）某个数值型变量的取值（y轴），其条形高度既能够表示数据集中变量的频数，也能够表示变量取值自己。

参数

条形图

对于条形图的y轴就是数据框中本来的数值时，必须将geom_bar()函数中stat(统计转换)参数设置为’identity’，即对原始数据集不做任何统计变换，而该参数的默认值为’count’，即观测数量。

数据集自己是明细数据，而对于统计某个离散变量出现的频次时，geom_bar()函数中stat(统计转换)参数只能设置为默认，即’count’。

固然，若是须要对明细数据中的某个离散变量进行聚合(均值、求和、最大、最小、方差等)后再绘制条形图的话，建议先使用dplyr包中的group_by()函数和summarize()函数实现数据汇总，具体可参见：

上面的两幅图对应的x轴均为离散的字符型值，若是x值是数值型时，该如何正确绘制条形图？

若是直接使用数值型变量做为条形图的x轴，咱们会发现条形图之间产生空缺，这个空缺其实对应的是3和5两个值，这样的图形并不美观。为了可以使条形图之间不存在相似的空缺，须要将数值型的x转换为因子，即factor(x)，以下图所示：

上面几幅图的颜色均为灰色的，显得并非那么亮眼，为了使颜色更加丰富多彩，能够在geom_bar()函数内经过fill参数可colour参数设置条形图的填充色和边框色，例如：

关于颜色的选择能够在R控制台中输入colours()，将返回657种颜色的字符。若是想查看全部含红色的颜色值，能够输入colours()[grep(‘red’,
colours())]返回27种红色。

以上绘制的条形图均是基于一个离散变量做为x轴，若是想绘制两个离散变量的条形图即簇条形图该如何处理呢？具体见下方例子：

对于簇条形图只需在ggplot()函数的aes()参数中将其余离散变量赋给fill参数便可。这里的position参数表示条形图的摆放形式，默认为堆叠式(stack)，还能够是百分比的堆叠式。下面分别设置这两种参数，查看一下条形图的摆放形式。

发现一个问题，条形图的堆叠顺序(A,B,C)与图例顺序(C,B,A)刚好相反，这个问题该如何处理呢？很简单，只需再添加guides()函数进行设置便可，以下所示：

一样，若是以为R自动配置的填充色很差看，还能够根据自定义的形式更改条形图的填充色，具体使用scale_fill_brewer()和scale_fill_manual()函数进行颜色设置。

ggplot(data = df, mapping = aes(x = factor(x), y = z, fill = y)) + geom_bar(stat= 'identity', position = 'dodge') + scale_fill_brewer(palette = 'Accent')

scale_fill_manual()函数容许用户给指定的分类水平设置响应的色彩，我的以为这个比较方便

按z值的大小，从新排列条形图的顺序，只需将aes()中x的属性用reorder()函数更改便可。

stat参数和position参数均设置为identity，目的是图形绘制不要求对原始数据作任何的变换，包括统计变换和图形变换，排除图例能够经过scale_fill_manual()函数将参数guide设置为FALSE，同时该函数还能够自定义填充色，一箭双雕。

ggplot(data = df, mapping = aes(x = x, y = y, fill = judge))+
geom_bar(stat = 'identity', position = 'identity')+
scale_fill_manual(values = c('blue','red'), guide = FALSE)+
xlab('Year')

geom_bar()函数能够很是灵活的将条形图的条形宽度进行变宽或变窄设置,具体经过函数的width参数实现，width的最大值为1，默认为0.9。

x <- c("A","B","C","D","E")
y <- c(10,20,15,22,18)
df <- data.frame(x = x,y = y)
# 不做任何条形宽度的调整
ggplot(df,aes(x = x,y = y))+
geom_bar(stat = "identity",fill = "steelblue",colour = "black")

# 使条形宽度变宽
ggplot(df,aes(x = x,y = y))+geom_bar(stat = "identity",fill = "steelblue",colour = "black",width = 1)

对于簇条形图来讲，还能够调整条形之间的距离，默认状况下，条形图的组内条形间隔为0，具体可经过函数的position_dodge参数实现条形距离的调整，为了美观，通常将条形距离设置的比条形宽度大一点。

调整条形宽度和条形距离

geom_text()函数能够方便的在图形中添加数值标签，具体微调从几个案例开始：

ylim设置条形图中y轴的范围；size调整标签字体大小，默认值为5号；colour更换标签颜色；vjust调整标签位置，1为分界线，越大于1，标签越在条形图上界下方，反之则越在条形图上上界上方。

# vjust 调整标签竖直位置,越大,标签越在条形图的上界下方；0.5时，则在中间。
# hjust 调整标签水平位置，越大,标签越在条形图的上界左边；0.5时，则在中间。

对于水平交错的簇条形图，必须经过geom_text()函数中的position_dodge()参数来调整标签位置，hjust=0.5将标签水平居中放置。

这里的图形位置与标签位置摆放必须一致，即图形位置geom_bar()函数中的position = 'dodge'参数，标签位置geom_text()函数中的position
= position_dodge(0.9)参数。

对于堆叠的簇条形图，必须经过geom_text()函数中的position_stack()参数来调整标签位置，hjust将标签水平居中放置。

这里的图形位置与标签位置摆放必须一致，即图形位置geom_bar()函数中的position = 'stack'参数，标签位置geom_text()函数中的position
= position_stack()参数。

补充:统计变换
若x轴变量为连续的，则用sta = bin；
若离散型的,可用stat = “count”或stat = “identity”

Chap4. 折线图

概述

折线图能够反映某种现象的趋势。一般折线图的横坐标是时间变量，纵坐标则是通常的数值型变量。固然，折线图也容许横纵坐标为离散型和数值型。

折线图一般用来对两个连续变量之间的相互依存关系进行可视化。其中x也能够是因子型变量。

简单折线图

善于发现的你，可能会注意到上面三段代码有一个重要的不一样之处，那就是第一段和第二段代码中含有‘group = 1’的设置。这样作是由于横坐标的属性设置为了因子，即将连续型的年份和离散型的字符转换为因子，若是不添加‘group = 1’这样的条件，绘图将会报错。故务必须要记住这里的易犯错误的点！

往折线图中添加标记（点）当数据点密度比较小或采集分布(间隔)不均匀时，为折线图作上标记将会产生很是好的效果。处理的方法很是简单，只需在折线图的基础上再加上geom_point()函数便可。

year <- c(1990,1995,2000,2003,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015)

ggplot(data = df, mapping = aes(x = year, y = value)) + geom_line() + geom_point()

从图中就能够很是明显的看出，刚开始采集的点分布很是散，然后面采集的点就比较密集，这也有助于对图的理解和应用。

2、绘制多条折线图上面绘制的都是单条这折线图，对于两个或两个以上的折线图该如何绘制呢？也很简单，只需将其余离散变量赋给诸如colour(线条颜色)和linetype(线条形状)的属性便可，具体参见下文例子。

一样须要注意的是，在绘制多条折线图时，若是横坐标为因子，必须还得加上‘group=分组变量’的参数，不然报错或绘制出错误的图形。

以上绘制的折线图，均采用默认格式，不管是颜色、形状、大小仍是透明度，均没有给出自定义的格式。其实ggplot2包也是容许用户根据本身的想法设置这些属性的。

虽然这幅图画的优势夸张，目的是想说明能够经过自定义的方式，想怎么改就能够怎么改。前提是aes()属性的内容与自定义的内容对应上。

绘制堆叠的面积图只须要geom_area()函数再加上一个离散变量映射到fill就能够轻松实现，先忙咱小试牛刀一下。

一幅堆叠的面积图就轻松绘制成功，但咱们发现，堆叠的顺序与图例的顺序刚好相反，不用急，只须要加一句命令便可：

若是须要为每一块面积图的顶部加上一条直线，能够经过以下两种方式：

其中，colour设置面积图边框的颜色；size设置边框线的粗细；alpha设置面积图和边框线的透明度。

该方法是经过添加堆叠线条（必须设置geom_line()中position参数为‘stack’，不然只是添加了两条线，没法与面积图的顶部重合）。这两幅图的区别在于第二种方式没有绘制面积图左右边框和底边框。在实际应用中，建议不要在面积图中绘制边框线，由于边框的存在可能产生误导。

在面积图中，也能够方便快捷的绘制出百分比堆积面积图，具体操做以下：

但经过这种方式（设置面积图的positon='fill'）存在一点点小缺陷，即没法绘制出百分比堆积面积图顶部的线条，该如何实现呢？这里只须要对原始数据集作一步汇总工做，让后循序渐进的绘制面积图便可。

ggplot(data = df_summarize, mapping = aes(x = year, y = value2, fill = type)) + geom_area(alpha = 0.6) + geom_line(colour = 'black', size = 1, position = 'stack', alpha = 0.6) + guides(fill = guide_legend(reverse = TRUE))

Chap5. 散点图

概述

散点图

散点图一般用来刻画两个连续型变量之间的关系，数据集中的每一条观测都由散点图中的一个点来表示。在散点图中也能够加入一些直线或曲线，用来表示基于统计模型的拟合。当数据集记录不少时，散点图可能会彼此重叠，这种状况每每须要一些预处理操做。

1 基本散点图

散点图能够用来描述两个连续变量之间的关系,通常在作数据探索分析时会使用到,经过散点图发现变量之间的相关性强度、是否线性关系等。

可使用shape和size分别指定点型和点的大小，若是点型包括填充和描边的话，可用fill和color分别指定填充色和描边色。

2 基于类别型变量分组

可将分组变量(因子或字符变量)赋值给颜色或形状属性,实现分组散点图的绘制

能够将因子和字符串等类别型变量映射到散点的颜色或形状。

set.seed(112)
x <- rnorm(100,mean = 2,sd = 3)
y <- 1.5+2*x+rnorm(100)
z <- sample(c(0,1),size = 100,replace = TRUE)
df <- data.frame(x = x,y = y,z = z)
# 将数值型变量转换为因子型变量
df$z <- factor(df$z)

#分组变量赋值给颜色属性
ggplot(df,aes(x = x,y = y,colour = z))+
geom_point(size = 3)

#分组变量赋值给形状属性
ggplot(df,aes(x = x,y = y,shape = z))+
geom_point(size = 3)

# 分组变量同时赋给颜色属性和形状属性
ggplot(df,aes(x = x,y = y,shape = z,colour = z))+
geom_point(size = 3)+
scale_color_brewer(palette = "Accent")+
scale_shape_manual(values = c(2,16))

注意点的形状,21-25之间的点的形状,既能够赋值边框颜色,又能够赋值填充色。

图例上,颜色越深而对应的值越小,如何将值的大小与颜色的深浅保持一致？只须要人为的设置色阶,从低到高设置不一样的颜色便可

3 基于连续型变量映射

固然，还能够将连续型变量映射到散点的颜色或大小等存在渐变的属性上，从而呈现三个连续型变量之间的关系。其中人眼对于x轴和y轴所对应变量的变化更为敏感，而对颜色和大小的变化则不那么敏感。

同时映射类别型变量和连续型变量，并设置散点的面积正比于连续型变量的大小，默认为非线性映射。

# 将连续型变量映射给颜色属性,同时设置双色梯度
ggplot(df,aes(x = x,y = y,colour = z))+geom_point(size = 3)+scale_colour_gradient(low = "lightblue",high = "darkblue")

# 将连续变量映射给大小属性
ggplot(df,aes(x = x,y = y,size = z))+ geom_point()

# 将连续型变量赋给颜色属性或大小属性,自定义双色梯度,色阶间隔顺序由低到高
ggplot(df,aes(x = x,y = y,fill = z))+ geom_point(shape = 21,size = 3)+
scale_fill_gradient(low = "lightblue",high = "darkblue",breaks = c(100,150,200,300,350,400))

# 自定义球大小的间隔
ggplot(df,aes(x = x,y = y,size = z))+geom_point()+
scale_size_continuous(breaks = c(100,150,200,250,300,350,400),guide = guide_legend())
# scale_size(breaks = c(100,150,200,250,300,350,400))结果同样

# 将连续变量值的大小与球的大小成比例
ggplot(df,aes(x = x,y = y,size = z))+geom_point()+scale_size_area(max_size = 10)
# scale_size_area()能够确保数值0映射为0,max_size保证映射最大的点的大小

当x轴和y轴对应一个或两个离散型变量时，例如虽然对应数值，可是数值仅取某些离散点，能够给散点图添加扰动，使得散点分离开来。

如下使用Logistic回归拟合一个二分类的样本，能够看出V1和classn具备二分类关系，Logistic回归曲线也说明了这一点。

若是已经将类别型变量映射到散点的颜色或形状，则在添加拟合线时会分别为每一组添加一条拟合线。能够看到身高随着年龄增加而增长，到必定年龄后中止增加，且男性比女性平均身高更高。

散点图矩阵

散点图矩阵用于展现多幅散点图，pairs()函数能够建立基础的散点图矩阵，如下代码包含mpg、disp、drat和wt中任意二者的散点图。

car包的scatterplotMatrix()函数也能够生成散点图矩阵，并支持如下操做：

再来一个scatterplotMatrix()函数的使用例子，主对角线的核密度曲线改成了直方图，而且直方图以汽车气缸数为条件绘制。

gclus包中的cpairs()函数提供了一个有趣的散点图矩阵变种，支持重排矩阵中变量的位置，让相关性更高的变量更靠近主对角线，还能够对各单元格进行颜色编码来展现变量间的相关性大小。

能够发现相关性最高（0.89）的是车重（wt）和排量（disp），以及车重（wt）和每加仑英里数（mpg）。相关性最低（0.68）的是每加仑英里数（mpg）和后轴比（drat）。如下代码根据相关性大小，对散点图矩阵中的这些变量从新排序并着色。

高密度散点图

当散点图中点数量过大时，数据点的重叠将会致使绘图效果显著变差。对于这种状况，可使用封箱、颜色和透明度等来指定图中任意点上重叠点的数目。

smoothScatter()函数可利用核密度估计生成用颜色密度来表示点分布的散点图。

hexbin包中的hexbin()函数将二元变量的封箱放到六边形单元格中。

三维散点图

若是想一次性对三个定量变量的交互进行可视化，那么可使用scatterplot3d中的scatterplot3d()函数进行绘制。

scatterplot3d()函数提供了许多选项，包括设置图形符号、轴、颜色、线条、网格线、突出显示和角度等功能。例如如下代码生成一幅突出显示效果的三维散点图，加强了纵深感并添加了链接点与水平面的垂直线。

使用rgl包中的plot3d()函数可建立交互式的三维散点图，经过鼠标便可对图形进行旋转。

7 添加文本标注

使用geom_text()为散点图添加标注，vjust为0时表示竖直方向上基线对齐，为1时表示顶部对齐，hjust为0时表示水平方向上左对齐，为1时表示右对齐，如下设置对齐方式并适当添加偏移，以改善显示效果。

8 使用气泡图绘制二维统计

如下使用散点图绘制气泡图，对两个类别型变量进行统计。

value1 <- rep(c('高价值','中价值','低价值'), each = 3)
value2 <- rep(c('高价值','中价值','低价值'), times = 3)
nums <- c(500,287,123,156,720,390,80,468,1200)
df <- data.frame(value1 = value1, value2 = value2, nums = nums)
df$value1 <- factor(df$value1, levels = c('高价值','中价值','低价值'), order = TRUE)
df$value2 <- factor(df$value2, levels = c('低价值','中价值','高价值'), order = TRUE)
ggplot(df,aes(x = value1, y = value2, size = nums)) +geom_point(colour = 'steelblue') +
scale_size_area(max_size = 30, guide = FALSE) +geom_text(aes(label = nums), vjust = 0, colour = 'black', size = 5) + theme(text = element_text(family = 'SimSun'))

绘制气泡图也可以使用函数symbols(x,y,circle=r).当中x、y是坐标轴，r是每个点的半径。
x<-rnorm(6)
y<-rnorm(6)
r<-abs(rnorm(6))
symbols(x,y,circle = r, bg=rainbow(6))

###############气泡图例子2
attach(mtcars) # 激活或挂接数据集
#attach( )函数是将数据框添加到R的搜索路径中 # mtcars为R语言内置数据集
r<-sqrt(disp/pi)
symbols(wt,mpg,circle=r, inches=0.3, bg="lightblue")
text(wt,mpg,row.names(mtcars), cex=0.5) #给每个气泡加上文字。

Chap6. 描述数据分布

直方图

咱们常常想观察一批数据的分布形态，直方图、密度图、箱线图、小提琴图和点图等都是很好的实现形式。在此，咱们简略介绍直方图、密度图和箱线图，这种三种图形对咱们来讲更为经常使用。

直方图

不少人没搞清楚条形图和直方图之间的区别。条形图主要用于展现分类数据，即名义数据，各组分开而立。而直方图多用于展现数值型数据，各组相依。

单组直方图

最基本的语句就是在ggplot语句后再加geom_histogram()便可。

分组直方图

分组直方图作法与其余图形同样，咱们用到facet_grid(var ~ .)，该方法是以var变量进行分类，作多个图形，非一个图形中作多个直方图。若是变量为数字，应当因子化。

核密度曲线

分组密度曲线

频数多边形

频数多边形描述了数据自己的信息，而核密度曲线只是一个估计，须要认为输入带宽参数。

箱线图

library(MASS) #取binwidth数据
ggplot(birthwt, aes(x=bwt))+geom_histogram(fill="white", colour="black")+facet_grid(smoke ~ .)

小提琴图

p = ggplot(data=mpg, mapping=aes(x=class, y=hwy, fill=class))
p + geom_boxplot() + geom_jitter(shape=21)
p + geom_violin(alpha=0.5, width=0.9) + geom_jitter(shape=21)

Wilkinson点图

颜色图和等高图
par(mar = rep(1, 4))
x = 10 * (1:nrow(volcano))
y = 10 * (1:ncol(volcano))
image(x, y, volcano, col = terrain.colors(100), axes = FALSE)
contour(x, y, volcano, levels = seq(90, 200, by = 5),add = TRUE, col = "peru")
box()

dt = data.frame(A = c(2, 7, 4, 10, 1,5), B = c('B','A','C','D','E','B'))
windowsFonts(myFont = windowsFont("楷体")) ## 绑定字体
p = ggplot(dt, aes(x = B, y = A, fill = B)) + geom_bar(stat = "identity", alpha = 0.7) + coord_polar()
p

Chap7. 注解

文本注解

数学表达式

添加直线

添加线段和箭头

添加矩形阴影

添加偏差线

向独立分面添加注解

1 添加文本注解

使用annotate()生成一条文本注解，经过x和y指定文本位置，能够是具体数值或者Inf和-Inf，表示图形的边缘，使用hjust和vjust进行水平方向和竖直方向上的微调，使用family、color、size分别指定字体、颜色、大小。

2 添加数学表达式

仍是使用annotate()，不过须要制定parse为TRUE，表示对文本进行公式解析。

更多和公式语法有关的内容可参考?plotmath，更多数学表达式的图示可参考?demo(plotmath)。

3 添加直线

使用geom_hline()、geom_vline()、geom_abline()分别绘制水平线、竖直线和有角度的线。若是x轴或y轴为类别型变量，则第一个水平为数值1，第二个水平为数值2，依此类推。

4 添加线段和箭头

在annotate()中指定segment能够添加线段，还能够为线段添加箭头，箭头默认角度angle为30度，默认长度length为0.2英寸，使用x、xend、y、yend指定线段的起始位置。若是x轴或y轴为类别型变量，则相应地第一个水平使用数值1，第二个水平使用数值2，依次类推。

5 添加矩形阴影

在annotate()中指定rect能够添加矩形，其实只要传递了合适的参数，任意几何对象均可以配合annotate()使用。

6 向独立分面添加注解

使用分面变量生成一个新的数据框，并设定每一个分面要绘制的值，而后配合新数据框使用geom_text()。

Chap8. 坐标轴

交换x轴和y轴

坐标轴的值域

反转一条连续型坐标轴

修改类别型坐标轴上项目的顺序

设置x轴和y轴的缩放比例

默认状况下，ggplot2使两轴的总长宽比例为1：1，从而造成正方形的绘图区域，而本节中所提到的比例为：坐标轴单位长度表示的数值范围

设置刻度线的位置

离散型变量的坐标轴：设置limits以重排序或移除项目，而设置breaks来控制哪些项目拥有标签。

移除刻度线和标签

修改刻度标签的文本

package:scales自带了一些内置的格式化函数，好比comma(),dollar(),percent(),scientific()

修改刻度标签的外观

修改坐标轴标签的文本

移除坐标轴标签

对数坐标轴

对数坐标轴添加刻度

坐标轴上使用日期

Chap9.控制图形的总体外观

设置图形标题

修改文本外观

文本项目分为两类：主题元素和文本几何对象。主题元素包括图形中的全部非数据元素：如标题、图例和坐标轴。文本几何对象则属于图形自己的一部分。

使用主题

要修改一套主题，配合相应的element_xx对象添加theme()函数便可。element_xx对象包括element_line、element_rect和element_text。

建立自定义主题

隐藏网格线

Chap10. 图例

像x轴和y轴同样，图例也是一种引导元素：它能够向人们展现如何从视觉上的图形属性映射回数据自己。

Chap11. 分面

数据可视化中最实用的技术之一就是将分组数据并列呈现，这样使得组间的比较变得垂手可得。

即在一个页面上自动摆放多幅图形, 这一过程先将数据划分为多个子集, 而后将每一个子集依次绘制到页面的不一样面板中。ggplot2提供两种分面类型：网格型(facet_grid)和封面型(facet_wrap)。网格分面生成的是一个2维的面板网格, 面板的行与列经过变量来定义, 本质是2维的; 封装分面则先生成一个1维的面板条块, 而后再分装到2维中, 本质是1维的。
在不少状况下, 咱们可能须要绘制有两个y轴的坐标系, 而在ggplot2中, 这种作法特别不提倡(stackover的讨论), 可解决的方法要么是把变量归一化, 要么即是采用分面方法。

p <- ggplot(mtcars, aes(mpg, wt, colour = cyl)) +geom_point() #geom_point()为经过”+”以图层的方式加入点的几何对象
p <- ggplot(mtcars, aes(mpg, wt)) + geom_point()
p + facet_grid(. ~ cyl) #以cyl为分类变量
p + facet_wrap( ~ cyl, nrow = 3) #wrap与grid的区别
p + facet_grid(cyl ~ .) #以cyl为分类变量
p + facet_wrap( ~ cyl, ncol = 3) #wrap与grid的区别
p + facet_grid(vs ~ am) #以vs和am为分类变量
p + facet_wrap(vs ~ am, ncol = 2) #wrap与grid 的区别

离散型变量调色板

对类别型数据中的点而言，最好选择调色板Set1和Dark2；对面积而言，Set2、Pastel1、Pastel2和Accent都是不错的选择方案。

RGB颜色

RGB颜色是由六个数字组成(十六进制数)，形式如“#RRGGBB”。在十六进制中，数字先从0到9，而后紧接着是A到F。每个颜色都由两个数字表示，范围从00到FF。好比颜色“#FF0099”中，255表示红色，0表示绿色，153表示蓝色，总体表示品红色。十六进制数中每一个颜色通道经常重复一样的数字，因子这样更容易阅读而且第二个数字的精确值对外观的影响并非很明显。

RGB经验法则

色盲友好式调色板

连续型变量调色板

Chap15. 其余图形

相关矩阵图

绘制函数曲线

绘制热图

使用geom_tile()或者geom_raster()，并将一个连续变量映射到fill上。

三维散点图

绘制谱系图

绘制QQ图

绘制马赛克图

绘制饼图

绘制地图

Chap14. 保存图形

输出为PDF矢量文件

输出为SVG矢量文件

输出为WMF矢量文件

输出为点阵(PNG/TIFF)文件

在图中显示中文

一页多图

视图窗口(viewport):显示设备的一个矩阵子区域。grid.layout()设置了一个任意高和宽的视图窗口布局。

默认的grid.layout()中，每一个单元格的大小都相同，能够设置widths和heights参数使得它们具备不一样的大小。

时间序列

数据下载

 
      
       
         
         
           #用excel导入数据, 格式为csv 
          
 
           ori.data < 
           -  
           read.csv( 
           "lesson8.csv" 
           , header  
           =  
           F) 
          
 
           #以矩阵的方式读入数据, 按行排列, 每三列换一行 
          
 
           data < 
           -  
           matrix(as.matrix(ori.data), nrow(ori.data)  
           /  
           3 
           ,  
           3 
           , byrow  
           =  
           TRUE) 
          
 
           #关闭区域特定的时间编码方式 
          
 
           Sys.setlocale( 
           "LC_TIME" 
           ,  
           "C" 
           ) 
          
 
           #用as.POSIXlt()读入字符串数据并转化为date数据, 赋值给date, 或as.Date() 
          
 
           date < 
           -  
           as.POSIXlt(data[,  
           1 
           ], tz  
           =  
           " 
           ", " 
           % 
           a  
           % 
           b  
           % 
           d  
           % 
           H: 
           % 
           M: 
           % 
           S HKT  
           % 
           Y") 
          
 
           #对ip和pv所在的列转化为数值型 
          
 
           IP < 
           -  
           as.numeric(data[,  
           2 
           ]) 
          
 
           PV < 
           -  
           as.numeric(data[,  
           3 
           ]) 
          
 
           head(data) 
          
 
           #恢复区域特意的时间编码方式 
          
 
           Sys.setlocale( 
           "LC_TIME" 
           , "") 
          
 
           #用ggplot2绘图 
          
 
           require(ggplot2) 
          
 
           #用reshape包中的melt函数分解数据 
          
 
           require(reshape2) 
          
 
           p.data < 
           -  
           data.frame(date, IP, PV) 
          
 
           meltdata < 
           -  
           melt(p.data,  
           id  
           =  
           (c( 
           "date" 
           ))) 
          
 
           #用对IP和PV作分页处理, y轴刻度自由变化 
          
 
           graphic < 
           -  
           ggplot(data  
           =  
           meltdata, aes(x  
           =  
           date, y  
           =  
           value, color  
           =  
           variable))  
           +  
           geom_line()  
           +  
           geom_point() 
          
 
           graphic < 
           -  
           graphic  
           +  
           facet_grid(variable ~ ., scales  
           =  
           "free_y" 
           ) 
          
 
           #美化, 添加标题, 坐标, 更改图例 
          
 
           graphic< 
           -  
           graphic  
           +  
           labs(x  
           =  
           "日期" 
           , y  
           =  
           "人次" 
           , title  
           =  
           "某网站7月至10月IP/PV统计" 
           )  
           + 
          
 
              
           theme(plot.title  
           =  
           element_text(size  
           =  
           20 
           , face  
           =  
           "bold" 
           ))  
           + 
          
 
              
           scale_colour_discrete(name  
           =  
           " 
           ",labels = c(" 
           IP 
           "," 
           PV"))  
           + 
          
 
              
           theme(strip.text.y  
           =  
           element_text(angle  
           =  
           0 
           )) 
          
 
       
 
      
    

地图

 
      
       
         
         
           require(maps) 
          
 
           require(ggplot2) 
          
 
           #用直方图看下pop总体的分布 
          
 
           #能够发现数据分布较变化较大, 因此对pop作log转化 
          
 
           qplot(pop, data  
           =  
           us.cities, binwidth  
           =  
           0000 
           , geom  
           =  
           "histogram" 
           ) 
          
 
           qplot(log(pop), data  
           =  
           us.cities, binwidth  
           =  
           0.03 
           , geom  
           =  
           "histogram" 
           ) 
          

              
          
 
           #绘制背景地图 
          
 
           USA.POP < 
           -  
           ggplot(us.cities, aes(x  
           =  
           long 
           , y  
           =  
           lat))  
           +  
           xlim( 
           - 
           130 
           ,  
           - 
           65 
           )  
           +  
           borders( 
           "state" 
           , size 
           = 
           0.5 
           ) 
           + 
          
 
              
           geom_point(aes(size  
           =  
           log(pop), color  
           =  
           factor(capital), alpha  
           =  
           1 
           / 
           50 
           )) 
           + 
          
 
              
           #对size标度的调整参考http://docs.ggplot2.org/0.9.3.1/scale_size.html 
          
 
              
           scale_size( 
           range 
           = 
           c( 
           0 
           ,  
           7 
           ), name  
           =  
           "log(City population)" 
           ) 
           + 
          
 
              
           #对离散型颜色变量的标度调整参考http://docs.ggplot2.org/0.9.3.1/scale_manual.html 
          
 
              
           #对连续型颜色标量的标度调整参考http://docs.ggplot2.org/0.9.3.1/scale_brewer.html 
          
 
              
           #和http://docs.ggplot2.org/0.9.3.1/scale_gradient2.html 
          
 
              
           scale_color_manual(values  
           =  
           c( 
           "black" 
           ,  
           "red" 
           ), labels  
           =  
           c( 
           "state capital" 
           ,  
           "city" 
           )) 
           + 
          
 
              
           #调整图例 
          
 
              
           guides(color  
           =  
           guide_legend(title 
           = 
           NULL))  
           +  
           scale_alpha(guide  
           =  
           FALSE) 
           + 
          
 
              
           #绘制标题和坐标轴 
          
 
              
           labs(x  
           =  
           "longtitude" 
           , y  
           =  
           "latitude" 
           , title  
           =  
           "City Population in the United States" 
           ) 
           + 
          
 
              
           theme(plot.title  
           =  
           element_text(size 
           = 
           20 
           )) 
          
 
               
          
 
           #输出图像 并用cairo包进行抗锯齿处理 
          
 
           ggsave(USA.POP,  
           file  
           =  
           "USA_POP.png" 
           ,  
           type  
           =  
           "cairo" 
           , width  
           =  
           10 
           , height  
           =  
           6.75 
           ) 
          
 
       
 
      
    

固然, 这只是简单的地图绘制方法,统计之都上也有不少大牛来用R绘制各类各样精美的地图(1, 2)。

剂量-效应曲线

R中的drc包很容易对各类剂量-效应曲线进行绘图, 此处采用较为经常使用的log-logistic四参数方程拟合了剂量-效应曲线。

数据下载

 
      
       
         
         
           ori.data < 
           -  
           read.csv( 
           "D-R curve.csv" 
           ) 
          
 
           require(drc) 
          
 
           require(reshape2) 
          
 
           #把数据融合 
          
 
           melt.data < 
           -  
           melt(ori.data,  
           id  
           =  
           c( 
           "dose" 
           ), value.name  
           =  
           "response" 
           )[,  
           - 
           2 
           ] 
          
 
           #用drc包中的log-logistic四参数方程进行拟合建模 
          
 
           model < 
           -  
           drm(response ~ dose, data  
           =  
           melt.data, fct  
           =  
           LL. 
           4 
           (names  
           =  
           c( 
           "Slope" 
           ,  
           "Lower Limit" 
           ,  
           "Upper Limit" 
           ,  
           "EC50" 
           ))) 
          
 
           #肯定x轴范围并构建数据集 
          
 
           min  
           < 
           -  
           range 
           (ori.data$dose)[ 
           1 
           ] 
          
 
           max  
           < 
           -  
           range 
           (ori.data$dose)[ 
           2 
           ] 
          
 
           line.data < 
           -  
           data.frame(d.predict  
           =  
           seq( 
           min 
           ,  
           max 
           , length.out  
           =  
           1000 
           )) 
          
 
           #用模型预测数据构建数据集 
          
 
           line.data$p.predict < 
           -  
           predict(model, newdata  
           =  
           line.data) 
          
 
           #构建绘图数据, 可以计算偏差棒 
          
 
           require(plyr) 
          
 
           p.data < 
           -  
           ddply(melt.data, .(dose), colwise(mean)) 
          
 
           p.data$sd < 
           -  
           ddply(melt.data, .(dose), colwise(sd))[, 
           2 
           ] 
          

              
          
 
           require(ggplot2) 
          
 
           p < 
           -  
           ggplot()  
           + 
          
 
              
           geom_errorbar(data  
           =  
           p.data, width  
           =  
           0.1 
           , size  
           =  
           1 
           , 
          
 
                            
           aes(ymax  
           =  
           response  
           +  
           sd, ymin  
           =  
           response  
           -  
           sd, x  
           =  
           dose))  
           + 
          
 
              
           geom_point(data  
           =  
           p.data, aes(x  
           =  
           dose, y  
           =  
           response),  
          
 
                         
           color  
           =  
           "red" 
           , alpha  
           =  
           0.5 
           , size  
           =  
           5 
           )  
           + 
          
 
              
           geom_line(data  
           =  
           line.data, aes(x  
           =  
           d.predict, y  
           =  
           p.predict),  
          
 
                          
           size  
           =  
           1 
           , color  
           =  
           "blue" 
           )  
           + 
          
 
              
           #改变坐标轴间隔 
          
 
              
           scale_x_log10(name  
           =  
           "Dose" 
           , 
          
 
                            
           breaks 
           = 
           c( 
           0.05 
           ,  
           0.1 
           ,  
           0.5 
           ,  
           1 
           ,  
           5 
           ,  
           10 
           ,  
           50 
           ,  
           100 
           ))  
           + 
          
 
              
           scale_y_continuous(name  
           =  
           "Response" 
           )  
           + 
          
 
              
           theme_bw() 
          
 
           #查看拟合模型参数 
          
 
           summary(model) 
          
 
       
 
      
    

几何对象函数	描述
geom_abline	线图，由斜率和截距指定
geom_area	面积图（即连续的条形图）
geom_bar	条形图
geom_bin2d	二维封箱的热图
geom_blank	空的几何对象，什么也不画
geom_boxplot	箱线图
geom_contour	等高线图
geom_crossbar	crossbar图（相似于箱线图，但没有触须和极值点）
geom_density	密度图
geom_density2d	二维密度图
geom_errorbar	偏差线（一般添加到其余图形上，好比柱状图、点图、线图等）
geom_errorbarh	水平偏差线
geom_freqpoly	频率多边形（相似于直方图）
geom_hex	六边形图（一般用于六边形封箱）
geom_histogram	直方图
geom_hline	水平线
geom_jitter	点、自动添加了扰动
geom_line	线
geom_linerange	区间，用竖直线来表示
geom_path	几何路径，由一组点按顺序链接
geom_point	点
geom_pointrange	一条垂直线，线的中间有一个点（与Crossbar图和箱线图相关，能够用来表示线的范围）
geom_polygon	多边形
geom_quantile	一组分位数线（来自分位数回归）
geom_rect	二维的长方形
geom_ribbon	彩虹图（在连续的x值上表示y的范围，例如Tufte著名的拿破仑远征图）
geom_rug	触须
geom_segment	线段
geom_smooth	平滑的条件均值
geom_step	阶梯图
geom_text	文本
geom_tile	瓦片（即一个个的小长方形或多边形）
geom_vline	竖直线

统计变换函数	描述
stat_abline	添加线条，用斜率和截距表示
stat_bin	分割数据，而后绘制直方图
stat_bin2d	二维密度图，用矩阵表示
stat_binhex	二维密度图，用六边形表示
stat_boxplot	绘制带触须的箱线图
stat_contour	绘制三维数据的等高线图
stat_density	绘制密度图
stat_density2d	绘制二维密度图
stat_function	添加函数曲线
stat_hline	添加水平线
stat_identity	绘制原始数据，不进行统计变换
stat_qq	绘制Q-Q图
stat_quantile	连续的分位线
stat_smooth	添加平滑曲线
stat_spoke	绘制有方向的数据点（由x和y指定位置，angle指定角度）
stat_sum	绘制不重复的取值之和（一般用在三点图上）
stat_summary	绘制汇总数据
stat_unique	绘制不一样的数值，去掉重复的数值
stat_vline	绘制竖直线

标度函数	描述
scale_alpha	alpha通道值（灰度）
scale_brewer	调色板，来自colorbrewer.org网站展现的颜色标度
scale_continuous	连续标度
scale_data	日期
scale_datetime	日期和时间
scale_discrete	离散值
scale_gradient	两种颜色构建的渐变色
scale_gradient2	3中颜色构建的渐变色
scale_gradientn	n种颜色构建的渐变色
scale_grey	灰度颜色
scale_hue	均匀色调
scale_identity	直接使用指定的取值，不进行标度转换
scale_linetype	用线条模式来展现不一样
scale_manual	手动指定离散标度
scale_shape	用不一样的形状来展现不一样的数值
scale_size	用不一样大小的对象来展现不一样的数值

坐标函数	描述
coord_cartesian	笛卡儿坐标
coord_equal	等尺度坐标（斜率为1）
coord_flip	翻转笛卡儿坐标
coord_map	地图投影
coord_polar	极坐标投影
coord_trans	变换笛卡儿坐标

定位函数	描述
position_dodge	并列
position_fill	填充
position_identity	不对位置进行处理
position_jitter	扰动处理
position_stack	堆叠处理

参数	描述	默认值
data	要绘图的数据框
mapping	一系列图形属性的映射	aes()
environment	图形属性参数所在的环境	globalenv()
...

分面函数	描述
facet_grid	将分面放置在二维网格中
facet_wrap	将一维的分面按二维排列

R语言 ggplot2包

R语言 ggplot2包的学习

基本语法：

几何对象：

统计变换

标度函数

坐标系

分面

位置

Chap1. R 基础

Chap2. 快速探索数据（略）

条形图

直方图

箱线图

绘制函数图像

Chap3. 条形图

参数

条形图

调整条形宽度和条形距离

Chap4. 折线图

概述

简单折线图

Chap5. 散点图

概述

散点图

1 基本散点图

2 基于类别型变量分组

3 基于连续型变量映射

处理散点重合的基本思路包括：

散点图矩阵

高密度散点图

三维散点图

7 添加文本标注

8 使用气泡图绘制二维统计

Chap6. 描述数据分布

直方图

直方图

单组直方图

分组直方图

核密度曲线

分组密度曲线

频数多边形

箱线图

小提琴图

Wilkinson点图

Chap7. 注解

文本注解

数学表达式

添加直线

添加线段和箭头

添加矩形阴影

添加偏差线

向独立分面添加注解

1 添加文本注解

2 添加数学表达式

3 添加直线

4 添加线段和箭头

5 添加矩形阴影

6 向独立分面添加注解

Chap8. 坐标轴

交换x轴和y轴

坐标轴的值域

反转一条连续型坐标轴

修改类别型坐标轴上项目的顺序

设置x轴和y轴的缩放比例

设置刻度线的位置

移除刻度线和标签

修改刻度标签的文本

修改刻度标签的外观

修改坐标轴标签的文本

移除坐标轴标签

对数坐标轴

对数坐标轴添加刻度

坐标轴上使用日期

4 修改类别型坐标轴上项目的顺序

7 修改标题和坐标轴标签文本

9 绘制极坐标

Chap9.控制图形的总体外观

设置图形标题

修改文本外观