集中趋势测量(均值、中位数、众数)
均值=(数值之和)/(数值个数)
中位数=排序后位于正中间的一个数(奇数)、排序后位于正中间的两个数的均值(偶数)
众数=出现次数最多的数函数
分散趋势测量(值域、方差、标准差、四分位距)3d
举个例子:
code
其中,中位数、四分位距是稳健统计量,受极端值影响小。blog
一个数值变量的可视化
柱状图:横坐标表示预测值全部可能的取值,纵坐标表示频数。
点图:横坐标表示预测值全部可能的取值,纵坐标表示出现的次数。好比出现了一次,就会对应一个点。
箱图:展现25%分位点、50%分位点、75%分位点。在范围(25%分位点-1.5四分位距,75%分位点+1.5四分位距)以外的点命异常点。排序
两个数值变量的关系
散点图:显示方向、形状、强度、极端值。好比正相关、负相关。数据分析
一个分类变量可视化
频率表:表格的形式展示数据的分类水平出现的频率。
条形图:横坐标表示分类变量的每个水平。it
两个分类变量的关系
关联表
相对频率表
分段条形图、相对频率的分段条形图
马赛克图变量
并排箱图:横轴分类变量取值,纵轴为每一个分类变量下对应的数值变量。可视化
基本绘图系统
艺术家的调色板,绘图始于空白画布。分为两个步骤 = 图+修饰添加 = 执行一系列的函数。适于绘制2D图。
绘图函数(graphics包)---plot/ hist / boxplot /points /lines /text /title / axis,调用函数的时候会启动一个图形设备。
plot(x,y,...),其中重要的参数有:xlab / ylab:x轴y 轴的标签,lwd线宽,lty线的类型(2为虚线),pch点,col颜色。
par(),用于设置全局参数,bg:背景颜色,mar边距,las标签排版,mfrow行列,mfcol列行。
举例子:im
hist(airquality$Wind,xlab = "wind") #一个数值变量的直方图
boxplot(airquality$Wind,xlab="wind",ylab="speed") #一个数值变量的箱图
boxplot(Wind~Month,airquality) #一个数值变量一个分类变量的并排箱图,横轴为分类水平。
plot(airquality$Wind,airquality$Temp) #风速与温度的散点图,也能够写成with函数: with(airquality,plot(Wind,Temp))
with(subset(airquality,Month==9),points(Wind,Temp,col="red")) with(subset(airquality,Month==5),points(Wind,Temp,col="blue")) with(subset(airquality,Month %in% c(6,7,8)),points(Wind,Temp,col="black")) 不一样月份的点用不一样颜色绘制
fit<-lm(Temp~Wind,airquality) abline(fit,lwd=2) #作一条拟合线
legend("topright",pch=1,col = c("red","blue","black"),legend = c("sep","may","other")) #作图例
par(mfrow=c(1,2)) hist(airquality$Wind) hist(airquality$Temp) #将屏幕分为两个部分做图。