本文根据 Rstudio Webinars 的教程资源对Rstudio流的R语言教程作一个汇总,能够看到Rstudio对统计报告的Web化和工程化作了大量贡献。感谢Rstudio的众多工程师在开源的道路上的贡献!css
教学视频地址html
在可交互、可复用的统计报告中,谢溢辉将介绍一众R包,包括 knitr、rmarkdown、htmlwidgets、DT、leaflet以及shiny。node
# $something$ 或者 $$something$$ 能够解决数学公式的问题 # 利用 bib 文件和[@something] 能够解决引用的问题 # 一样的,你也能够根据一些机构要求引入标准的模板。
参考谢溢辉的Rmarkdown论文
参考谢溢辉的bib文件python
# ```{r echo=F}屏蔽源代码 # ```{r, fig.width=5, fig.height=4} 设置配图大小 # 脚注
利用cache
选项复用代码和数据mysql
Sys.sleep(5) rnorm(1)
利用engine
选项选择代码引擎,驱动python、R、scala、Rcpp、bash、perl、node等git
x = 'hello, python world!' print(x) print(x.split(' '))
利用yaml
配置中的runtime
选项github
--- author: Harry Zhu output: html_document runtime: shiny ---
同理,你也能够选择输出slide、pdf或者word,你甚至能够给html定制一个css皮肤。web
在我看来,rmarkdown是一款超越Zeppelin和iPython notebook的产品。
最总要的意义在于,学术工做者和工程师们不单单能够摆脱格式对创做的束缚专一于代码和文档,更是随意输出pdf、slide、html、word、latex等多种格式,造成强有力的跨界冲击。sql
谢溢辉本人有超过10年以上的LaTex使用经验,他的rmarkdown和knitr造福了一代学术工做者,显然LaTex和Word的体系在这种降维攻击下已经风雨飘摇。数据库
R是一门为小数据探索和开发设计的语言,但在生产中R和大数据在一块儿还能发挥做用吗? 咱们定义数据量大于单机内存的数据为大数据。让咱们对比一下大数据与小数据的生命周期。
一个小数据分析项目的生命周期:
阐明:熟悉数据、模板解决方案
开发:建立有效模型
产品化:自动化与集成
发布:社会化
一个大数据分析项目的生命周期:
切片:抽取部分数据
阐明:熟悉数据、模板解决方案
开发:建立有效模型
扩展:使用到整个数据集
产品化:自动化与集成
发布:社会化
Package | DBMS | |
---|---|---|
src_sqlite() | SQLite | |
src_mysql | MySQL | |
src_postgres | PostgreSQL | |
library(bigquery) src_bigquery() | Google BigQuery |
show_query(clean)
collapse()
返回正在处理的结果
# 抽取 1% 的训练数据 random <- clean %>% mutate(x = random()) %>% collapse() %>% filter(x <= 0.01) %>% select(-x) %>% collect()
copy_to()
根据本地的data frame 在数据库建立一个表
# air为connection名称,query5为data frame,"gains"为表名 copy_to(air, query5, name = "gains") # 关闭链接 rm(air) # 垃圾收集器 gc()
本节将讨论一个有效的数据分析/数据科学问题框架,包括:
数据读取 readr
/httr
/DBI
数据清洗 tidyr
/jsonlite
数据处理 dplyr
/rlist
数据可视化 ggplot2
/ggvis
数据建模 broom
/modelr
install.packages("broom") # 查看相关例子 browseVignettes(package="broom")
Hadley Wickham是RStudio的首席科学家,并兼任统计莱斯大学的兼职教授。他将一一介绍他认为你应该知道的各类R包,并概述大数据和R,但主要是解释为何他相信你不该该担忧大数据的问题。
install.packages("modelr")
下面是modelr
核心函数,能够辅助抽样、交叉验证、残差计算等等
modelr::%>% modelr::data_grid modelr::mae modelr::rmse modelr::add_predictions modelr::fit_with modelr::model_matrix modelr::rsquare modelr::add_predictors modelr::formulae modelr::na.warn modelr::seq_range modelr::add_residuals modelr::formulas modelr::qae modelr::spread_predictions modelr::bootstrap modelr::gather_predictions modelr::resample modelr::spread_residuals modelr::crossv_kfold modelr::gather_residuals modelr::resample_bootstrap modelr::typical modelr::crossv_mc modelr::geom_ref_line modelr::resample_partition
你是否有过这样与人合做开发的经历:在本身机器上运行完美的R代码,复制到另一台同事的机器上运行就有不少R包须要从新安装,有的R包甚至依赖于不一样的版本?如今,在不使用Docker或Vagrant等全局虚拟化技术的条件下,只须要运用packrat包,就能够保证你的R项目的依赖问题被很好的解决,一次运行,处处运行。
if(!require(packrat)){install.packages("packrat")} getOption("repos") # 显示代码镜像源 packrat:: bundle() # 打包当前环境并虚拟化 packrat:: unbundle(bundle="xxx.tar.gz",where=".") # 加载已经打包过的环境 packrat::opts$local.repos("~/R") # 设置本地repos为路径 packrat::install_local("pryr") # 从本地安装
团队协做:利用Git 和 GitHub,你能够很轻松的与人协做,你再也不须要用邮件附件来备份文档,或者在Dropbox上为争夺编辑权限而争吵。相反,你能够独立工做,最后只须要合并大家的成果就能够。
版本控制: Git 在咱们制造重大错误时都容许咱们回滚到以前的任意时间点。咱们也能够回顾咱们以前所作的一块儿历史记录,跟踪bug的造成过程。
做为分享主义者(sharism),本人全部互联网发布的图文均听从CC版权,转载请保留做者信息并注明做者 Harry Zhu 的 FinanceR 专栏:https://segmentfault.com/blog...,若是涉及源代码请注明GitHub地址:https://github.com/harryprince。微信号: harryzhustudio商业使用请联系做者。