[原]基于RStudio Webinars的统计报告Web化与工程化实践总结

时间 2019-11-06

标签基于 rstudio webinars 统计报告 web 工程实践总结栏目 HTML 繁體版

原文原文链接

概述

本文根据 Rstudio Webinars 的教程资源对Rstudio流的R语言教程作一个汇总，能够看到Rstudio对统计报告的Web化和工程化作了大量贡献。感谢Rstudio的众多工程师在开源的道路上的贡献！css

谢溢辉：LaTex/Word的统计报告大逃亡之Rmarkdown生态

教学视频地址html

在可交互、可复用的统计报告中，谢溢辉将介绍一众R包，包括 knitr、rmarkdown、htmlwidgets、DT、leaflet以及shiny。node

快速标准的论文书写

# $something$ 或者 $$something$$ 能够解决数学公式的问题
# 利用 bib 文件和[@something] 能够解决引用的问题
# 一样的，你也能够根据一些机构要求引入标准的模板。

参考谢溢辉的Rmarkdown论文
 参考谢溢辉的bib文件python

屏蔽源码

# ```{r echo=F}屏蔽源代码
# ```{r, fig.width=5, fig.height=4} 设置配图大小
# 脚注

代码段内存共享

利用cache选项复用代码和数据mysql

Sys.sleep(5)
rnorm(1)

输出其余语言代码

利用engine选项选择代码引擎，驱动python、R、scala、Rcpp、bash、perl、node等git

x = 'hello, python
world!'
print(x)
print(x.split(' '))

交互式文档

利用yaml配置中的runtime选项github

---
author: Harry Zhu
output: html_document
runtime: shiny
---

同理，你也能够选择输出slide、pdf或者word，你甚至能够给html定制一个css皮肤。web

在我看来，rmarkdown是一款超越Zeppelin和iPython notebook的产品。
最总要的意义在于，学术工做者和工程师们不单单能够摆脱格式对创做的束缚专一于代码和文档，更是随意输出pdf、slide、html、word、latex等多种格式，造成强有力的跨界冲击。sql

谢溢辉本人有超过10年以上的LaTex使用经验，他的rmarkdown和knitr造福了一代学术工做者，显然LaTex和Word的体系在这种降维攻击下已经风雨飘摇。数据库

Hadley Wickham：R与大数据共舞

教学视频地址

R是一门为小数据探索和开发设计的语言,但在生产中R和大数据在一块儿还能发挥做用吗? 咱们定义数据量大于单机内存的数据为大数据。让咱们对比一下大数据与小数据的生命周期。

一个小数据分析项目的生命周期：

阐明：熟悉数据、模板解决方案
开发：建立有效模型
产品化：自动化与集成
发布：社会化

一个大数据分析项目的生命周期：

切片：抽取部分数据
阐明：熟悉数据、模板解决方案
开发：建立有效模型
扩展：使用到整个数据集
产品化：自动化与集成
发布：社会化

dplyr与数据读取

教学视频地址

Package	DBMS
src_sqlite()	SQLite
src_mysql	MySQL
src_postgres	PostgreSQL
library(bigquery) src_bigquery()	Google BigQuery

显示SQL

show_query(clean)

中间缓存

collapse()返回正在处理的结果

# 抽取 1% 的训练数据
random <- clean %>%
 mutate(x = random()) %>%
 collapse() %>%
 filter(x <= 0.01) %>%
 select(-x) %>%
 collect()

数据存储

copy_to() 根据本地的data frame 在数据库建立一个表

# air为connection名称，query5为data frame，"gains"为表名
copy_to(air, query5, name = "gains")
# 关闭链接
rm(air)
# 垃圾收集器
gc()

Hadley Wickham:ETL

教学视频地址

本节将讨论一个有效的数据分析/数据科学问题框架，包括：

数据读取 readr/httr/DBI
数据清洗 tidyr/jsonlite
数据处理 dplyr/rlist
数据可视化 ggplot2/ggvis
数据建模 broom/modelr

broom：快速分析

install.packages("broom")
# 查看相关例子
browseVignettes(package="broom")

Hadley Wickham是RStudio的首席科学家，并兼任统计莱斯大学的兼职教授。他将一一介绍他认为你应该知道的各类R包,并概述大数据和R,但主要是解释为何他相信你不该该担忧大数据的问题。

modelr：建模工具

install.packages("modelr")

下面是modelr核心函数，能够辅助抽样、交叉验证、残差计算等等

modelr::%>%                 modelr::data_grid           modelr::mae                 modelr::rmse
modelr::add_predictions     modelr::fit_with            modelr::model_matrix        modelr::rsquare
modelr::add_predictors      modelr::formulae            modelr::na.warn             modelr::seq_range
modelr::add_residuals       modelr::formulas            modelr::qae                 modelr::spread_predictions
modelr::bootstrap           modelr::gather_predictions  modelr::resample            modelr::spread_residuals
modelr::crossv_kfold        modelr::gather_residuals    modelr::resample_bootstrap  modelr::typical
modelr::crossv_mc           modelr::geom_ref_line       modelr::resample_partition

garrettgman:packrat与虚拟化技术

教学视频地址

你是否有过这样与人合做开发的经历：在本身机器上运行完美的R代码，复制到另一台同事的机器上运行就有不少R包须要从新安装，有的R包甚至依赖于不一样的版本？如今，在不使用Docker或Vagrant等全局虚拟化技术的条件下，只须要运用packrat包，就能够保证你的R项目的依赖问题被很好的解决，一次运行，处处运行。

if(!require(packrat)){install.packages("packrat")}
getOption("repos") # 显示代码镜像源
packrat:: bundle() # 打包当前环境并虚拟化
packrat:: unbundle(bundle="xxx.tar.gz",where=".") # 加载已经打包过的环境
packrat::opts$local.repos("~/R") # 设置本地repos为路径
packrat::install_local("pryr") # 从本地安装

Hadley Wickham:Git与团队协做

教学视频地址

团队协做:利用Git 和 GitHub，你能够很轻松的与人协做，你再也不须要用邮件附件来备份文档，或者在Dropbox上为争夺编辑权限而争吵。相反，你能够独立工做，最后只须要合并大家的成果就能够。

版本控制: Git 在咱们制造重大错误时都容许咱们回滚到以前的任意时间点。咱们也能够回顾咱们以前所作的一块儿历史记录，跟踪bug的造成过程。

做为分享主义者(sharism)，本人全部互联网发布的图文均听从CC版权，转载请保留做者信息并注明做者 Harry Zhu 的 FinanceR 专栏:https://segmentfault.com/blog...，若是涉及源代码请注明GitHub地址：https://github.com/harryprince。微信号: harryzhustudio商业使用请联系做者。