R 和 Python2/Python3 在过去十年(Pandas问世后)的数据科学领域持续着激烈的竞争,随着时间的推移竞争格局也从混沌走向清晰。html
R 从诞生开始就继承了 S 语言的统计特性,经历了野蛮生长,2009 年 ggplot2 和 data.table 的横空出世大幅提高数据可视分析的效率,极大冲击了数据科学早期市场,要知道当时数据科学还主要被商业软件 Excel、SAS 和 Matlab 所垄断。R语言做为数据科学开源软件的先驱,多个商业应用领域不断进化,贝叶斯、空间分析、网络分析、时序分析、生存分析等在代码库 CRAN 和 GitHub 上开始快速增加,直到 2015年 Revolution R 被 Microsoft 公司收购达到顶峰。python
Python 本来是一种胶水语言,在Web开发、嵌入式开发、运维测试等领域使用较为普遍,在数据科学领域运用并不普遍。然而,自 2015年大数据和深度学习的人工智能革命起,Python 中的两大开源框架 PySpark 和 Tensorflow 开始大放异彩,全民学习 Python 的热情也随水涨船高,Python 成功实现了数据科学领域的逆袭。git
随着2020年起,Python2 的正式中止维护,Python。github
Python Version编程
Domain | Python3 | R |
---|---|---|
基础数据处理 | Pandas/Dplython | Tidyverse/Dplyr |
并行计算(数据密集) | Koalas/PySpark | Sparklyr/SparkR |
并行计算(计算密集) | Dask/Modin | Disk.frame |
网络挖掘 | Networkx/Graph-tool | Tidygraph |
地理挖掘 | Geopandas/Rasterio | Sf/Raster |
时序挖掘 | Prophet/Backtrader | Fable/Quantstrat |
图像处理 | OpenCV | magick |
文本处理 | Gensim/NLTK | tidytext |
基础统计工具 | Statsmodels | tidymodel |
贝叶斯统计 | PyMC3/PyStan | Brms/Rstanarm |
机器学习 | Sklearn | Mlr |
深度学习 | Tensorflow/Mxnet | Tensorflow/Mxnet |
强化学习 | RLlib/Gym | ReinforcementLearning |
仿真建模 | Simpy | Simmer |
优化建模 | Cvxplayers/Ortools/Scipy | CVXR/ompr |
原型开发 | Dash | Shiny |
数据探索 | Plotly/Matplotlib/Plotnine | Plotly/Ggplot2/Esquisse |