[GPU] Machine Learning on C++

1、MPI为什么物?

初步了解:MPI集群环境搭建html

 

2、从新认识Spark

连接:https://www.zhihu.com/question/48743915/answer/115738668git

马铁大神的phd thesis 总结里面说了一句话 大概意思是说 单纯的若是使用mpi 来实现一个算法 比spark 快五六倍是很正常的 可是spark 是一个 general 的 data flow 处理框架 就是能够在数据的生命周期里面 可使用spark 之上的具体实现来处理数据 ml 只是一部分而已 这就是spark 最大的卖点之一github

因此你用这个Prophet平台来和spark 比 ml这方面的效率固然你要快了的 由于还有不少ml 专业的平台都要比spark 快 这就不列举了
由于spark 基于 mapreduce的 这种program model 就不是适合ml的 特别是ml 里面大量参数的模型 好比lda 之类的 算法

btw: 若是做为一个严格的论文来看的话 把spark 做为baseline 而不是作普遍的实验比较的话好比 各类平台算法 数据集 算法

 

3、Microsoft Distributed Machine Learning Toolkit (DMTK)

<Parallelization in Machine Learning with Multiple Processes>
 

 

DMTK includes the following projects:shell

  • DMTK framework(Multiverso): The parameter server framework for distributed machine learning.
  • LightLDA: Scalable, fast and lightweight system for large-scale topic modeling.
  • LightGBM: LightGBM is a fast, distributed, high performance gradient boosting (GBDT, GBRT, GBM or MART) framework based on decision tree algorithms, used for ranking, classification and many other machine learning tasks.
  • Distributed word embedding: Distributed algorithm for word embedding implemented on multiverso.
 

4、GPU隆重登场

 
 
在2.4版本中,kmean是opencl实现。
 
 
在4.1版本中,LogisticRegression是opencl实现的么?
class  cv::ml::LogisticRegression
貌似不是gpu版本。
 

In a nutshell

Ref: How to use NVIDIA GPUs for Machine Learning with the new Data Science PC from Maingeardom

看样子你们才刚刚意识到这个事情,或者dnn就足够了。机器学习

Goto: [CUDA] Install H2O.ai,有部分GPU实现的算法。分布式

  • GLM: Lasso, Ridge Regression, Logistic Regression, Elastic Net Regulariation
  • KMeans
  • Gradient Boosting Machine (GBM) via XGBoost
  • Singular Value Decomposition(SVD) + Truncated Singular Value Decomposition
  • Principal Components Analysis(PCA)

Real time bench mark: https://www.youtube.com/watch?v=LrC3mBNG7WU,速度快二十倍。工具

 
End.
相关文章
相关标签/搜索