这一节主要讲了一些适用于大规模机器学习的算法及策略,并比较了梯度降低、随机梯度降低和小批量梯度降低的优劣。目前来讲,大规模机器学习中用的最多的仍是小批量梯度降低,毕竟它在执行效率和性能之间达到了一个平衡。固然,对于小批量梯度降低来讲,如何选择合适的批量大小又是一个值得深思的问题。算法
\[ \begin{aligned} &\text{Repeat}\{\\ &\quad\quad\Theta_{t+1} := \Theta_t - \alpha\frac{1}{n}\sum_{i=1}^n\nabla\text{cost}\left(f(x^{(i)};\Theta_t),y^{(i)}\right)\\ &\} \end{aligned} \]服务器
\[\begin{aligned} &\text{Repeat}\{\\ &\quad\quad\text{Shuffer training dataset randomly}\\ &\quad\quad \text{Select }\textbf{one}\text{ example from training dataset}\\ &\quad\quad\Theta_{t+1} := \Theta_t - \alpha\nabla\text{cost}\left(f(x^{(i)};\Theta_t),y^{(i)}\right)\\ &\} \end{aligned}\]架构
\[\begin{aligned} &\text{Repeat}\{\\ &\quad\quad\text{Shuffer training data randomly}\\ &\quad\quad\text{Select }b\text{ examples from training dataset}\\ &\quad\quad\Theta_{t+1} := \Theta_t - \alpha\frac{1}{b}\sum_{i=1}^b\nabla\text{cost}\left(f(x^{(i)};\Theta_t),y^{(i)}\right)\\ &\} \end{aligned}\]
后面介绍了分布式机器学习中的Map-Reduce方法,其实现阶段(2020年)经常使用的方法仍是数据并行和模型并行这两种。主要使用的架构包括参数服务器以及一些环状架构,这里就不做过多介绍了。dom