梯度下降常见算法 BGD, SGD, MBGD 简介

2021-05-03 16:28

阅读：810

标签：最快 sgd ram algorithm inline dom 停止比较 lan

参考文献

An overview of gradient descent optimization algorithms

梯度下降 GD(Gradient Descent)

梯度方向是函数变化率最大的方向，是函数增长最快的方向。
- 梯度的反方向是函数减少的最快方向。
ex: 从山上走到谷底
\(x_j^{(i+1)} = x_j^{(i)}-\eta \cdot \frac{\partial f}{\partial x_j}(x^{(i)})\), 对\(i>0\). 表示第j个参数，第i次迭代。
- 其中\(\eta\)为learning rate
常见变形有：BGD，SGD，MBGD等等

BGD（Batch Gradient Descent）

对整个训练集计算损失函数对参数的梯度：\(\theta = \theta - \eta \cdot \triangledown _{\theta}J(\theta)\)
对于非凸函数得局部极小值和鞍点处，会停止更新，不会震荡。
缺点：训练集可能有相似的样本，整个训练集都算一次就会很慢且有冗余。

for i in range ( nb_epochs ):
	params_grad = evaluate_gradient ( loss_function , data , params )
	params = params - learning_rate * params_grad

SGD (Stochastic Gradient Descent)

一次只进行一次更新，没有冗余，比较快，可以新增样本。
缺点：
- 噪声比BGD多，不是每次迭代都向着整体最优的方向。
- 更新频繁，cost function可能严重震荡。
- 对于非凸函数，容易困在局部极小值或鞍点处，来回震荡。

for i in range ( nb_epochs ):
	np . random . shuffle ( data )
	for example in data :
		params_grad = evaluate_gradient ( loss_function , example , params )
		params = params - learning_rate * params_grad

MBCG(Mini-Batch Gradient Descent)

每次利用一小批的样本，利用n个样本进行计算。
BCG和SGD每个epoch都会扫过整个数据集，而MBCG每个epoch只处理一个batch_size（一般50~256）的数据。
优点：降低参数更新时的方差，收敛更稳定。
缺点：
- 不能保证很好的收敛性。
- 对于非凸函数，容易困在局部极小值或鞍点处，来回震荡。

for i in range ( nb_epochs ):
	np.random.shuffle(data)
	for batch in get_batches ( data , batch_size =50):
	params_grad = evaluate_gradient ( loss_function , batch , params )
	params = params - learning_rate * params_grad

梯度下降常见算法 BGD, SGD, MBGD 简介

标签：最快 sgd ram algorithm inline dom 停止比较 lan

原文地址：https://www.cnblogs.com/xuwanwei/p/13197002.html

上一篇：JS基础 - 变量数组

下一篇：图像的数组表示

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：梯度下降常见算法 BGD, SGD, MBGD 简介
文章链接：http://soscw.com/index.php/essay/81873.html

亲，登录后才可以留言！

梯度下降常见算法 BGD, SGD, MBGD 简介

参考文献

梯度下降 GD(Gradient Descent)

BGD（Batch Gradient Descent）

SGD (Stochastic Gradient Descent)

MBCG(Mini-Batch Gradient Descent)

评论

热门文章

推荐文章

最新文章

置顶文章