Week3作业


#1

今天听了李宏毅老师讲的梯度下降课程,来做一下思考问题的第4题 learning rate的选取,应当结合训练数据来进行适当调整。learning rate过大,容易导致训练模型不收敛,损失函数变得很大,达不到我们训练模型的目的;learning rate过小,容易出现损失函数变化太慢,达到我们预期的损失需要耗费太长的时间。因此,在损失函数离局部最低点远的时候,加大learning rate使损失函数迅速下降,在接近局部最优点时减小learning rate防止发生振荡就是很重要的事情。我们一般可以采用Adagrad的方法来调整learning rate的值,Adagrad是利用公式 来调整learning rate 的,其中t是训练次数,g是偏微分的值,分母是每一次偏微分的平方和的开平方,分子是一个时间的函数。 另外一个调整的方法是 这个方法是通过对每一个数据、每运行一次模型都进行一次参数的迭代,而不是多个数据训练后再进行迭代。 还可以通过对learning rate加一个时间函数的分母,每运行模型一次,分母都会增大,learning rate会越来越小。这种方法虽然是英语大部分的数据或者模型,但是对于具体数据可能不是最合适的。