Question

Je viens de trouver l'animation ci-dessous de la présentation d'Alec Radford:

enter image description here

Comme visible, tous les algorithmes sont considérablement ralentis à Saddle Point (où le dérivé est 0) et accélérer une fois qu'ils en sortent. Le SGD régulier lui-même est simplement coincé au point de la selle.

Pourquoi cela arrive-t-il? La valeur constante de la "vitesse de mouvement" dépend-elle du taux d'apprentissage?

Par exemple, le poids pour chaque point sur l'algorithme SGD ordinaire serait:

$$ w_ {t + 1} = w_t-v * frac { partial l} { partial w} $$

où $ v $ est un taux d'apprentissage et $ l $ est une fonction de perte.

En bref, pourquoi tous les algorithmes d'optimisation sont-ils ralentis par le point de selle même si la taille de l'étape est une valeur constante? Une vitesse de déplacement ne devrait-elle pas être constamment la même?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top