Pourquoi les algorithmes d'optimisation sont-ils plus lents aux points critiques?
-
31-10-2019 - |
Question
Je viens de trouver l'animation ci-dessous de la présentation d'Alec Radford:
Comme visible, tous les algorithmes sont considérablement ralentis à Saddle Point (où le dérivé est 0) et accélérer une fois qu'ils en sortent. Le SGD régulier lui-même est simplement coincé au point de la selle.
Pourquoi cela arrive-t-il? La valeur constante de la "vitesse de mouvement" dépend-elle du taux d'apprentissage?
Par exemple, le poids pour chaque point sur l'algorithme SGD ordinaire serait:
$$ w_ {t + 1} = w_t-v * frac { partial l} { partial w} $$
où $ v $ est un taux d'apprentissage et $ l $ est une fonction de perte.
En bref, pourquoi tous les algorithmes d'optimisation sont-ils ralentis par le point de selle même si la taille de l'étape est une valeur constante? Une vitesse de déplacement ne devrait-elle pas être constamment la même?
Pas de solution correcte