Régler α, éviter la divergence.

Reviens à l'image de la cuvette. Si tu avances d'un millimètre à chaque pas, tu mettras des heures. Si tu avances d'un kilomètre, tu sors de la cuvette à la première enjambée. Il existe une bonne taille de pas, et c'est $\alpha$ qui la fixe.

Paramètre, hyperparamètre

$\alpha$ est ce qu'on appelle un hyperparamètre : un réglage choisi par toi, pas appris par l'algorithme. À ne pas confondre avec $\theta_0$ et $\theta_1$ , qui sont les paramètres ajustés par la descente. En gros : tu choisis $\alpha$ avant de lancer l'entraînement, et l'algorithme choisit $\theta$ pendant.

Trois scénarios :

$\alpha$ trop petit (par exemple 0.0001) : le coût baisse, mais si lentement qu'il te faudra des centaines de milliers d'itérations pour voir la différence. Sûr, mais inefficace.
$\alpha$ trop grand (par exemple 1 ou 10) : chaque pas saute par-dessus le fond de la cuvette. Le coût oscille, parfois augmente, puis explose. On dit que l'algorithme diverge.
$\alpha$ bien choisi (autour de 0.01 sur des données normalisées) : le coût chute régulièrement et se stabilise en quelques centaines d'itérations.

α = 0.001

Trop lent

α = 0.1

Converge

α = 10

Diverge

Trois α, même point de départ (0, 0), 80 itérations sur les voitures normalisées. Trop petit, juste, trop grand.

+Comment lire ce graphique ?

Chaque petite courbe est l'évolution de la MSE au fil des itérations, pour un $\alpha$ donné. On veut voir la courbe descendre régulièrement et se stabiliser : c'est le signe d'un bon $\alpha$ . Quand $\alpha$ est trop petit, la courbe est presque plate : l'entraînement avance à peine. Quand $\alpha$ est trop grand, la courbe monte vers l'infini : l'entraînement diverge.

Le piège des kilomètres

Sur notre dataset de voitures, $x$ vaut typiquement 150 000 km. Or le gradient $\partial J / \partial \theta_1$ contient un facteur $x$ : il est donc de l'ordre de $10^5$ fois plus grand que $\partial J / \partial \theta_0$ . Avec le même $\alpha$ , $\theta_1$ fait un pas $10^5$ fois trop gros. Partant de $(0, 0)$ , une seule itération suffit à envoyer $\theta_1$ à plusieurs millions, et l'itération suivante dépasse les limites du flottant : $\infty$ , puis $\mathrm{NaN}$ .

Deux remèdes existent. Le premier, diviser $\alpha$ par dix millions, est une rustine : ça rend l'entraînement stable mais ultra-lent, et ça ne traite pas la cause. Le second, propre et standard en ML, est de normaliser les données avant l'entraînement.

La normalisation Z-score

On ramène $x$ à un ordre de grandeur sympathique en le centrant sur zéro et en le divisant par son écart-type. Note $\mu$ (mu) la moyenne des kilométrages et $\sigma$ (sigma) leur écart-type (l'écart-type mesure à quel point les valeurs sont dispersées autour de la moyenne) :

x_{\text{norm}} = \frac{x - \mu}{\sigma}

Les kilométrages normalisés ont maintenant une moyenne de 0 et un écart-type de 1. Environ 95 % des voitures tombent dans l'intervalle $[-2, +2]$ . Les deux gradients sont du même ordre de grandeur, et un $\alpha = 0.01$ marche pour les deux en même temps.

Dénormaliser pour rester fidèle au sujet

Le sujet impose que predict prenne un kilométrage en km bruts, pas normalisés. On pourrait stocker $\mu$ et $\sigma$ et renormaliser dans predict, mais c'est moche. Plus propre : après l'entraînement, on dénormalise les paramètres. Si on note $\theta_{0n}$ et $\theta_{1n}$ les paramètres appris sur les données normalisées, alors les paramètres utilisables sur les km bruts sont :

\theta_1 = \frac{\theta_{1n}}{\sigma}

\theta_0 = \theta_{0n} - \theta_1 \cdot \mu

theta.json contient ces valeurs dénormalisées. Le programme predict reste trivial : il applique littéralement l'hypothèse du sujet, $\hat{y} = \theta_0 + \theta_1 \cdot x$ , sans rien savoir de la normalisation.

Et maintenant ?

Tu sais descendre, tu sais régler $\alpha$ , tu sais domestiquer un dataset hostile. Il te reste à juger le modèle une fois qu'il est entraîné : une MSE en euros carrés, ça ne parle à personne. Au chapitre suivant, tu vas découvrir le $R^2$ , une métrique sans unité qui dit enfin « ce modèle est bon » ou « ce modèle est mauvais ».