Évaluer le modèle.

Ton entraînement s'est bien passé, la courbe de coût a piqué du nez et s'est stabilisée. Tu regardes la MSE finale : quelques millions. Est-ce bon ? Mauvais ? Impossible à dire. Des millions d'euros au carré, ça ne parle à personne. Il faut une métrique avec une échelle lisible par un humain.

La question que tout le monde se pose

La vraie question, c'est : « mon modèle fait-il mieux qu'un truc bête ? ». Le « truc bête » de référence est le modèle qui prédit toujours la même chose, indépendamment du kilométrage : la moyenne des prix observés, notée $\bar{y}$ . Ce modèle n'apprend rien, mais il a un score. Si ton modèle n'arrive pas à battre ce score, il ne sert à rien.

Le coefficient $R^2$ (prononcé « R deux ») répond exactement à cette question.

La formule du R²

Note $SS_{\text{res}}$ la somme des carrés des écarts entre les prédictions et la réalité (l'erreur de ton modèle), et $SS_{\text{tot}}$ la somme des carrés des écarts entre la réalité et la moyenne $\bar{y}$ (l'erreur du modèle bête). Alors :

R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}}

Quatre cas concrets :

$R^2 = 1$ : $SS_{\text{res}} = 0$ . Le modèle prédit exactement les prix. Parfait.
$R^2 = 0.8$ : le modèle explique 80 % de la variation des prix. C'est plutôt bon.
$R^2 = 0$ : le modèle fait exactement aussi bien que « prédire la moyenne ». Il n'apporte rien.
$R^2 < 0$ : le modèle fait pire que la moyenne. Il est cassé.

L'intuition à retenir : $R^2$ répond à « de combien mon modèle bat-il une simple moyenne ? ». Adimensionnel, borné par $1$ , comparable entre datasets de nature très différentes. C'est pour ça qu'on le préfère à la MSE comme métrique de qualité.

MAE et RMSE, pour parler en euros

Deux autres métriques sont utiles pour dialoguer avec un humain qui veut un ordre de grandeur en euros :

MAE (mean absolute error) : la moyenne des écarts en valeur absolue. Si MAE = 600 €, tes prédictions se trompent en moyenne de 600 €. C'est très lisible.
RMSE (root mean squared error) : la racine carrée de la moyenne des carrés. Légèrement supérieur au MAE, pénalise davantage les grosses erreurs.

Ensemble, $R^2$ , MAE et RMSE te donnent une image complète : $R^2$ dit si le modèle est utile, MAE dit combien tu te trompes en moyenne, RMSE dit si tu as de gros ratés isolés.

Modèle entraîné

R²

0,733

MAE

558 €

RMSE

668 €

Un échantillon de voitures avec les résidus (barres rouges) et les trois métriques. Bascule entre 'Modèle entraîné' et 'Prédit la moyenne' pour voir R² tomber à zéro.

+Comment lire ce widget ?

Chaque point noir est une voiture, la ligne rouge est la droite du modèle, et chaque barre rouge verticale relie la prédiction à la vérité : c'est le résidu. Un bon modèle a des résidus courts et distribués au-dessus et au-dessous de la ligne. Les trois chiffres en bas résument : $R^2$ pour la qualité globale, MAE pour l'erreur moyenne en euros, RMSE pour les gros ratés. Passe au modèle paresseux : les résidus s'alignent sur une ligne horizontale et $R^2$ tombe à zéro.

Et maintenant ?

Tu as traversé toute la théorie du projet : la cible, la prédiction, l'erreur, la pente, le pas, la normalisation, l'évaluation. Pour passer à la pratique en direct, ouvre le playground : tu pourras régler $\alpha$ , relancer un entraînement sur les 108 094 voitures AutoScout24, et voir la courbe converger sous tes yeux. Ce que tu y liras, tu comprendras chaque pixel.