Évaluer le modèle.
Ton entraînement s'est bien passé, la courbe de coût a piqué du nez et s'est stabilisée. Tu regardes la MSE finale : quelques millions. Est-ce bon ? Mauvais ? Impossible à dire. Des millions d'euros au carré, ça ne parle à personne. Il faut une métrique avec une échelle lisible par un humain.
La question que tout le monde se pose
La vraie question, c'est : « mon modèle fait-il mieux qu'un truc bête ? ». Le « truc bête » de référence est le modèle qui prédit toujours la même chose, indépendamment du kilométrage : la moyenne des prix observés, notée . Ce modèle n'apprend rien, mais il a un score. Si ton modèle n'arrive pas à battre ce score, il ne sert à rien.
Le coefficient (prononcé « R deux ») répond exactement à cette question.
La formule du R²
Note la somme des carrés des écarts entre les prédictions et la réalité (l'erreur de ton modèle), et la somme des carrés des écarts entre la réalité et la moyenne (l'erreur du modèle bête). Alors :
Quatre cas concrets :
- : . Le modèle prédit exactement les prix. Parfait.
- : le modèle explique 80 % de la variation des prix. C'est plutôt bon.
- : le modèle fait exactement aussi bien que « prédire la moyenne ». Il n'apporte rien.
- : le modèle fait pire que la moyenne. Il est cassé.
L'intuition à retenir : répond à « de combien mon modèle bat-il une simple moyenne ? ». Adimensionnel, borné par , comparable entre datasets de nature très différentes. C'est pour ça qu'on le préfère à la MSE comme métrique de qualité.
MAE et RMSE, pour parler en euros
Deux autres métriques sont utiles pour dialoguer avec un humain qui veut un ordre de grandeur en euros :
- MAE (mean absolute error) : la moyenne des écarts en valeur absolue. Si MAE = 600 €, tes prédictions se trompent en moyenne de 600 €. C'est très lisible.
- RMSE (root mean squared error) : la racine carrée de la moyenne des carrés. Légèrement supérieur au MAE, pénalise davantage les grosses erreurs.
Ensemble, , MAE et RMSE te donnent une image complète : dit si le modèle est utile, MAE dit combien tu te trompes en moyenne, RMSE dit si tu as de gros ratés isolés.
+Comment lire ce widget ?
Chaque point noir est une voiture, la ligne rouge est la droite du modèle, et chaque barre rouge verticale relie la prédiction à la vérité : c'est le résidu. Un bon modèle a des résidus courts et distribués au-dessus et au-dessous de la ligne. Les trois chiffres en bas résument : pour la qualité globale, MAE pour l'erreur moyenne en euros, RMSE pour les gros ratés. Passe au modèle paresseux : les résidus s'alignent sur une ligne horizontale et tombe à zéro.
Et maintenant ?
Tu as traversé toute la théorie du projet : la cible, la prédiction, l'erreur, la pente, le pas, la normalisation, l'évaluation. Pour passer à la pratique en direct, ouvre le playground : tu pourras régler , relancer un entraînement sur les 108 094 voitures AutoScout24, et voir la courbe converger sous tes yeux. Ce que tu y liras, tu comprendras chaque pixel.