Ch. 02 · 5 min

La cible et la prédiction.

Tu reprends ton cahier d'annonces. Pour chaque voiture, tu as deux informations : le kilométrage, qu'on appelle xx, et le prix réel demandé, qu'on appelle yy. Ça, c'est le monde réel, le dataset. Ton programme, lui, ne voit que les xx et doit deviner les yy. Sa devinette a un nom aussi : on l'écrit y^\hat{y}, prononcé « y chapeau », pour bien la distinguer de la vraie valeur.

Deux y, pas un

En ML supervisé, il y a donc deux chiffres différents pour une même voiture : la vérité yy qui vient du dataset, et la prédiction y^\hat{y} qui sort de l'équation du modèle. Le modèle n'a jamais accès à yy pendant la prédiction : il ne connaît que xx et doit en déduire un prix plausible.

La prédiction est calculée par l'hypothèse hh :

y^=h(x)=θ0+θ1x\hat{y} = h(x) = \theta_0 + \theta_1 \cdot x

Ici θ0\theta_0 est le point de départ (le prix d'une voiture neuve hypothétique, à zéro km) et θ1\theta_1 est la pente (combien le prix baisse par kilomètre ajouté). L'écart entre y^\hat{y} et yy, c'est l'erreur que le modèle commet sur une voiture. Plus cet écart est petit sur l'ensemble du dataset, meilleur est le modèle.

Et maintenant ?

Tu sais distinguer la cible yy de la prédiction y^\hat{y}. Reste la question clé : comment mesure-t-on à quel point les y^\hat{y} sont loin des yy sur tout le dataset ? C'est le rôle de la fonction de coût, et c'est le sujet du chapitre suivant.