La cible et la prédiction.

Tu reprends ton cahier d'annonces. Pour chaque voiture, tu as deux informations : le kilométrage, qu'on appelle $x$ , et le prix réel demandé, qu'on appelle $y$ . Ça, c'est le monde réel, le dataset. Ton programme, lui, ne voit que les $x$ et doit deviner les $y$ . Sa devinette a un nom aussi : on l'écrit $\hat{y}$ , prononcé « y chapeau », pour bien la distinguer de la vraie valeur.

Deux y, pas un

En ML supervisé, il y a donc deux chiffres différents pour une même voiture : la vérité $y$ qui vient du dataset, et la prédiction $\hat{y}$ qui sort de l'équation du modèle. Le modèle n'a jamais accès à $y$ pendant la prédiction : il ne connaît que $x$ et doit en déduire un prix plausible.

La prédiction est calculée par l'hypothèse $h$ :

\hat{y} = h(x) = \theta_0 + \theta_1 \cdot x

Ici $\theta_0$ est le point de départ (le prix d'une voiture neuve hypothétique, à zéro km) et $\theta_1$ est la pente (combien le prix baisse par kilomètre ajouté). L'écart entre $\hat{y}$ et $y$ , c'est l'erreur que le modèle commet sur une voiture. Plus cet écart est petit sur l'ensemble du dataset, meilleur est le modèle.

Et maintenant ?

Tu sais distinguer la cible $y$ de la prédiction $\hat{y}$ . Reste la question clé : comment mesure-t-on à quel point les $\hat{y}$ sont loin des $y$ sur tout le dataset ? C'est le rôle de la fonction de coût, et c'est le sujet du chapitre suivant.