Qu'est-ce qu'apprendre ?

Imagine que tu veux acheter une voiture d'occasion. Tu ouvres une annonce, puis une deuxième, puis vingt. À chaque fois, tu notes mentalement deux chiffres : le kilométrage et le prix demandé. Très vite, sans y penser, tu te fais une règle : plus une voiture a roulé, moins elle coûte. Tu viens d'apprendre.

Un programme qui fait du machine learning (ML) fait exactement la même chose, en plus discipliné : il regarde les données, cherche un lien, et produit une règle utilisable pour prédire un nouveau cas. La seule nouveauté, c'est qu'on écrit cette règle avec des mathématiques au lieu de l'intuition.

La définition, en trois ingrédients

Le chercheur Tom Mitchell propose une définition qui est presque devenue folklore : un programme apprend d'une expérience E par rapport à une tâche T, mesurée par une performance P, si P s'améliore avec E. Trois mots, trois ingrédients.

Appliqué à ce portfolio :

T (la tâche) : prédire le prix d'une voiture à partir de son kilométrage.
E (l'expérience) : 108 094 annonces (km, prix) issues d'AutoScout24. Plus le modèle voit d'exemples, plus ses paramètres s'affinent.
P (la performance) : l'erreur moyenne entre le prix prédit et le prix réel. Plus elle baisse, mieux c'est.

La clé, c'est le avec E : plus on montre d'exemples au programme, plus ses paramètres s'affinent, plus sa performance augmente. Sans exemples, pas d'apprentissage.

La régression linéaire, la règle la plus simple

Parmi toutes les règles possibles, la plus simple est la régression linéaire : on décide que le prix est une ligne droite du kilométrage. Deux chiffres suffisent à décrire cette droite :

θ₀ : le point de départ, le prix d'une voiture à zéro kilomètre. C'est l'ordonnée à l'origine sur le graphique.
θ₁ : la pente, combien le prix baisse par kilomètre ajouté. Typiquement un petit nombre négatif.

La prédiction du modèle s'écrit en une ligne :

\hat{y} = \theta_0 + \theta_1 \cdot x

Ici $x$ est le kilométrage, et $\hat{y}$ (prononcé « y chapeau ») est le prix prédit, à distinguer du prix réel $y$ vu dans les annonces. L'écart entre $\hat{y}$ et $y$ , c'est l'erreur du modèle, et c'est précisément ce qu'on cherche à minimiser.

Essaie à la main

Voici un échantillon du dataset, juste assez pour sentir ce qu'un entraînement automatique fait ensuite sur les 108 000 annonces. Bouge les sliders θ₀ et θ₁ pour trouver la droite qui passe au plus près des points. Regarde la MSE (l'erreur moyenne au carré) descendre quand ta droite colle mieux aux données.

θ₀ (point de départ)8 500θ₁ (pente)-0,02

Erreur moyenne (MSE) : 472 790

Un échantillon pour démarrer à la main. Curseur θ₀ pour déplacer la ligne verticalement, θ₁ pour la pencher.

+Comment lire ce graphique ?

Chaque point noir est une voiture : sa position horizontale, c'est son kilométrage ; sa position verticale, son prix. La ligne rouge est la règle que tu proposes. Le nombre MSE en dessous mesure à quel point ta ligne est mauvaise : plus il est grand, plus les points sont loin de ta ligne, en moyenne.

Et maintenant ?

Tu viens de faire à la main ce qu'un programme de machine learning fait automatiquement : tu as choisi deux paramètres, tu as regardé l'erreur, tu as ajusté. Le chapitre suivant explique comment on formalise cette boucle, et comment un algorithme la fait beaucoup plus vite que ta main.