Underfitting

L'underfitting se produit lorsque un modèle est trop simple pour capturer la complexité des données. Cela entraîne des performances médiocres tant sur les données d'entraînement que sur les données de test.

Coach IA RecrutLabs

15 février 2026

3 min de lecture

Dans ce guide

1Comprendre le concept 2L'enjeu en entretien 3Exemple concret 4Les erreurs à éviter

De quoi parle-t-on ?

L'underfitting est un terme utilisé dans le domaine de l'apprentissage automatique et de la modélisation statistique pour décrire un phénomène où un modèle ne parvient pas à capturer les tendances sous-jacentes des données d'entraînement. Cela se produit généralement lorsque le modèle est trop simple par rapport à la complexité des données, ce qui entraîne des prévisions inexactes. Par exemple, un modèle de régression linéaire appliqué à des données qui présentent une relation non linéaire peut conduire à un underfitting, car le modèle ne peut pas s'ajuster correctement à la courbe des données.

Ce concept a ses origines dans les principes de l'apprentissage supervisé, où l'objectif est d'apprendre à partir de données étiquetées. L'underfitting peut survenir pour plusieurs raisons, notamment un choix inapproprié de l'algorithme, une insuffisance de données, ou l'utilisation de caractéristiques inappropriées pour le modèle. En général, un modèle sous-ajusté aura un biais élevé et une variance faible, ce qui signifie qu'il est trop rigide pour s'adapter aux fluctuations des données.

Les principes fondamentaux de l'underfitting reposent sur l'équilibre entre la complexité du modèle et la capacité à généraliser à des données non vues. Un modèle doit être suffisamment complexe pour capturer les nuances des données mais pas au point de s'ajuster trop étroitement aux données d'entraînement, ce qui pourrait mener à un autre problème connu sous le nom de surajustement.

Métiers concernés par Underfitting

data scientist machine learning engineer data analyst

Prêt à réussir vos entretiens ?

Rejoignez RecrutLabs et accédez à nos outils d'entraînement IA pour simuler des entretiens réalistes et obtenir des feedbacks instantanés.

Simulations illimitées avec IA
Feedback détaillé en temps réel
Réduction du stress avant le jour J

Pas de carte bancaire requise

Exemple Concret

Pour illustrer l'underfitting, prenons un exemple simple en utilisant Python et la bibliothèque scikit-learn. Supposons que nous avons un ensemble de données qui présente une relation quadratique, mais que nous essayons de prédire ces résultats à l'aide d'un modèle de régression linéaire :

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Génération des données
np.random.seed(0)
X = np.linspace(-3, 3, 100)
Y = X**2 + np.random.normal(0, 1, X.shape)

# Reshape de X pour le modèle
X = X.reshape(-1, 1)

# Création du modèle de régression linéaire
model = LinearRegression()
model.fit(X, Y)

# Prédictions
Y_pred = model.predict(X)

# Visualisation des résultats
plt.scatter(X, Y, color='blue', label='Données réelles')
plt.plot(X, Y_pred, color='red', label='Prédictions du modèle')
plt.title('Underfitting exemple')
plt.legend()
plt.show()

Dans cet exemple, nous générons des données qui suivent une tendance quadratique, mais nous utilisons un modèle linéaire pour les prédire. La courbe rouge montrera une ligne droite qui ne parvient pas à capturer la forme quadratique des données, illustrant ainsi l'underfitting. Les prévisions de notre modèle seront donc très éloignées des valeurs réelles, tant sur les données d'entraînement que sur les données de test.

Ce qu'il ne faut pas dire

Il existe plusieurs erreurs courantes liées à l'underfitting que les praticiens doivent éviter. Premièrement, choisir un modèle trop simple est l'une des principales sources d'underfitting. Par exemple, utiliser une régression linéaire pour des données avec des relations non linéaires peut conduire à de mauvais résultats. Deuxièmement, négliger d'explorer les caractéristiques des données peut également contribuer à l'underfitting. Si les caractéristiques utilisées ne sont pas représentatives de la complexité des données, le modèle ne pourra pas apprendre efficacement.

Une autre erreur fréquente est de ne pas effectuer une validation croisée appropriée pour évaluer les performances du modèle. Cela peut amener les analystes à sous-estimer la capacité de leur modèle à généraliser. Enfin, ignorer l'importance de l'optimisation des hyperparamètres peut également mener à des modèles sous-ajustés. Les hyperparamètres déterminent la structure du modèle, et un mauvais choix peut restreindre la capacité du modèle à apprendre des données.

L'astuce pour briller

Pour éviter l'underfitting, voici quelques conseils pratiques. Tout d'abord, il est essentiel de choisir un modèle adapté à la complexité des données. Cela peut impliquer l'utilisation de modèles non linéaires ou plus complexes, tels que les forêts aléatoires ou les réseaux neuronaux, selon le cas d'utilisation. Deuxièmement, l'ajout de caractéristiques pertinentes peut aider à capturer les nuances des données. L'exploration des données et l'ingénierie des caractéristiques sont des étapes cruciales dans le processus de modélisation.

Ensuite, il est conseillé de réaliser une validation croisée pour évaluer la performance du modèle sur plusieurs sous-ensembles des données. Cela fournit une image plus complète de la capacité du modèle à généraliser. Enfin, l'optimisation des hyperparamètres en utilisant des techniques telles que la recherche en grille ou la recherche aléatoire peut également aider à améliorer les performances du modèle et à éviter l'underfitting.

Dans ce guide

De quoi parle-t-on ?

Métiers concernés par Underfitting

Prêt à réussir vos entretiens ?

Pourquoi les recruteurs posent cette question ?

Prêt à réussir vos entretiens ?

Exemple Concret

Ce qu'il ne faut pas dire

L'astuce pour briller