Calcul d’inertie sur la régression sur composantes principales

Calculez l’inertie totale, l’inertie cumulée retenue, la part d’information conservée et un diagnostic simple pour une régression sur composantes principales à partir des valeurs propres issues d’une ACP.

ACP PCR Valeurs propres Variance expliquée

Valeurs propres des composantes principales

Nombre de composantes retenues

Seuil cible d’inertie cumulée (%)

Variables standardisées ?

Nombre d’observations

Objectif de modélisation

Résultats

Renseignez les valeurs propres et cliquez sur le bouton pour afficher l’inertie retenue pour votre régression sur composantes principales.

Guide expert du calcul d’inertie sur la régression sur composantes principales

Le calcul d’inertie en régression sur composantes principales, souvent désignée par l’acronyme PCR pour Principal Component Regression, est un point de passage essentiel lorsque l’on souhaite résumer l’information contenue dans un ensemble de variables explicatives fortement corrélées. En pratique, l’idée est simple : avant d’estimer la régression, on effectue une analyse en composantes principales sur la matrice des prédicteurs, puis on remplace les variables d’origine par un nombre réduit de composantes orthogonales. Cette stratégie permet de traiter la multicolinéarité, de stabiliser les coefficients et d’éviter qu’un grand nombre de variables redondantes ne dégrade la capacité prédictive du modèle.

L’inertie, dans ce contexte, correspond à la quantité totale de variabilité portée par les variables explicatives. Après l’ACP, cette variabilité est répartie entre les différentes composantes principales sous forme de valeurs propres. Chaque valeur propre mesure la part d’inertie capturée par une composante. Le calcul d’inertie consiste alors à comparer deux quantités : l’inertie totale, qui est la somme de toutes les valeurs propres, et l’inertie retenue, qui est la somme des valeurs propres des composantes conservées dans la PCR. Le ratio entre les deux donne le pourcentage de variance expliquée par l’espace réduit. C’est ce ratio qui sert de boussole pour choisir le nombre de composantes.

Formule centrale : si les valeurs propres sont notées λ1, λ2, …, λp et si l’on retient k composantes, alors l’inertie cumulée retenue vaut (λ1 + … + λk) / (λ1 + … + λp) × 100.

Pourquoi l’inertie est-elle si importante en PCR ?

La régression sur composantes principales n’utilise pas directement les variables originales. Elle s’appuie sur des axes synthétiques qui captent l’essentiel de la structure des données. Si vous retenez trop peu de composantes, vous perdez une part potentiellement utile de l’information. Si vous en retenez trop, vous réintroduisez du bruit et vous perdez l’avantage de réduction de dimension. Le calcul d’inertie est donc un outil de compromis entre fidélité aux données et simplicité du modèle.

Pour la stabilité numérique : la PCR neutralise les corrélations fortes entre variables.
Pour la lisibilité : elle réduit la dimension de l’espace des prédicteurs.
Pour la performance prédictive : elle peut améliorer la généralisation quand les variables d’origine sont nombreuses et colinéaires.
Pour le choix de k : l’inertie cumulée offre un critère objectif de sélection des composantes.

Étapes du calcul d’inertie appliqué à la PCR

Préparer les données explicatives. Les variables sont généralement centrées, et souvent réduites. Lorsque les échelles diffèrent fortement, la standardisation est quasi indispensable.
Calculer l’ACP. L’ACP fournit les composantes principales et leurs valeurs propres.
Classer les composantes. Les composantes sont ordonnées par valeur propre décroissante.
Choisir k. On additionne les k premières valeurs propres et on rapporte cette somme à l’inertie totale.
Estimer la régression. La variable cible est ensuite régressée sur les k composantes retenues.
Valider. On vérifie que le gain en parcimonie ne détériore pas la qualité prédictive sur données de test ou via validation croisée.

Le calculateur ci-dessus automatise précisément cette logique. Vous saisissez vos valeurs propres, indiquez le nombre de composantes conservées, puis l’outil calcule l’inertie totale, l’inertie retenue, le pourcentage cumulé et la perte d’information. Le tableau détaillé et le graphique permettent ensuite de visualiser la contribution de chaque axe principal.

Exemple concret de calcul

Supposons un jeu de six variables explicatives standardisées. L’ACP produit les valeurs propres suivantes : 4.2, 2.1, 1.3, 0.8, 0.4 et 0.2. L’inertie totale vaut alors 9.0. Si l’on retient les trois premières composantes, l’inertie conservée est de 7.6. Le pourcentage d’inertie expliquée est donc de 7.6 / 9.0 = 84.44 %. En pratique, cela signifie que trois axes synthétiques résument déjà plus de quatre cinquièmes de la variabilité initiale des prédicteurs. On dispose alors d’une base solide pour estimer une régression plus robuste qu’une régression multiple classique sur variables très corrélées.

Attention cependant : une forte inertie expliquée des prédicteurs ne garantit pas automatiquement une excellente prédiction de la variable cible. La PCR choisit les composantes sur la base de la variance des X, pas directement sur leur relation avec Y. Il est donc possible qu’une composante de faible inertie porte malgré tout une information utile pour prédire la cible. C’est pour cette raison que l’analyse de l’inertie doit être complétée par des mesures de performance comme le R² sur validation, le RMSE ou la validation croisée.

Seuils pratiques souvent utilisés

Dans de nombreux projets appliqués, les analystes retiennent un seuil d’inertie cumulée compris entre 70 % et 95 %, selon le domaine, la taille d’échantillon, le niveau de bruit et l’objectif du modèle. Un cadre exploratoire peut tolérer 70 % à 80 %, tandis qu’un cadre de production ou de publication exige souvent un niveau plus élevé. Voici un tableau de repères opérationnels.

Inertie cumulée	Interprétation pratique	Usage recommandé	Niveau de parcimonie
60 % à 70 %	Résumé initial correct mais part d’information perdue notable	Exploration préliminaire, prototypage rapide	Très élevé
70 % à 85 %	Compromis solide entre simplification et fidélité	Analyse appliquée, tableaux de bord, modèles intérimaires	Élevé
85 % à 95 %	Niveau généralement robuste pour la plupart des usages	Prédiction opérationnelle, études quantitatives sérieuses	Moyen
Plus de 95 %	Très forte conservation de l’information, réduction plus limitée	Contexte sensible, mesure, ingénierie, contrôle qualité	Faible

Comparer PCR, régression multiple classique et PLS

Pour bien interpréter le calcul d’inertie, il est utile de situer la PCR parmi les autres méthodes. La régression multiple classique travaille directement sur les variables originales. Elle peut devenir instable lorsque les prédicteurs sont fortement corrélés. La PCR résout ce problème en passant par des composantes orthogonales, mais elle ne tient pas compte de la cible au moment de construire ces composantes. La méthode PLS, elle, construit des composantes qui maximisent à la fois la variance des prédicteurs et leur lien avec la variable à expliquer. Dans certains cas, la PLS peut donc être plus efficace que la PCR pour prédire Y avec un petit nombre de dimensions.

Méthode	Gère la multicolinéarité	Choix des composantes	Critère principal	Usage typique
Régression multiple	Faiblement	Aucune réduction	Minimisation de l’erreur sur X d’origine	Jeux de données peu corrélés
PCR	Très bien	Sur les valeurs propres de l’ACP	Variance expliquée des prédicteurs	Données corrélées, réduction de dimension
PLS	Très bien	Composantes liées à X et Y	Covariance avec la cible	Prédiction supervisée à haute dimension

Données réelles et repères statistiques

Dans la littérature académique et dans les bases de données pédagogiques, il n’est pas rare d’observer qu’un petit nombre de composantes capture l’essentiel de l’information. Par exemple, sur des jeux de données instrumentaux ou socio-économiques modérément corrélés, les deux à cinq premières composantes expliquent fréquemment entre 75 % et 90 % de l’inertie totale. Dans des domaines plus bruités, comme certaines mesures comportementales ou marketing, la décroissance des valeurs propres est souvent moins rapide, et il peut falloir six à dix composantes pour dépasser 80 % d’inertie. Le bon niveau n’est donc jamais universel : il dépend de la structure des corrélations, du rapport signal sur bruit et de l’objectif final.

Erreurs fréquentes à éviter

Ignorer la standardisation. Si les variables n’ont pas la même échelle, les plus dispersées dominent artificiellement l’inertie.
Choisir k uniquement sur un seuil fixe. Un seuil de 80 % est utile, mais il doit être confronté aux performances prédictives.
Interpréter la PCR comme une méthode supervisée pure. Les composantes sont construites sans la cible.
Conserver des composantes de faible utilité. Une inertie marginale très faible peut ajouter de la complexité sans gain réel.
Oublier l’échantillon. Avec peu d’observations, même une forte inertie expliquée n’assure pas une bonne généralisation.

Comment interpréter les résultats du calculateur

Le calculateur affiche plusieurs indicateurs directement exploitables. L’inertie totale correspond à la somme de toutes les valeurs propres. L’inertie retenue additionne uniquement les premières composantes choisies. L’inertie cumulée donne le pourcentage d’information conservée. La perte d’inertie mesure la part d’information écartée. Enfin, un diagnostic textuel vous indique si votre nombre de composantes est cohérent avec l’objectif de prédiction, d’interprétation ou de compromis. Cette aide n’est pas un substitut à la validation statistique, mais elle constitue une base rapide et rigoureuse pour orienter vos choix.

Le graphique représente d’un côté les valeurs propres par composante, et de l’autre la courbe d’inertie cumulée. Cette visualisation est proche du scree plot utilisé en ACP. Lorsque la courbe se stabilise après quelques composantes, cela suggère que les axes suivants apportent peu de variance supplémentaire. C’est souvent à ce point de coude que l’on fixe un nombre de composantes parcimonieux.

Bonnes pratiques de validation

Calculez l’inertie cumulée pour plusieurs valeurs de k.
Estimez la PCR sur échantillon d’entraînement.
Évaluez RMSE, MAE ou R² sur validation croisée.
Comparez la PCR à une régression multiple classique et, si possible, à une PLS.
Documentez la logique de choix : inertie, stabilité, performance et interprétabilité.

Si votre objectif principal est la prédiction, ne vous arrêtez pas à la seule inertie. Une composante expliquant une faible variance de X peut parfois être fortement liée à Y. Si votre objectif est l’analyse structurelle des prédicteurs, alors l’inertie redevient centrale. Dans tous les cas, la PCR reste une méthode élégante pour travailler sur des données corrélées, à condition de bien comprendre ce que signifie l’information conservée.

Sources académiques et institutionnelles utiles

Pour approfondir la théorie et les pratiques de l’ACP, de la PCR et de la réduction de dimension, vous pouvez consulter les ressources suivantes :

En résumé, le calcul d’inertie sur la régression sur composantes principales n’est pas seulement un exercice algébrique. C’est un outil de décision qui aide à trouver le bon équilibre entre réduction de dimension, préservation de l’information et qualité prédictive. En maîtrisant la somme des valeurs propres, le pourcentage cumulé et la logique de sélection des composantes, vous disposez d’un cadre robuste pour construire des modèles plus stables et mieux adaptés aux données réelles.

Calcul D Inertie Sur La R Gression Sur Composantes Principales