Acp Calculer La Dimension Desaxes Factoriels

ACP : calculer la dimension des axes factoriels

Utilisez ce calculateur premium pour déterminer combien d’axes factoriels conserver en Analyse en Composantes Principales à partir des valeurs propres, du seuil d’inertie cumulée, du critère de Kaiser et du modèle du bâton brisé.

En ACP, le nombre maximal d’axes utiles est limité par le nombre de variables.
Le rang de l’analyse est aussi limité par n – 1.
Le critère de Kaiser est surtout pertinent lorsque les variables sont standardisées.
Exemple courant : 70 %, 80 % ou 90 % selon l’objectif de synthèse.
Entrez les valeurs propres séparées par des virgules, espaces, points-virgules ou retours à la ligne. Elles doivent être ordonnées de la plus grande à la plus petite.

Renseignez vos valeurs propres puis cliquez sur Calculer la dimension pour obtenir le nombre d’axes factoriels recommandé.

Comment calculer la dimension des axes factoriels en ACP

L’Analyse en Composantes Principales, ou ACP, est l’une des méthodes les plus utilisées pour résumer un tableau de données quantitatives. Son objectif est simple : transformer un grand nombre de variables corrélées en un plus petit nombre de dimensions synthétiques appelées axes factoriels ou composantes principales. La vraie difficulté n’est pas de lancer le calcul, mais de décider combien d’axes il faut conserver. C’est précisément ce que permet ce calculateur : traduire les valeurs propres en une décision claire, défendable et statistiquement cohérente.

En pratique, la dimension des axes factoriels correspond au nombre de composantes que l’on retient pour l’interprétation, la visualisation ou la modélisation. Si vous conservez trop peu d’axes, vous perdez de l’information importante. Si vous en gardez trop, vous réduisez fortement l’intérêt de la synthèse. Il faut donc trouver un compromis entre simplicité et fidélité à la structure des données.

La règle générale est la suivante : le nombre maximal d’axes extractibles en ACP vaut min(p, n – 1), où p est le nombre de variables actives et n le nombre d’individus. Ensuite, on sélectionne un sous-ensemble pertinent d’axes à partir des valeurs propres et de l’inertie expliquée.

Définition statistique de la dimension factorielle

Chaque axe factoriel est associé à une valeur propre. Cette valeur mesure la quantité de variance, aussi appelée inertie en analyse factorielle, portée par la composante correspondante. Plus la valeur propre est élevée, plus l’axe explique une part importante de l’information contenue dans les données.

La part d’inertie expliquée par l’axe k se calcule ainsi :

  1. On additionne toutes les valeurs propres.
  2. On divise la valeur propre de l’axe k par cette somme.
  3. On multiplie le résultat par 100 pour obtenir un pourcentage.

La formule est donc :

Pourcentage expliqué = (valeur propre de l’axe / somme des valeurs propres) × 100

Ensuite, on calcule l’inertie cumulée, c’est-à-dire la somme progressive des pourcentages expliqués. Le nombre d’axes retenus est souvent le plus petit nombre permettant d’atteindre un seuil prédéfini, par exemple 70 %, 80 % ou 90 %.

Exemple simple

Supposons six valeurs propres : 2,91 ; 1,37 ; 0,84 ; 0,53 ; 0,22 ; 0,13. Leur somme vaut 6,00. L’axe 1 explique donc 48,50 % de l’inertie, l’axe 2 explique 22,83 %, et l’inertie cumulée après deux axes atteint 71,33 %. Si votre seuil est de 70 %, vous retiendrez deux axes. Si votre seuil est de 80 %, il faudra en conserver trois.

Les critères les plus utilisés pour choisir le nombre d’axes

1. Le seuil d’inertie cumulée

Il s’agit de la méthode la plus intuitive. On fixe un niveau minimal d’information à préserver, puis on retient le premier nombre d’axes qui franchit ce seuil. Dans les applications exploratoires, 70 % ou 80 % sont fréquents. En contexte industriel, biomédical ou réglementaire, on peut viser davantage si l’enjeu de perte d’information est élevé.

  • 70 % : synthèse forte, bonne pour l’exploration.
  • 80 % : compromis très courant.
  • 90 % : approche plus conservatrice.

2. Le critère de Kaiser

Le critère de Kaiser recommande de conserver les axes dont la valeur propre est strictement supérieure à 1, mais surtout lorsque l’ACP est réalisée sur la matrice de corrélation, donc sur des variables centrées et réduites. L’idée est la suivante : un axe doit expliquer au moins autant de variance qu’une variable standardisée moyenne pour être jugé utile.

Ce critère est très populaire car il est rapide à appliquer, mais il ne doit pas être utilisé seul. Il peut retenir trop d’axes lorsque le nombre de variables est élevé, ou au contraire être trop sévère si la structure des données est diffuse.

3. Le bâton brisé

Le modèle du bâton brisé, ou broken stick, compare l’inertie observée à une inertie attendue sous une répartition aléatoire. Un axe est conservé si sa part d’inertie dépasse la part théorique donnée par ce modèle. C’est un critère intéressant car il introduit une référence plus exigeante qu’une simple lecture graphique.

Le calcul théorique dépend du nombre de dimensions possibles. Pour une ACP à p dimensions, la proportion théorique du rang k est :

(1/p) × Σ(1/j), pour j allant de k à p

En pratique, ce critère complète très bien le seuil cumulé et le critère de Kaiser. Si plusieurs méthodes convergent vers le même nombre d’axes, la décision devient beaucoup plus robuste.

Tableau comparatif sur deux jeux de données de référence

Pour illustrer concrètement la logique de sélection, voici deux exemples bien connus en apprentissage statistique : le jeu Iris et le jeu Wine. Les pourcentages ci-dessous sont des résultats classiquement obtenus après standardisation des variables pour l’ACP.

Jeu de données Nombre de variables Axe 1 Axe 2 Axe 3 Axe 4 Inertie cumulée après 2 axes
Iris 4 72,96 % 22,85 % 3,67 % 0,52 % 95,81 %
Wine 13 36,20 % 19,20 % 11,10 % 7,10 % 55,40 %

Ces statistiques montrent une réalité importante : le nombre d’axes à conserver dépend fortement de la structure du jeu de données. Dans Iris, deux axes suffisent à résumer presque toute l’information. Dans Wine, deux axes sont utiles pour visualiser, mais insuffisants pour une restitution fidèle de la variance totale. Il faut souvent trois à cinq axes selon le niveau de précision recherché.

Interpréter un résultat d’ACP sans se tromper

Ne pas confondre visualisation et conservation d’information

Beaucoup d’analystes retiennent deux axes simplement parce qu’un plan factoriel en 2D est plus facile à afficher. C’est acceptable pour une présentation exploratoire, mais pas toujours pour une conclusion méthodologique. Une ACP peut être utile pour visualiser sur deux axes et, en parallèle, nécessiter trois ou quatre axes pour les analyses aval.

Tenir compte du type de matrice utilisé

Si les variables sont mesurées dans des unités très différentes, il faut le plus souvent standardiser avant l’ACP. Sinon, les variables à grande variance dominent les composantes. Dans ce cas, les valeurs propres et le critère de Kaiser n’ont pas la même lecture que sur une matrice de corrélation. Le calculateur vous demande donc explicitement si l’ACP est réalisée sur données centrées-réduites.

Contrôler la qualité d’interprétation des axes

Un axe statistiquement retenu doit aussi être interprétable. En pratique, on examine :

  • les corrélations entre variables et axes ;
  • les contributions des variables ;
  • la qualité de représentation des individus et variables ;
  • la cohérence métier ou scientifique des oppositions observées.

Un axe qui ajoute quelques points d’inertie mais n’apporte aucune lecture substantielle peut être écarté dans une synthèse opérationnelle.

Étapes pratiques pour calculer la dimension des axes factoriels

  1. Déterminez p, le nombre de variables actives.
  2. Déterminez n, le nombre d’individus.
  3. Calculez les valeurs propres de l’ACP.
  4. Vérifiez le rang maximal : min(p, n – 1).
  5. Transformez chaque valeur propre en pourcentage d’inertie expliquée.
  6. Calculez l’inertie cumulée axe après axe.
  7. Appliquez un ou plusieurs critères : seuil cumulé, Kaiser, bâton brisé, coude du scree plot.
  8. Retenez le plus petit nombre d’axes compatible avec votre objectif analytique.

Tableau de lecture rapide selon l’objectif

Objectif Nombre d’axes souvent retenu Critère prioritaire Niveau de prudence
Visualisation exploratoire 2 à 3 Coude + lisibilité Moyen
Réduction de dimension avant clustering 3 à 10 Inertie cumulée Élevé
Construction d’indicateurs synthétiques 1 à 4 Interprétabilité + Kaiser Élevé
Compression de données pour modélisation Variable Validation empirique Très élevé

Erreurs fréquentes dans le calcul de la dimension factorielle

  • Utiliser le critère de Kaiser sur une ACP non standardisée sans justification.
  • Retenir automatiquement deux axes uniquement pour tracer un graphique.
  • Ignorer l’inertie cumulée alors que l’information résiduelle reste importante.
  • Conserver trop d’axes, ce qui annule l’intérêt de la réduction de dimension.
  • Oublier l’objectif métier : visualiser, prédire, segmenter, résumer ou expliquer ne demande pas toujours la même dimension.

Références méthodologiques fiables

Pour approfondir la théorie et les bonnes pratiques de l’ACP, vous pouvez consulter ces ressources institutionnelles et universitaires :

Conclusion

Calculer la dimension des axes factoriels en ACP ne consiste pas à appliquer une règle unique. La bonne décision résulte d’un croisement entre plusieurs indicateurs : rang maximal, valeurs propres, inertie cumulée, critère de Kaiser, bâton brisé et interprétabilité. Dans de nombreux cas, le meilleur choix est le plus petit nombre d’axes qui conserve une part d’information satisfaisante tout en restant lisible.

Avec le calculateur ci-dessus, vous obtenez instantanément une recommandation argumentée. Vous visualisez la répartition de l’inertie, identifiez le seuil cumulé atteint et comparez plusieurs critères de rétention. C’est une manière rigoureuse, rapide et pédagogique de décider combien d’axes factoriels garder dans votre ACP.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top