Calcul epsilon pour analyse variance a deux facteurs
Calculez rapidement l’epsilon de Greenhouse-Geisser, l’epsilon de Huynh-Feldt et la borne inférieure pour une ANOVA a deux facteurs avec mesure répétée. Entrez la taille d’échantillon, les degrés de liberté et la matrice de covariance du facteur répété à corriger.
Guide expert du calcul epsilon pour analyse variance a deux facteurs
Le calcul epsilon pour analyse variance a deux facteurs est une étape essentielle lorsqu’un modèle d’ANOVA inclut au moins un facteur intra-sujets, autrement dit un facteur mesuré plusieurs fois chez les mêmes participants. Dans cette configuration, la simple lecture d’une statistique F ne suffit pas toujours. En effet, l’ANOVA à mesures répétées suppose la sphéricité, une condition qui impose une structure particulière des variances et des covariances entre les niveaux du facteur répété. Lorsque cette hypothèse est violée, les degrés de liberté utilisés dans le test F doivent être corrigés. C’est précisément le rôle de l’epsilon.
Dans un plan à deux facteurs, on rencontre plusieurs cas fréquents : un facteur inter-sujets et un facteur intra-sujets, deux facteurs intra-sujets, ou encore des interactions entre eux. Dès qu’un effet dépend d’un facteur répété possédant plus de deux niveaux, le calcul d’epsilon devient pertinent. Les corrections les plus connues sont Greenhouse-Geisser, Huynh-Feldt et la borne inférieure. Leur objectif n’est pas de modifier la valeur de F elle-même, mais d’ajuster les degrés de liberté afin de mieux contrôler le risque d’erreur de type I.
Pourquoi l’epsilon est crucial dans une ANOVA à deux facteurs
Une ANOVA à deux facteurs permet d’examiner :
- l’effet principal du facteur A,
- l’effet principal du facteur B,
- l’interaction A × B.
Si l’un de ces effets implique un facteur répété, la covariance entre mesures successives importe directement. Sans correction, une violation de la sphéricité peut conduire à des p-values trop optimistes. L’epsilon résume le degré d’écart à cette hypothèse sur une échelle bornée :
- 1 signifie une conformité parfaite à la sphéricité ;
- 1 / (k – 1) correspond à la borne la plus défavorable, avec k niveaux du facteur répété.
Plus l’epsilon est faible, plus la correction est forte et plus les degrés de liberté corrigés diminuent. Dans la pratique, cela rend le test plus conservateur.
Formule générale de l’epsilon de Greenhouse-Geisser
Soit S la matrice de covariance des k niveaux du facteur répété. On définit la matrice de centrage :
C = I – J/k
où I est la matrice identité et J une matrice de 1. L’epsilon de Greenhouse-Geisser s’écrit alors :
epsilon_GG = [tr(CSC)]² / [(k – 1) × tr(CSCS)]
Cette expression repose sur la trace matricielle. Elle permet d’estimer à quel point la structure de covariance s’éloigne de la sphéricité. Une fois epsilon_GG calculé, on corrige les degrés de liberté :
- ddl corrigé numérateur = epsilon × ddl numérateur initial
- ddl corrigé dénominateur = epsilon × ddl dénominateur initial
Le calculateur ci-dessus applique précisément cette logique à partir de votre matrice de covariance.
Huynh-Feldt et borne inférieure
La correction de Huynh-Feldt est généralement moins conservatrice que celle de Greenhouse-Geisser. Elle s’appuie sur epsilon_GG et sur la taille de l’échantillon. Une forme courante est :
epsilon_HF = min(1, [n × (k – 1) × epsilon_GG – 2] / [(k – 1) × (n – 1 – (k – 1) × epsilon_GG)])
La borne inférieure, quant à elle, vaut simplement :
epsilon_LB = 1 / (k – 1)
En analyse appliquée, on rapporte souvent les trois valeurs, puis on interprète principalement Greenhouse-Geisser ou Huynh-Feldt selon les recommandations du domaine, de la taille d’échantillon et du logiciel utilisé.
Comment interpréter les valeurs d’epsilon
Voici une règle de lecture très utile :
- Si epsilon est proche de 1, la sphéricité est peu problématique.
- Si epsilon est modérément réduit, une correction reste souhaitable, surtout dans un contexte publication.
- Si epsilon est faible, le modèle sans correction peut surestimer la significativité.
Dans les rapports scientifiques, on voit souvent une formulation du type : “L’hypothèse de sphéricité n’étant pas retenue, les degrés de liberté ont été corrigés selon Greenhouse-Geisser, epsilon = 0,74.” Ce type de phrase permet au lecteur de comprendre que le test F a été ajusté de façon méthodologiquement rigoureuse.
Exemple concret dans un plan à deux facteurs
Imaginons une étude expérimentale sur 24 participants. Le facteur A représente le type de condition avec 2 modalités, et le facteur B représente le temps de mesure avec 4 niveaux répétés chez chaque sujet. L’ANOVA à deux facteurs permet d’évaluer :
- si la condition A influence le score moyen ;
- si le temps B influence le score moyen ;
- si l’effet du temps dépend de la condition, via l’interaction A × B.
Pour le facteur temps B et pour l’interaction A × B, l’hypothèse de sphéricité peut être menacée car les mêmes personnes sont observées à plusieurs instants. On calcule donc l’epsilon à partir de la matrice de covariance entre les 4 temps. Si l’epsilon de Greenhouse-Geisser ressort à 0,79, alors les ddl initiaux 3 et 69 deviennent :
- ddl corrigé numérateur = 3 × 0,79 = 2,37
- ddl corrigé dénominateur = 69 × 0,79 = 54,51
Le test F est alors lu avec ces degrés de liberté corrigés. Cette démarche évite de tirer des conclusions trop agressives sur l’existence d’un effet principal ou d’une interaction.
| Nombre de niveaux répétés (k) | Borne inférieure 1/(k-1) | Interprétation générale | Impact sur les ddl |
|---|---|---|---|
| 3 | 0,500 | Correction minimale possible relativement modérée | Les ddl peuvent être divisés jusqu’à 2 |
| 4 | 0,333 | Risque plus visible si la covariance est hétérogène | Les ddl peuvent être divisés jusqu’à 3 |
| 5 | 0,250 | Sensibilité accrue aux violations de sphéricité | Les ddl peuvent être divisés jusqu’à 4 |
| 6 | 0,200 | Très forte prudence recommandée | Réduction potentiellement importante des ddl |
Différence entre sphéricité, homogénéité des variances et indépendance
Une confusion fréquente consiste à assimiler la sphéricité à l’homogénéité des variances. Ce n’est pas la même chose. Dans une ANOVA inter-sujets classique, on vérifie surtout l’homogénéité des variances entre groupes. Dans une ANOVA à mesures répétées, la sphéricité concerne les variances des différences entre niveaux. Une matrice de covariance peut présenter des variances proches tout en violant la sphéricité si les covariances sont déséquilibrées.
L’indépendance des observations reste une autre hypothèse, plus fondamentale encore. L’epsilon ne corrige pas un défaut d’indépendance ; il corrige uniquement le biais lié à la structure de covariance interne des mesures répétées.
Quand utiliser Greenhouse-Geisser ou Huynh-Feldt
Dans beaucoup de disciplines, la correction de Greenhouse-Geisser est privilégiée lorsque la violation de la sphéricité paraît nette, car elle reste prudente. Huynh-Feldt est souvent utilisée lorsque la violation semble plus légère et que l’on souhaite éviter une sur-correction. Une règle pratique souvent reprise dans les manuels est :
- si epsilon_GG est plutôt bas, rapporter Greenhouse-Geisser ;
- si epsilon_GG est élevé, Huynh-Feldt peut être acceptable ;
- dans un rapport complet, donner les deux améliore la transparence.
Le calculateur affiche les trois indicateurs pour que vous puissiez comparer immédiatement le degré de sévérité de chaque correction.
| Correction | Plage théorique | Niveau de conservatisme | Usage pratique |
|---|---|---|---|
| Borne inférieure | Fixe, égale à 1/(k-1) | Très élevé | Référence extrême, rarement seule en publication |
| Greenhouse-Geisser | Entre la borne inférieure et 1 | Modéré à élevé | Standard robuste dans de nombreuses disciplines |
| Huynh-Feldt | Entre GG et 1 | Plus faible | Souvent retenue lorsque la violation est limitée |
Étapes pratiques pour un calcul fiable
- Identifier l’effet de l’ANOVA à deux facteurs qui implique des mesures répétées.
- Déterminer le nombre de niveaux k pour cet effet.
- Construire ou récupérer la matrice de covariance empirique des niveaux répétés.
- Calculer epsilon_GG à partir de la matrice centrée.
- Calculer epsilon_HF à partir de n, k et epsilon_GG.
- Corriger les degrés de liberté de l’effet étudié.
- Rapporter clairement la correction dans le tableau de résultats ou dans le texte.
Erreurs fréquentes à éviter
- Utiliser un epsilon calculé pour le facteur B afin de corriger une interaction différente sans vérifier la structure des niveaux impliqués.
- Oublier de modifier les degrés de liberté après calcul.
- Confondre matrice de covariance et matrice de corrélation.
- Entrer une matrice non symétrique ou de taille différente de k × k.
- Interpréter un epsilon proche de 1 comme une preuve absolue de qualité du modèle alors qu’il ne renseigne que sur la sphéricité.
Comment rapporter les résultats dans un mémoire ou un article
Une rédaction claire peut ressembler à ceci : “Pour l’effet du temps dans l’ANOVA à deux facteurs, l’hypothèse de sphéricité a nécessité une correction des degrés de liberté. La correction de Greenhouse-Geisser a été appliquée avec epsilon = 0,812, conduisant à F(2,436, 56,028) = 5,91, p = 0,003.” Si vous disposez des deux corrections, vous pouvez aussi les fournir en annexe ou dans un tableau complémentaire.
Références et ressources académiques recommandées
Pour approfondir la théorie statistique derrière l’epsilon et les plans à mesures répétées, consultez des sources méthodologiques solides :
- NIST Engineering Statistics Handbook
- Penn State University – STAT 505
- UCLA Statistical Methods and Data Analytics
En résumé
Le calcul epsilon pour analyse variance a deux facteurs permet d’ajuster correctement les degrés de liberté lorsqu’un facteur répété ou une interaction viole l’hypothèse de sphéricité. Plus l’epsilon est petit, plus la correction devient stricte. Greenhouse-Geisser offre une solution robuste et conservatrice, Huynh-Feldt une alternative plus souple, tandis que la borne inférieure représente la limite la plus sévère. En pratique, un bon calcul d’epsilon améliore la validité de l’inférence statistique et renforce la crédibilité de vos résultats dans tout rapport scientifique, mémoire ou publication.