Calcul de puissance à posteriori
Estimez rapidement la puissance statistique observée d’une étude à partir de la taille d’effet, de l’effectif et du seuil alpha. Cet outil premium est conçu pour une lecture claire, une interprétation immédiate et une visualisation graphique de la relation entre taille d’échantillon et puissance.
Saisissez vos paramètres puis cliquez sur le bouton pour afficher la puissance à posteriori, l’interprétation et une courbe de puissance.
Guide expert du calcul de puissance à posteriori
Le calcul de puissance à posteriori, aussi appelé puissance observée ou post hoc power analysis, consiste à estimer la probabilité qu’une étude donnée ait pu détecter un effet d’une certaine ampleur compte tenu de la taille d’échantillon, du seuil de signification et du type de test employé. En pratique, cette approche est souvent utilisée après la collecte des données, soit pour interpréter un résultat non significatif, soit pour préparer une étude future à partir des paramètres observés. Le sujet est important, mais également controversé lorsqu’il est utilisé de façon simpliste. Une lecture experte exige donc de distinguer l’usage pédagogique de l’usage méthodologique.
Dans sa forme la plus courante, on parle de puissance statistique comme de la probabilité de rejeter l’hypothèse nulle lorsque l’hypothèse alternative est vraie. Une puissance de 0,80 signifie qu’à paramètres identiques, l’étude aurait environ 80 % de chances de détecter l’effet réel. À l’inverse, une puissance faible augmente le risque d’erreur de type II, c’est-à-dire la probabilité de manquer un effet existant. C’est précisément ce point qui rend le calcul à posteriori séduisant après un résultat nul: si la puissance était faible, l’absence de significativité ne suffit pas à conclure à l’absence d’effet.
Pourquoi faire un calcul de puissance à posteriori ?
Il existe plusieurs situations où cette analyse apporte une réelle valeur. D’abord, dans les études pilotes, elle permet de transformer des résultats exploratoires en hypothèses quantitatives plus robustes pour un protocole ultérieur. Ensuite, dans les publications ou rapports internes, elle permet d’expliquer qu’un résultat non significatif provient possiblement d’un manque d’effectif plutôt que d’un effet inexistant. Enfin, elle peut aider les équipes cliniques, académiques ou marketing à arbitrer entre l’arrêt d’une ligne de recherche et la mise en place d’une étude plus puissante.
- Évaluer si un résultat non significatif est informatif ou simplement sous-dimensionné.
- Préparer une étude de réplication avec une cible d’effectif plus réaliste.
- Comparer la sensibilité statistique entre plusieurs sous-groupes ou protocoles.
- Documenter la crédibilité d’un effet détecté dans une étude pilote.
Les paramètres indispensables
Un calcul de puissance à posteriori repose sur quelques éléments fondamentaux. Le premier est la taille d’effet. Dans les plans simples, elle peut être exprimée par le d de Cohen, qui rapporte la différence observée à la variabilité des données. Le second est l’effectif. Plus l’échantillon est grand, plus la variance de l’estimateur diminue et plus la puissance augmente. Le troisième est le seuil alpha, généralement fixé à 0,05. Un alpha plus strict réduit le taux de faux positifs, mais exige davantage d’information pour atteindre la significativité. Le quatrième élément est le caractère unilatéral ou bilatéral du test: un test bilatéral est plus conservateur, donc moins puissant à paramètres égaux.
- Taille d’effet : plus elle est grande, plus elle est détectable.
- Taille d’échantillon : principal levier d’amélioration de la puissance.
- Alpha : un seuil plus faible augmente l’exigence de preuve.
- Type de test : les tests bilatéraux réduisent légèrement la puissance par rapport aux tests unilatéraux.
Comment interpréter une puissance observée ?
Dans l’usage courant, on emploie souvent des seuils pratiques. Une puissance inférieure à 0,50 suggère une sensibilité faible: même si un effet existe, l’étude avait de bonnes chances de ne pas le détecter. Entre 0,50 et 0,79, la sensibilité est intermédiaire. À partir de 0,80, on considère généralement que la capacité de détection est convenable, bien que ce seuil ne soit pas universel. Certaines recherches translationnelles, réglementaires ou à fort enjeu clinique visent plutôt 0,90. En revanche, une puissance très élevée n’est pas toujours synonyme de meilleure science: elle peut aussi refléter un échantillon si grand que des effets infimes deviennent significatifs sans pertinence pratique.
| Niveau de puissance | Interprétation pratique | Risque principal | Action recommandée |
|---|---|---|---|
| < 0,50 | Étude faiblement sensible | Fort risque d’erreur de type II | Augmenter fortement l’effectif ou repenser le protocole |
| 0,50 à 0,79 | Sensibilité intermédiaire | Résultats instables ou peu concluants | Réplication recommandée |
| 0,80 à 0,89 | Bonne sensibilité | Peut rester insuffisant pour petits effets | Adéquat pour de nombreux usages appliqués |
| ≥ 0,90 | Très bonne sensibilité | Surdétection d’effets triviaux possible | Vérifier la pertinence clinique ou métier |
Exemple de lecture avec des tailles d’effet usuelles
Le d de Cohen est souvent classé en petits, moyens et grands effets. Même si ces repères ne remplacent jamais les connaissances de domaine, ils restent utiles pour une première lecture. Un petit effet de 0,20 peut être difficile à détecter sans échantillon conséquent. Un effet moyen de 0,50 devient souvent accessible avec un effectif modéré. Un effet de 0,80 ou plus est relativement facile à détecter si le protocole est propre et la variabilité bien maîtrisée. Le tableau suivant illustre des ordres de grandeur fréquemment rencontrés avec un test bilatéral à alpha = 0,05 dans un plan à deux groupes indépendants avec tailles égales.
| Taille d’effet d | Interprétation courante | Effectif approximatif par groupe pour 80 % de puissance | Effectif approximatif par groupe pour 90 % de puissance |
|---|---|---|---|
| 0,20 | Petit effet | Environ 393 | Environ 526 |
| 0,50 | Effet moyen | Environ 64 | Environ 85 |
| 0,80 | Grand effet | Environ 26 | Environ 34 |
Ces valeurs sont cohérentes avec les ordres de grandeur classiquement rapportés en biostatistique et en sciences sociales expérimentales. Elles montrent un point essentiel: la puissance n’augmente pas linéairement avec le nombre de participants. Les petits effets nécessitent des effectifs nettement plus lourds. C’est pourquoi de nombreuses études de faible ampleur peinent à produire des résultats stables lorsque l’effet attendu est modeste.
Les limites méthodologiques du post hoc power
Le principal piège du calcul à posteriori apparaît lorsqu’on utilise la taille d’effet observée comme si elle était une vérité stable. Or, dans un petit échantillon, cette taille d’effet est elle-même incertaine et parfois fortement surestimée. Si l’on injecte une estimation bruitée dans un calcul de puissance, on obtient une impression de précision qui peut être trompeuse. C’est pour cela que de nombreux statisticiens recommandent de compléter, voire de remplacer, la puissance observée par des intervalles de confiance, une estimation d’effet avec incertitude et une analyse de sensibilité.
Autrement dit, une faible puissance après coup n’est pas surprenante dans une étude non significative, mais cela ne fournit pas à lui seul une conclusion scientifique. La bonne pratique consiste à répondre à deux questions distinctes: quelle est l’ampleur de l’effet estimé, et quelle est l’incertitude autour de cette estimation ? Une étude peut être non significative tout en restant compatible avec des effets cliniquement importants si l’intervalle de confiance est large. C’est souvent cette lecture qui apporte le plus de valeur.
Quand le calcul à posteriori reste utile
Malgré ces réserves, le calcul de puissance à posteriori reste utile dans un cadre pragmatique. Il permet d’alimenter une discussion de faisabilité, de justifier un redimensionnement budgétaire, de construire un argumentaire pour une réplication ou de comparer plusieurs scénarios d’échantillonnage. Dans les organisations, il sert aussi d’outil pédagogique: il montre très clairement l’effet conjugué de la taille d’effet et de l’effectif. Lorsqu’il est présenté comme une approximation contextualisée et non comme un verdict absolu, il conserve une réelle valeur opérationnelle.
Bonnes pratiques d’interprétation
- Ne jamais interpréter la puissance observée sans regarder la taille d’effet estimée et son intervalle de confiance.
- Éviter de surinterpréter un résultat non significatif issu d’un petit échantillon.
- Comparer plusieurs scénarios de réplication au lieu de s’arrêter à un seul chiffre.
- Privilégier une approche orientée décision: combien de participants faut-il pour rendre l’étude informativement utile ?
- Documenter les hypothèses du calcul: alpha, bilatéralité, plan d’étude et mesure de l’effet.
Différence entre calcul a priori et calcul à posteriori
Le calcul de puissance a priori se fait avant la collecte des données. Il sert à déterminer le nombre de participants nécessaires pour atteindre une puissance cible, généralement 80 % ou 90 %, pour une taille d’effet jugée plausible. Le calcul à posteriori intervient après l’étude. Il évalue la sensibilité de ce qui a effectivement été réalisé. Le premier est un outil de conception. Le second est surtout un outil d’interprétation et de planification future. Confondre les deux conduit souvent à des malentendus, notamment lorsqu’on tente de réhabiliter un résultat faible par un calcul réalisé après coup.
Applications concrètes selon les domaines
En recherche clinique, la puissance à posteriori peut aider à comprendre pourquoi un essai pilote n’a pas confirmé un signal préliminaire. En psychologie ou en sciences de l’éducation, elle éclaire la difficulté à détecter des effets modestes avec des cohortes limitées. En A/B testing ou en expérimentation produit, elle permet d’évaluer si l’absence de différence observée provient d’un manque de trafic plutôt que d’une véritable équivalence. Dans tous les cas, le raisonnement reste le même: si l’étude était peu puissante, une absence de significativité n’est pas une preuve d’absence d’effet.
Références et ressources d’autorité
Pour approfondir la notion de puissance statistique et les bonnes pratiques d’interprétation, consultez des sources académiques et institutionnelles reconnues :
- Penn State University (.edu) – Power and Sample Size
- UCLA Statistical Consulting (.edu) – Ressources sur la puissance statistique
- NIH / NCBI Bookshelf (.gov) – Concepts de biostatistique et puissance
Conclusion
Le calcul de puissance à posteriori est utile lorsqu’il est employé avec discernement. Il ne remplace ni une planification a priori rigoureuse ni une interprétation centrée sur les tailles d’effet et les intervalles de confiance. En revanche, il constitue un excellent outil de diagnostic: il aide à comprendre la sensibilité réelle d’une étude, à identifier les limites d’un résultat non significatif et à préparer une réplication plus crédible. Utilisé correctement, il transforme une simple lecture binaire significatif ou non significatif en une analyse plus mature de l’information statistique disponible.