Calcul de puissance à posteriori

Estimez rapidement la puissance statistique observée d’une étude à partir de la taille d’effet, de l’effectif et du seuil alpha. Cet outil premium est conçu pour une lecture claire, une interprétation immédiate et une visualisation graphique de la relation entre taille d’échantillon et puissance.

Type de plan

Type d’hypothèse

Taille d’effet standardisée (Cohen d)

Seuil alpha

Taille d’échantillon par groupe ou total selon le plan

Résultat observé significatif ?

Contexte ou note d’étude

Résultats

Saisissez vos paramètres puis cliquez sur le bouton pour afficher la puissance à posteriori, l’interprétation et une courbe de puissance.

Conseils rapides

Pour un plan à deux groupes indépendants, saisissez l’effectif par groupe.
Pour un plan apparié ou à un échantillon, saisissez l’effectif total.
Une puissance de 0,80 est souvent utilisée comme seuil pratique, mais le contexte disciplinaire reste essentiel.
Le calcul à posteriori dépend fortement de la taille d’effet retenue. Une mauvaise estimation du d de Cohen produit une interprétation fragile.
Le graphique vous aide à voir combien de participants supplémentaires auraient amélioré la détection de l’effet étudié.

Cet outil repose sur une approximation normale, adaptée à l’illustration et à la décision exploratoire. Pour des analyses réglementaires ou de publication, confirmez les résultats avec un logiciel statistique dédié.

Guide expert du calcul de puissance à posteriori

Le calcul de puissance à posteriori, aussi appelé puissance observée ou post hoc power analysis, consiste à estimer la probabilité qu’une étude donnée ait pu détecter un effet d’une certaine ampleur compte tenu de la taille d’échantillon, du seuil de signification et du type de test employé. En pratique, cette approche est souvent utilisée après la collecte des données, soit pour interpréter un résultat non significatif, soit pour préparer une étude future à partir des paramètres observés. Le sujet est important, mais également controversé lorsqu’il est utilisé de façon simpliste. Une lecture experte exige donc de distinguer l’usage pédagogique de l’usage méthodologique.

Dans sa forme la plus courante, on parle de puissance statistique comme de la probabilité de rejeter l’hypothèse nulle lorsque l’hypothèse alternative est vraie. Une puissance de 0,80 signifie qu’à paramètres identiques, l’étude aurait environ 80 % de chances de détecter l’effet réel. À l’inverse, une puissance faible augmente le risque d’erreur de type II, c’est-à-dire la probabilité de manquer un effet existant. C’est précisément ce point qui rend le calcul à posteriori séduisant après un résultat nul: si la puissance était faible, l’absence de significativité ne suffit pas à conclure à l’absence d’effet.

Idée clé : le calcul de puissance à posteriori n’est pas une preuve définitive. Il sert surtout à contextualiser un résultat, à évaluer la sensibilité de l’étude et à estimer les besoins pour une réplication mieux dimensionnée.

Pourquoi faire un calcul de puissance à posteriori ?

Il existe plusieurs situations où cette analyse apporte une réelle valeur. D’abord, dans les études pilotes, elle permet de transformer des résultats exploratoires en hypothèses quantitatives plus robustes pour un protocole ultérieur. Ensuite, dans les publications ou rapports internes, elle permet d’expliquer qu’un résultat non significatif provient possiblement d’un manque d’effectif plutôt que d’un effet inexistant. Enfin, elle peut aider les équipes cliniques, académiques ou marketing à arbitrer entre l’arrêt d’une ligne de recherche et la mise en place d’une étude plus puissante.

Évaluer si un résultat non significatif est informatif ou simplement sous-dimensionné.
Préparer une étude de réplication avec une cible d’effectif plus réaliste.
Comparer la sensibilité statistique entre plusieurs sous-groupes ou protocoles.
Documenter la crédibilité d’un effet détecté dans une étude pilote.

Les paramètres indispensables

Un calcul de puissance à posteriori repose sur quelques éléments fondamentaux. Le premier est la taille d’effet. Dans les plans simples, elle peut être exprimée par le d de Cohen, qui rapporte la différence observée à la variabilité des données. Le second est l’effectif. Plus l’échantillon est grand, plus la variance de l’estimateur diminue et plus la puissance augmente. Le troisième est le seuil alpha, généralement fixé à 0,05. Un alpha plus strict réduit le taux de faux positifs, mais exige davantage d’information pour atteindre la significativité. Le quatrième élément est le caractère unilatéral ou bilatéral du test: un test bilatéral est plus conservateur, donc moins puissant à paramètres égaux.

Taille d’effet : plus elle est grande, plus elle est détectable.
Taille d’échantillon : principal levier d’amélioration de la puissance.
Alpha : un seuil plus faible augmente l’exigence de preuve.
Type de test : les tests bilatéraux réduisent légèrement la puissance par rapport aux tests unilatéraux.

Comment interpréter une puissance observée ?

Dans l’usage courant, on emploie souvent des seuils pratiques. Une puissance inférieure à 0,50 suggère une sensibilité faible: même si un effet existe, l’étude avait de bonnes chances de ne pas le détecter. Entre 0,50 et 0,79, la sensibilité est intermédiaire. À partir de 0,80, on considère généralement que la capacité de détection est convenable, bien que ce seuil ne soit pas universel. Certaines recherches translationnelles, réglementaires ou à fort enjeu clinique visent plutôt 0,90. En revanche, une puissance très élevée n’est pas toujours synonyme de meilleure science: elle peut aussi refléter un échantillon si grand que des effets infimes deviennent significatifs sans pertinence pratique.

Niveau de puissance	Interprétation pratique	Risque principal	Action recommandée
< 0,50	Étude faiblement sensible	Fort risque d’erreur de type II	Augmenter fortement l’effectif ou repenser le protocole
0,50 à 0,79	Sensibilité intermédiaire	Résultats instables ou peu concluants	Réplication recommandée
0,80 à 0,89	Bonne sensibilité	Peut rester insuffisant pour petits effets	Adéquat pour de nombreux usages appliqués
≥ 0,90	Très bonne sensibilité	Surdétection d’effets triviaux possible	Vérifier la pertinence clinique ou métier

Exemple de lecture avec des tailles d’effet usuelles

Le d de Cohen est souvent classé en petits, moyens et grands effets. Même si ces repères ne remplacent jamais les connaissances de domaine, ils restent utiles pour une première lecture. Un petit effet de 0,20 peut être difficile à détecter sans échantillon conséquent. Un effet moyen de 0,50 devient souvent accessible avec un effectif modéré. Un effet de 0,80 ou plus est relativement facile à détecter si le protocole est propre et la variabilité bien maîtrisée. Le tableau suivant illustre des ordres de grandeur fréquemment rencontrés avec un test bilatéral à alpha = 0,05 dans un plan à deux groupes indépendants avec tailles égales.

Taille d’effet d	Interprétation courante	Effectif approximatif par groupe pour 80 % de puissance	Effectif approximatif par groupe pour 90 % de puissance
0,20	Petit effet	Environ 393	Environ 526
0,50	Effet moyen	Environ 64	Environ 85
0,80	Grand effet	Environ 26	Environ 34

Ces valeurs sont cohérentes avec les ordres de grandeur classiquement rapportés en biostatistique et en sciences sociales expérimentales. Elles montrent un point essentiel: la puissance n’augmente pas linéairement avec le nombre de participants. Les petits effets nécessitent des effectifs nettement plus lourds. C’est pourquoi de nombreuses études de faible ampleur peinent à produire des résultats stables lorsque l’effet attendu est modeste.

Les limites méthodologiques du post hoc power

Le principal piège du calcul à posteriori apparaît lorsqu’on utilise la taille d’effet observée comme si elle était une vérité stable. Or, dans un petit échantillon, cette taille d’effet est elle-même incertaine et parfois fortement surestimée. Si l’on injecte une estimation bruitée dans un calcul de puissance, on obtient une impression de précision qui peut être trompeuse. C’est pour cela que de nombreux statisticiens recommandent de compléter, voire de remplacer, la puissance observée par des intervalles de confiance, une estimation d’effet avec incertitude et une analyse de sensibilité.

Autrement dit, une faible puissance après coup n’est pas surprenante dans une étude non significative, mais cela ne fournit pas à lui seul une conclusion scientifique. La bonne pratique consiste à répondre à deux questions distinctes: quelle est l’ampleur de l’effet estimé, et quelle est l’incertitude autour de cette estimation ? Une étude peut être non significative tout en restant compatible avec des effets cliniquement importants si l’intervalle de confiance est large. C’est souvent cette lecture qui apporte le plus de valeur.

Quand le calcul à posteriori reste utile

Malgré ces réserves, le calcul de puissance à posteriori reste utile dans un cadre pragmatique. Il permet d’alimenter une discussion de faisabilité, de justifier un redimensionnement budgétaire, de construire un argumentaire pour une réplication ou de comparer plusieurs scénarios d’échantillonnage. Dans les organisations, il sert aussi d’outil pédagogique: il montre très clairement l’effet conjugué de la taille d’effet et de l’effectif. Lorsqu’il est présenté comme une approximation contextualisée et non comme un verdict absolu, il conserve une réelle valeur opérationnelle.

Bonnes pratiques d’interprétation

Ne jamais interpréter la puissance observée sans regarder la taille d’effet estimée et son intervalle de confiance.
Éviter de surinterpréter un résultat non significatif issu d’un petit échantillon.
Comparer plusieurs scénarios de réplication au lieu de s’arrêter à un seul chiffre.
Privilégier une approche orientée décision: combien de participants faut-il pour rendre l’étude informativement utile ?
Documenter les hypothèses du calcul: alpha, bilatéralité, plan d’étude et mesure de l’effet.

Différence entre calcul a priori et calcul à posteriori

Le calcul de puissance a priori se fait avant la collecte des données. Il sert à déterminer le nombre de participants nécessaires pour atteindre une puissance cible, généralement 80 % ou 90 %, pour une taille d’effet jugée plausible. Le calcul à posteriori intervient après l’étude. Il évalue la sensibilité de ce qui a effectivement été réalisé. Le premier est un outil de conception. Le second est surtout un outil d’interprétation et de planification future. Confondre les deux conduit souvent à des malentendus, notamment lorsqu’on tente de réhabiliter un résultat faible par un calcul réalisé après coup.

Applications concrètes selon les domaines

En recherche clinique, la puissance à posteriori peut aider à comprendre pourquoi un essai pilote n’a pas confirmé un signal préliminaire. En psychologie ou en sciences de l’éducation, elle éclaire la difficulté à détecter des effets modestes avec des cohortes limitées. En A/B testing ou en expérimentation produit, elle permet d’évaluer si l’absence de différence observée provient d’un manque de trafic plutôt que d’une véritable équivalence. Dans tous les cas, le raisonnement reste le même: si l’étude était peu puissante, une absence de significativité n’est pas une preuve d’absence d’effet.

Références et ressources d’autorité

Pour approfondir la notion de puissance statistique et les bonnes pratiques d’interprétation, consultez des sources académiques et institutionnelles reconnues :

Conclusion

Le calcul de puissance à posteriori est utile lorsqu’il est employé avec discernement. Il ne remplace ni une planification a priori rigoureuse ni une interprétation centrée sur les tailles d’effet et les intervalles de confiance. En revanche, il constitue un excellent outil de diagnostic: il aide à comprendre la sensibilité réelle d’une étude, à identifier les limites d’un résultat non significatif et à préparer une réplication plus crédible. Utilisé correctement, il transforme une simple lecture binaire significatif ou non significatif en une analyse plus mature de l’information statistique disponible.

Calcul De Puissance Posteriori