Calcul de puissance test statistique post hoc
Estimez rapidement la puissance observée d’un test après collecte des données, visualisez l’impact de la taille d’effet et du nombre de sujets, puis interprétez le résultat avec un guide expert en français.
Calculateur interactif
Renseignez le type de test, la taille d’effet estimée, l’effectif et le seuil alpha. Le calcul repose sur une approximation normale couramment utilisée pour l’évaluation post hoc de la puissance.
Comprendre le calcul de puissance test statistique post hoc
Le calcul de puissance test statistique post hoc consiste à estimer, après l’étude, la probabilité qu’un test statistique détecte un effet d’une certaine ampleur compte tenu de l’échantillon observé, du niveau alpha retenu et de la structure du test utilisé. En pratique, cette approche est souvent mobilisée lorsqu’un résultat n’est pas significatif et que les chercheurs souhaitent savoir si l’étude manquait simplement de sensibilité ou si les données sont plutôt compatibles avec une absence d’effet cliniquement important.
La puissance statistique se note généralement 1 – β. Une puissance de 0,80 signifie qu’en présence d’un effet réel de l’ampleur spécifiée, le protocole aurait environ 80 % de chances de produire un résultat statistiquement significatif. Dans une logique post hoc, on injecte dans le calcul la taille d’effet estimée ou une taille d’effet jugée minimale d’intérêt, puis on observe à quel niveau se situe la puissance obtenue. Cela ne remplace pas la planification a priori, mais cela peut enrichir l’interprétation de l’étude.
Point clé : la puissance post hoc n’est pas une preuve autonome. Elle doit être lue avec l’intervalle de confiance, la taille d’effet, la précision de l’estimation, la plausibilité biologique ou clinique et la qualité du protocole.
Pourquoi réaliser un calcul post hoc ?
Dans le monde réel, toutes les études ne sont pas planifiées avec un calcul de puissance préalable détaillé. Certains projets exploratoires, audits de service, bases de données rétrospectives ou analyses secondaires sont lancés avec un effectif imposé. Lorsque les résultats arrivent, le calcul post hoc répond à plusieurs questions importantes :
- Le test avait-il une chance raisonnable de détecter un effet modéré ou faible ?
- Un résultat non significatif peut-il s’expliquer par un manque d’effectif ?
- Quelle taille d’échantillon aurait permis d’atteindre une puissance cible de 80 % ou 90 % ?
- L’effet observé est-il compatible avec un signal potentiellement réel mais mal estimé ?
En recherche biomédicale, psychologie, sciences sociales, éducation et économie appliquée, cette lecture est utile pour éviter deux erreurs fréquentes : conclure trop vite à l’absence d’effet, ou au contraire surinterpréter un effet numériquement intéressant mais mesuré sur une base trop faible.
Formule générale et logique mathématique
La logique du calcul repose sur quatre briques :
- Le niveau alpha, souvent fixé à 0,05.
- La taille d’effet, ici exprimée sous forme standardisée avec le d de Cohen.
- La taille d’échantillon, soit par groupe, soit en nombre de paires selon le test.
- Le caractère bilatéral ou unilatéral de l’hypothèse.
Pour un test sur moyenne approché par une loi normale, on construit un paramètre de non-centralité. Pour deux groupes indépendants équilibrés, une approximation fréquente est :
δ = d × √(n / 2)
où d est la taille d’effet standardisée et n l’effectif de chaque groupe. Pour un test apparié ou un test sur une moyenne, on utilise plus souvent :
δ = d × √n
Ensuite, la puissance dépend de la distance entre la distribution sous H0, le seuil critique défini par alpha, et la distribution sous H1. Plus δ est élevé, plus la probabilité de franchir la zone critique augmente.
Interpréter les seuils usuels
- Puissance < 0,50 : l’étude est très peu sensible.
- 0,50 à 0,79 : sensibilité intermédiaire, interprétation prudente.
- 0,80 à 0,89 : souvent considérée comme acceptable.
- ≥ 0,90 : niveau fort, apprécié pour les études confirmatoires.
Ces repères ne sont pas absolus. Dans certains domaines à forte variabilité, atteindre 90 % peut être coûteux ou irréaliste. À l’inverse, pour une étude réglementaire ou un essai décisif, une puissance de 80 % peut être jugée insuffisante.
Exemple concret de lecture post hoc
Imaginons une étude comparant deux méthodes pédagogiques avec 50 étudiants par groupe, alpha à 0,05, hypothèse bilatérale et taille d’effet observée de 0,50. Le calcul donne une puissance approximative proche de 0,70. Une absence de significativité dans ce contexte ne permet donc pas de conclure sereinement à l’absence d’effet. En revanche, si l’effectif était de 100 par groupe avec la même taille d’effet, la puissance monterait aux environs de 0,94, ce qui rendrait un résultat non significatif beaucoup plus surprenant.
| Taille d’effet (d) | n par groupe | Alpha | Puissance approximative | Lecture pratique |
|---|---|---|---|---|
| 0,20 | 50 | 0,05 | 0,17 | Très faible pour détecter un petit effet |
| 0,50 | 50 | 0,05 | 0,70 | Correcte mais sous le seuil classique de 80 % |
| 0,80 | 50 | 0,05 | 0,98 | Excellente pour un effet fort |
| 0,50 | 100 | 0,05 | 0,94 | Très bonne sensibilité |
Différence entre calcul a priori et calcul post hoc
Le calcul a priori sert à planifier l’étude avant la collecte des données. Il détermine l’effectif nécessaire pour détecter une taille d’effet cible avec une puissance prédéfinie. Le calcul post hoc, lui, intervient après coup pour apprécier ce que l’étude était réellement capable de détecter.
| Aspect | Puissance a priori | Puissance post hoc |
|---|---|---|
| Moment d’utilisation | Avant l’étude | Après l’étude |
| Objectif principal | Dimensionner l’échantillon | Interpréter un résultat observé |
| Force méthodologique | Très élevée pour la planification | Utile mais secondaire |
| Risque principal | Mauvaise hypothèse sur l’effet attendu | Dépendance à l’effet observé, parfois instable |
Les limites majeures de la puissance post hoc
Le principal débat méthodologique tient au fait que la puissance post hoc calculée à partir de la taille d’effet observée peut être très proche d’une reformulation de la p-value. Si l’effet observé est faible et non significatif, la puissance estimée sera souvent basse. Ce constat, bien que parfois utile pour la pédagogie, ne constitue pas une information totalement indépendante.
Voici les principales limites à garder en tête :
- Instabilité des petites études : les estimations de taille d’effet peuvent fluctuer fortement.
- Confusion avec l’évidence statistique : une faible puissance post hoc n’implique pas qu’un effet existe vraiment.
- Risque de surinterprétation : un résultat significatif avec faible effectif peut surestimer l’effet réel.
- Importance de l’intervalle de confiance : il apporte souvent une lecture plus robuste de la précision.
Quand la puissance post hoc reste pertinente
Malgré ces critiques, elle reste pertinente lorsqu’elle est utilisée de manière disciplinée. Par exemple, dans une étude négative, indiquer qu’un essai avec 25 patients par groupe n’avait qu’environ 30 % de puissance pour détecter un effet modéré aide le lecteur à comprendre pourquoi le résultat ne suffit pas à exclure une différence utile. Elle est aussi intéressante pour préparer une étude future en utilisant les paramètres réellement rencontrés sur le terrain : variance, recrutement, attrition, faisabilité.
Choisir et interpréter la taille d’effet
Le calcul présenté ici utilise le d de Cohen. Les repères usuels sont souvent les suivants :
- 0,20 : petit effet
- 0,50 : effet moyen
- 0,80 : grand effet
Ces seuils sont pratiques, mais ils ne doivent jamais remplacer le contexte métier. En santé publique, un petit effet peut être très important s’il concerne une intervention peu coûteuse et facilement déployable. En neurosciences ou en psychologie expérimentale, un effet de 0,30 peut déjà être scientifiquement intéressant. À l’inverse, dans une décision industrielle ou réglementaire, un effet de 0,20 peut être jugé trop faible pour justifier un changement.
Bonnes pratiques pour une interprétation rigoureuse
- Présentez toujours la taille d’effet observée et son intervalle de confiance.
- Précisez le type de test, la nature bilatérale ou unilatérale, et le seuil alpha.
- Expliquez si l’effectif est par groupe, total ou apparié.
- Ne concluez pas à l’absence d’effet sur la seule base d’une faible puissance post hoc.
- Utilisez la puissance post hoc comme un élément parmi d’autres, pas comme un verdict unique.
Références et ressources fiables
Pour approfondir la question de la puissance statistique, de la taille d’effet et de la planification d’échantillon, consultez ces ressources de haute autorité :
- NIST.gov – Power and Sample Size
- UCLA.edu – Introduction à G*Power et aux analyses de puissance
- NCBI / NIH – Concepts de biostatistique et interprétation des tests
Questions fréquentes sur le calcul de puissance test statistique post hoc
Une puissance post hoc faible signifie-t-elle que mon étude est inutile ?
Non. Elle signifie surtout que l’étude avait une capacité limitée à détecter l’effet ciblé. Vos données peuvent malgré tout être utiles pour une méta-analyse, une estimation préliminaire, ou la préparation d’un protocole plus grand. Il faut simplement éviter les conclusions trop tranchées.
Peut-on publier une étude avec une puissance inférieure à 80 % ?
Oui, surtout dans les travaux exploratoires, les maladies rares ou les contextes où le recrutement est contraint. Il faut cependant le reconnaître explicitement et adopter un discours proportionné à la précision réelle des résultats.
Vaut-il mieux rapporter la puissance ou l’intervalle de confiance ?
Dans beaucoup de situations, l’intervalle de confiance est plus informatif pour juger la précision et les valeurs plausibles de l’effet. La puissance post hoc peut compléter l’analyse, mais ne devrait pas la remplacer.
Conclusion
Le calcul de puissance test statistique post hoc est un outil d’interprétation utile lorsqu’il est utilisé avec discernement. Il permet de replacer un résultat dans son contexte de sensibilité statistique, en reliant la taille d’effet, l’effectif et le niveau alpha. Son intérêt est particulièrement fort pour comprendre les résultats non significatifs, anticiper les besoins d’une étude future et communiquer plus honnêtement les limites d’un jeu de données. La bonne pratique consiste à l’associer systématiquement à la taille d’effet, aux intervalles de confiance, au jugement substantiel sur ce qui constitue un effet pertinent, et aux contraintes réelles du terrain.
Note méthodologique : ce calculateur utilise une approximation normale standard adaptée à un usage pédagogique et décisionnel courant. Pour des plans complexes, tests exacts, modèles mixtes, ANOVA, régression logistique ou données très déséquilibrées, il est préférable d’utiliser un logiciel spécialisé et une spécification complète du modèle.