Calcul avec 3 vairantes pour un plan d’experience
Estimez rapidement la taille d’échantillon nécessaire pour comparer 3 variantes dans un test d’expérience de type A/B/C. Cet outil tient compte du taux de conversion de base, de l’uplift minimal détectable, du niveau de confiance, de la puissance statistique et du trafic quotidien disponible.
Paramètres du calcul
Résultats
Renseignez vos hypothèses puis cliquez sur Calculer pour obtenir la taille d’échantillon recommandée pour vos 3 variantes.
Visualisation
Le graphique montre comment la taille d’échantillon par variante évolue selon différents niveaux d’uplift, y compris votre hypothèse actuelle.
Guide expert : comment faire un calcul avec 3 vairantes pour un plan d’experience
Lorsqu’une équipe produit, marketing ou e-commerce veut comparer plusieurs idées simultanément, elle se retrouve rapidement face à une question centrale : comment dimensionner correctement un plan d’expérience avec trois variantes ? Beaucoup d’équipes savent lancer un test A/B classique, mais l’ajout d’une troisième version transforme la logique statistique, la durée du test, la lecture des résultats et même la manière de répartir le trafic. Un bon calcul avec 3 vairantes pour un plan d’experience ne consiste donc pas seulement à diviser le trafic en trois et à attendre. Il faut tenir compte de la probabilité d’erreur, du niveau de confiance, de la puissance statistique, de l’effet minimum que l’on souhaite détecter et du fait qu’avec trois variantes, le nombre de comparaisons augmente.
Dans un test A/B/C, on compare généralement une variante de référence, souvent appelée contrôle, à deux alternatives. Si les variantes sont A, B et C, les comparaisons les plus courantes sont A vs B, A vs C et B vs C. Cela fait trois comparaisons potentielles. Plus on multiplie les comparaisons, plus le risque de faux positif augmente si l’on conserve le même seuil de significativité. C’est pour cette raison que le calculateur ci-dessus applique une correction de Bonferroni simple : le niveau d’erreur global est réparti entre les trois comparaisons pair à pair. Cette approche est conservatrice, mais elle est claire, robuste et adaptée à de nombreux cas opérationnels.
Pourquoi un plan d’expérience à 3 variantes est plus exigeant qu’un test A/B
Avec deux variantes, la taille d’échantillon requise dépend principalement de quatre éléments : le taux de conversion de base, l’effet minimum détectable, le niveau de confiance et la puissance statistique. Avec trois variantes, les mêmes éléments s’appliquent, mais la taille totale du test augmente mécaniquement pour deux raisons. D’abord, le trafic est partagé entre plus de groupes. Ensuite, le plan d’analyse doit maîtriser l’inflation du risque d’erreur liée aux comparaisons multiples.
- Le trafic est réparti entre 3 groupes au lieu de 2.
- Les comparaisons pair à pair passent de 1 à 3.
- La durée nécessaire pour atteindre la même puissance augmente souvent de façon sensible.
- La lecture business des écarts devient plus délicate, surtout si deux variantes semblent proches.
En pratique, cela signifie qu’un test à 3 variantes ne doit pas être lancé simplement parce qu’il est techniquement possible. Il doit être justifié par un apprentissage métier clair. Par exemple, vous pouvez vouloir comparer trois formulations d’une proposition de valeur, trois structures de page produit ou trois designs de bouton d’ajout au panier. Si la différence attendue entre les variantes est faible, le coût statistique du troisième bras de test peut devenir important.
Les hypothèses de base à définir avant le calcul
Avant tout calcul, il faut formaliser les hypothèses. La première est le taux de conversion de base. Si votre contrôle convertit historiquement à 5%, cette valeur sert d’ancrage. La deuxième est l’uplift minimal détectable. Si vous saisissez 15%, cela ne veut pas dire une hausse de 15 points, mais une hausse relative de 15% du taux de base. Ainsi, une baseline de 5% avec un uplift de 15% correspond à une variante cible à 5,75%.
La troisième hypothèse est le niveau de confiance. Un niveau de 95% correspond à un risque alpha global de 5%. La quatrième est la puissance statistique, souvent fixée à 80% ou 90%, qui représente la capacité du test à détecter l’effet s’il existe réellement. Enfin, il faut connaître le trafic quotidien utile, c’est-à-dire le trafic réellement éligible au test, et non le trafic brut du site.
- Mesurez la baseline sur une période récente et stable.
- Définissez un uplift minimal qui justifie un changement produit ou business.
- Choisissez un niveau de confiance adapté à l’enjeu.
- Fixez une puissance cohérente avec le coût d’un faux négatif.
- Estimez le trafic quotidien réellement disponible pour les 3 variantes.
Formule de calcul simplifiée utilisée pour trois variantes
Pour comparer des proportions, on utilise une approximation classique basée sur la loi normale. Le calcul par variante dépend de la différence absolue entre le taux de base et le taux attendu, des quantiles critiques de confiance et de puissance, ainsi que d’une correction pour les comparaisons multiples. Dans cet outil, le principe est le suivant : on transforme votre confiance globale en alpha global, puis on le divise par 3 parce qu’il existe 3 comparaisons pair à pair possibles entre trois variantes. Ensuite, on applique un calcul de taille d’échantillon pour deux proportions, et l’on considère la taille nécessaire par groupe.
Cette méthode est particulièrement utile lorsque l’on veut un dimensionnement rapide et prudential. Elle est très adaptée à des contextes web, CRO, génération de leads ou optimisation de tunnel. Pour des protocoles plus complexes, des plans factoriels complets ou des effets d’interaction entre plusieurs facteurs, il faut envisager un vrai plan d’expérience de type DOE, comme ceux décrits par le NIST Engineering Statistics Handbook.
| Paramètre | Valeur statistique réelle | Interprétation pratique |
|---|---|---|
| Confiance 90% | z ≈ 1,645 | Seuil plus tolérant, taille d’échantillon plus faible, risque alpha plus élevé. |
| Confiance 95% | z ≈ 1,960 | Standard le plus fréquent pour les décisions produit et marketing. |
| Confiance 99% | z ≈ 2,576 | Très strict, utile lorsque le coût d’une mauvaise décision est élevé. |
| Puissance 80% | z ≈ 0,842 | Référence courante : compromis entre rigueur et durée du test. |
| Puissance 90% | z ≈ 1,282 | Exige plus d’observations mais réduit le risque de rater un vrai effet. |
Exemple concret de lecture métier
Imaginons un site e-commerce avec un taux de conversion de base de 5%, un trafic quotidien de 6 000 visiteurs éligibles et un uplift minimal détectable de 15%. Avec 3 variantes et une confiance de 95% couplée à une puissance de 80%, le besoin en échantillon peut devenir important parce que la hausse attendue en valeur absolue n’est que de 0,75 point. La conséquence est simple : même si la variation relative paraît forte sur le papier, l’écart réel à détecter reste petit. Or les petits écarts nécessitent de grands volumes.
C’est précisément la raison pour laquelle les équipes expérimentées articulent toujours la décision statistique autour de l’impact business. Une amélioration de 15% relative sur une micro-conversion à faible valeur ne justifie pas forcément la même taille d’investissement analytique qu’une amélioration de 5% sur la conversion finale. Le calcul n’est donc jamais purement mathématique ; il doit être connecté à la marge, au coût d’implémentation, au délai de décision et à la saisonnalité.
Tableau comparatif : effet minimum détectable et volume requis
Le tableau ci-dessous illustre des ordres de grandeur réalistes pour une baseline de 5%, une confiance de 95% et une puissance de 80%, avec correction simple pour 3 comparaisons. Les chiffres sont indicatifs, mais cohérents avec les calculs de tests de proportion en environnement de conversion web.
| Baseline | Uplift relatif visé | Taux cible estimé | Échantillon par variante | Échantillon total pour 3 variantes |
|---|---|---|---|---|
| 5,0% | +10% | 5,5% | Environ 36 000 | Environ 108 000 |
| 5,0% | +15% | 5,75% | Environ 16 000 | Environ 48 000 |
| 5,0% | +20% | 6,0% | Environ 9 000 | Environ 27 000 |
La logique est nette : plus l’effet attendu est petit, plus la taille d’échantillon grimpe rapidement. Ce phénomène n’est pas linéaire. Diviser l’effet par deux peut multiplier la taille nécessaire bien au-delà du double. C’est l’une des erreurs les plus fréquentes dans les plans d’expérience mal cadrés.
Quand utiliser un plan d’expérience à 3 variantes
Un plan à trois variantes est particulièrement pertinent dans quatre situations. Premièrement, lorsque vous avez réellement trois hypothèses concurrentes et qu’aucune ne peut être raisonnablement éliminée en amont. Deuxièmement, lorsque le trafic est suffisamment élevé pour supporter une répartition tripartite sans rallonger excessivement la durée du test. Troisièmement, lorsque la variable cible est bien définie et stable. Quatrièmement, lorsque la décision finale n’est pas binaire, par exemple choisir le meilleur positionnement, la meilleure structure de page ou le meilleur message.
- Comparer trois propositions de valeur sur une landing page.
- Tester trois hiérarchies d’information sur une page produit.
- Évaluer trois mécaniques promotionnelles sur un tunnel d’achat.
- Analyser trois formulations d’email dans une campagne à fort volume.
Erreurs fréquentes à éviter
La première erreur consiste à regarder les résultats trop tôt, puis à arrêter le test dès qu’une variante semble gagner. Cette pratique augmente fortement le risque de faux positif. La deuxième erreur est d’utiliser le trafic total du site au lieu du trafic réellement éligible. La troisième est de fixer un uplift trop optimiste. Plus l’uplift minimal retenu est irréaliste, plus le calcul paraît confortable sur le papier, mais moins il reflète les chances réelles d’apprentissage.
Une autre erreur répandue est de mélanger plusieurs changements majeurs dans chaque variante. Si A, B et C diffèrent à la fois sur le design, le contenu, l’offre et le tunnel, vous saurez difficilement expliquer la cause du résultat. Dans ce cas, un plan factoriel, enseigné dans des ressources académiques comme Penn State STAT 503, est souvent plus adapté qu’un simple A/B/C.
Bonnes pratiques de mise en oeuvre
- Définissez avant lancement la métrique primaire et les métriques secondaires.
- Choisissez une seule règle de décision statistique et tenez-vous-y.
- Bloquez la durée minimale avant de consulter le résultat final.
- Vérifiez la qualité de la randomisation et le bon fonctionnement du tracking.
- Analysez séparément les segments critiques uniquement si cela était prévu au départ.
Pour des environnements réglementés, cliniques, industriels ou sensibles, il convient de s’appuyer sur des standards méthodologiques plus formels. Des institutions comme le National Institute of Standards and Technology publient des ressources solides sur la conception expérimentale, les plans factoriels, l’analyse de variance et la validité des conclusions. Ces références sont précieuses si votre plan d’expérience dépasse un simple cadre de CRO web.
Comment interpréter le résultat du calculateur
Le calculateur retourne quatre sorties principales : l’échantillon nécessaire par variante, l’échantillon total pour les trois groupes, l’alpha ajusté par comparaison et la durée estimée selon le trafic quotidien. L’échantillon par variante est la valeur la plus importante pour votre exécution. Si l’outil indique 16 000 observations par variante, il faut idéalement atteindre au moins ce volume dans chacun des trois bras. L’échantillon total est simplement la somme sur l’ensemble du test.
La durée estimée dépend d’une hypothèse de répartition égale entre A, B et C. Si vous disposez de 6 000 visiteurs par jour et qu’il vous faut 48 000 observations au total, la durée théorique est d’environ 8 jours. En pratique, il est souvent prudent de couvrir un cycle complet d’activité, par exemple une ou deux semaines entières, afin d’intégrer les différences jour ouvré versus week-end, ainsi que les fluctuations marketing.
Faut-il toujours corriger pour comparaisons multiples ?
Si votre décision finale consiste réellement à identifier la meilleure variante parmi trois et que vous allez regarder plusieurs duels, une correction est fortement recommandée. La correction de Bonferroni est simple et transparente, même si elle peut être conservatrice. Dans des contextes plus avancés, on peut envisager des méthodes séquentielles, hiérarchiques ou bayésiennes, mais elles demandent un cadre analytique plus mature et des conventions d’interprétation partagées par toute l’équipe.
Conclusion
Réussir un calcul avec 3 vairantes pour un plan d’experience, c’est trouver l’équilibre entre ambition d’apprentissage et rigueur statistique. Trois variantes permettent d’explorer plus d’idées en un seul lancement, mais elles exigent plus de discipline dans la conception du test. Si vous définissez clairement votre baseline, votre uplift minimal détectable, votre niveau de confiance, votre puissance et votre trafic réel, vous pourrez estimer une taille d’échantillon crédible et décider avec beaucoup plus de sérénité.
Utilisez le calculateur de cette page comme point de départ opérationnel. Il vous donne une estimation robuste pour des comparaisons de proportions entre 3 variantes. Si votre contexte devient plus complexe, par exemple avec plusieurs facteurs, interactions, contraintes de blocs ou analyses séquentielles, passez à une méthodologie DOE complète et documentée. Un bon plan d’expérience n’est pas seulement un test qui tourne ; c’est un dispositif qui produit une décision fiable.