Calcul de l intervalle de confiance de la variance
Estimez rapidement l intervalle de confiance de la variance et de l écart-type d une population normale à partir de votre échantillon. Cet outil applique la loi du chi carré pour fournir des bornes inférieure et supérieure précises.
Hypothèse clé : les données proviennent d une population approximativement normale. Sans cette hypothèse, l intervalle de confiance de la variance peut devenir peu fiable.
Guide expert du calcul de l intervalle de confiance de la variance
Le calcul de l intervalle de confiance de la variance est une étape essentielle en statistique inférentielle lorsque l on souhaite estimer la dispersion réelle d une population à partir d un échantillon. Beaucoup de praticiens savent construire un intervalle de confiance pour une moyenne, mais ils rencontrent plus de difficultés lorsqu il s agit de la variance ou de l écart-type. Pourtant, dans l industrie, la finance, la recherche médicale, le contrôle qualité ou la métrologie, la question de la variabilité est souvent aussi importante que la question du niveau moyen.
La variance mesure l étalement des observations autour de la moyenne. Plus la variance est élevée, plus les valeurs sont dispersées. L intervalle de confiance de la variance permet donc d encadrer l incertitude sur cette dispersion. Au lieu d affirmer que la variance de la population vaut exactement un nombre donné, on détermine une plage de valeurs plausibles, compatible avec les données observées et un niveau de confiance choisi, par exemple 95 %.
Pourquoi la variance est si importante
Dans de nombreuses situations réelles, la moyenne n est pas suffisante pour piloter une décision. Une entreprise peut avoir un délai moyen de livraison correct, mais une variabilité trop forte qui dégrade l expérience client. Un laboratoire peut obtenir une concentration moyenne conforme, tout en souffrant d une dispersion excessive qui remet en cause la stabilité du procédé. En production, une machine dont les dimensions moyennes sont bien réglées mais très dispersées reste problématique.
- En contrôle qualité, la variance aide à détecter l instabilité d un processus.
- En finance, elle sert de base à la mesure du risque et à la volatilité.
- En biostatistique, elle permet d apprécier l hétérogénéité des réponses.
- En ingénierie, elle informe sur la répétabilité et la précision des mesures.
- En sciences sociales, elle décrit la dispersion des comportements ou des scores.
La formule de l intervalle de confiance de la variance
Lorsque l on travaille avec un échantillon de taille n issu d une population normale, la statistique suivante suit une loi du chi carré à n – 1 degrés de liberté :
(n – 1)s² / σ²
où s² est la variance de l échantillon et σ² la variance inconnue de la population. À partir de cette propriété, on obtient l intervalle de confiance bilatéral pour la variance :
[(n – 1)s² / χ²1 – α/2 ; (n – 1)s² / χ²α/2]
Ici, α = 1 – niveau de confiance. Pour un niveau de confiance de 95 %, on a α = 0,05. Les valeurs critiques du chi carré dépendent alors des degrés de liberté n – 1. Une fois l intervalle de confiance de la variance calculé, il suffit de prendre la racine carrée des deux bornes pour obtenir l intervalle de confiance de l écart-type.
Comment interpréter correctement le résultat
Supposons qu un échantillon de 25 observations donne une variance observée de 16. Avec un niveau de confiance de 95 %, on peut obtenir un intervalle de confiance voisin de [9,76 ; 30,96] pour la variance. Cela signifie que la vraie variance de la population compatible avec les données pourrait raisonnablement se situer entre environ 9,76 et 30,96, compte tenu du modèle statistique utilisé.
Il est crucial de ne pas interpréter cet intervalle comme une probabilité directe sur la valeur de la variance. En statistique fréquentiste, la variance inconnue est un paramètre fixe. C est la procédure d intervalle qui est aléatoire, pas le paramètre lui-même. Cette nuance est souvent mal comprise, y compris par des utilisateurs avancés.
Étapes détaillées du calcul
- Déterminer la taille de l échantillon n.
- Calculer la variance de l échantillon s² ou partir de l écart-type s puis l élever au carré.
- Choisir un niveau de confiance, par exemple 90 %, 95 % ou 99 %.
- Calculer les degrés de liberté ddl = n – 1.
- Lire les quantiles de la loi du chi carré : χ²α/2 et χ²1 – α/2.
- Appliquer la formule des bornes inférieure et supérieure.
- Si nécessaire, prendre la racine carrée de ces bornes pour obtenir l intervalle de confiance de l écart-type.
Tableau comparatif de valeurs critiques du chi carré
Le tableau suivant donne quelques valeurs critiques réelles couramment utilisées pour un intervalle de confiance bilatéral à 95 %. Elles montrent clairement que la forme asymétrique de la loi du chi carré influence directement l asymétrie de l intervalle de confiance de la variance.
| Degrés de liberté | χ² à 2,5 % | χ² à 97,5 % | Commentaire |
|---|---|---|---|
| 5 | 0,831 | 12,833 | Très forte asymétrie, intervalle large pour petits échantillons. |
| 10 | 3,247 | 20,483 | L intervalle reste encore assez étendu. |
| 20 | 9,591 | 34,170 | La précision commence à s améliorer. |
| 30 | 16,791 | 46,979 | Distribution moins asymétrique, bornes plus stables. |
Effet de la taille d échantillon sur la précision
La taille d échantillon est l un des facteurs les plus importants. À variance observée identique, plus l échantillon est grand, plus l intervalle de confiance se resserre. Cela s explique par le fait que les degrés de liberté augmentent et que l estimation de la dispersion devient plus stable.
| Exemple | n | s² observée | IC 95 % pour la variance | Largeur de l intervalle |
|---|---|---|---|---|
| Petit échantillon | 10 | 16 | [7,57 ; 53,33] | 45,76 |
| Échantillon moyen | 25 | 16 | [9,76 ; 30,96] | 21,20 |
| Échantillon plus grand | 50 | 16 | [11,16 ; 24,85] | 13,69 |
Ce second tableau montre une réalité très concrète : doubler ou tripler la taille de l échantillon améliore sensiblement la précision de l intervalle. Pour des décisions de conformité, de validation de procédé ou de maîtrise du risque, cette amélioration peut être déterminante.
Différence entre intervalle pour la variance et intervalle pour l écart-type
La variance et l écart-type décrivent la dispersion, mais ils ne s interprètent pas sur la même échelle. La variance est exprimée dans l unité au carré, alors que l écart-type est exprimé dans l unité originale de la variable. En pratique, les décideurs comprennent souvent mieux l écart-type. Cependant, les calculs théoriques passent d abord par la variance, car la loi du chi carré s applique naturellement à s².
- L intervalle de confiance de la variance est utile pour l analyse théorique et les modèles statistiques.
- L intervalle de confiance de l écart-type est souvent plus intuitif pour le terrain.
- Les deux portent la même information, mais dans des unités différentes.
Conditions d application à ne pas négliger
Le calcul classique de l intervalle de confiance de la variance repose sur une hypothèse importante : la normalité de la population. Cette condition est bien plus critique ici que pour beaucoup d intervalles de confiance sur la moyenne. Si les données sont très asymétriques, contiennent des valeurs extrêmes ou suivent une distribution fortement non normale, l intervalle basé sur le chi carré peut être trompeur.
Avant d utiliser ce type d intervalle, il est donc recommandé de :
- Examiner un histogramme ou un diagramme en boîte.
- Vérifier la présence d observations aberrantes.
- Utiliser, si besoin, un test ou un diagnostic de normalité.
- En cas de doute sérieux, envisager des méthodes robustes ou par bootstrap.
Erreurs fréquentes lors du calcul
De nombreux utilisateurs commettent des erreurs qui faussent le résultat. Voici les plus courantes :
- Confondre variance et écart-type lors de la saisie.
- Oublier que les degrés de liberté valent n – 1 et non n.
- Intervertir les quantiles du chi carré dans la formule.
- Utiliser une formule de moyenne au lieu d une formule de dispersion.
- Appliquer la méthode sur des données très non normales sans précaution.
- Interpréter l intervalle comme une probabilité bayésienne directe sur le paramètre.
Exemple complet de calcul manuel
Prenons un exemple simple. On observe un échantillon de n = 25 et une variance d échantillon s² = 16. On veut un intervalle de confiance à 95 %. On a :
- Degrés de liberté : 24
- Quantile inférieur du chi carré à 2,5 % : environ 12,401
- Quantile supérieur du chi carré à 97,5 % : environ 39,364
- Numérateur : (25 – 1) × 16 = 384
On calcule alors :
- Borne inférieure de la variance : 384 / 39,364 ≈ 9,76
- Borne supérieure de la variance : 384 / 12,401 ≈ 30,96
L intervalle de confiance à 95 % pour la variance est donc [9,76 ; 30,96]. Pour l écart-type, on prend la racine carrée de chaque borne, soit environ [3,12 ; 5,56].
Quand utiliser 90 %, 95 % ou 99 %
Le choix du niveau de confiance dépend du contexte. Plus le niveau de confiance est élevé, plus l intervalle est large. En contrepartie, il couvre plus souvent la vraie variance.
- 90 % : utile lorsque l on privilégie une estimation plus resserrée avec un peu moins de sécurité.
- 95 % : standard le plus répandu dans les applications scientifiques et techniques.
- 99 % : préférable dans des contextes très sensibles, mais l intervalle devient plus large.
Cas d usage concrets
En fabrication, le calcul de l intervalle de confiance de la variance permet de quantifier l incertitude sur la dispersion d un lot de production. En laboratoire, il aide à estimer la répétabilité d une méthode analytique. En finance, il peut servir à encadrer une mesure de volatilité sur une période donnée. Dans les études cliniques ou épidémiologiques, il informe sur l hétérogénéité de certaines réponses mesurées.
Dans tous ces cas, le message est le même : la dispersion observée dans l échantillon n est pas la vérité absolue sur la population. Elle n est qu une estimation, et l intervalle de confiance fournit le cadre formel pour exprimer cette incertitude.
Ressources académiques et institutionnelles recommandées
Pour approfondir la théorie et les bonnes pratiques, consultez ces références de qualité :
- NIST Engineering Statistics Handbook
- Penn State University, STAT 415
- University of California Berkeley, Department of Statistics
Conclusion
Le calcul de l intervalle de confiance de la variance est un outil rigoureux pour estimer l ampleur réelle de la dispersion dans une population. Il repose sur la loi du chi carré, dépend de la taille d échantillon et exige une attention particulière à l hypothèse de normalité. En pratique, plus l échantillon est grand, plus l intervalle est précis. Si vous souhaitez une estimation fiable de la variabilité, il ne suffit pas d afficher une variance observée : il faut aussi encadrer cette estimation par un intervalle de confiance correctement construit.