Calcul de la variance de l’estimateur de variance
Calculez rapidement la variance d’un estimateur de variance pour un échantillon i.i.d. à partir de la taille d’échantillon, de la variance de population et de l’hypothèse de kurtosis. L’outil compare l’estimateur non biaisé et l’estimateur du maximum de vraisemblance, puis affiche une visualisation dynamique.
Calculateur interactif
Renseignez les paramètres, puis cliquez sur Calculer pour obtenir la variance de l’estimateur de variance.
Évolution de la variance de l’estimateur selon n
Le graphique montre comment la variance de l’estimateur décroît lorsque la taille d’échantillon augmente, avec les hypothèses actuellement sélectionnées.
Guide expert: comprendre le calcul de la variance de l’estimateur de variance
Le calcul de la variance de l’estimateur de variance est un sujet central en statistique théorique et appliquée. En pratique, on ne se contente pas d’estimer une variance de population. On cherche aussi à savoir à quel point cet estimateur est lui-même stable d’un échantillon à l’autre. Cette idée est fondamentale en économétrie, en ingénierie, en contrôle qualité, en biostatistique, en sciences sociales et dans toute discipline où l’on résume la dispersion à partir de données observées.
Quand on prélève plusieurs échantillons indépendants dans une même population, la valeur de la variance calculée dans chaque échantillon n’est pas identique. Elle fluctue. La quantité qui mesure cette fluctuation est justement la variance de l’estimateur de variance. Plus cette quantité est faible, plus l’estimateur est précis. Plus elle est élevée, plus l’estimation de la dispersion devient instable, même si l’estimateur reste non biaisé en moyenne.
1. Qu’appelle-t-on estimateur de variance ?
Dans le cas le plus classique, on observe un échantillon i.i.d. de taille n, noté X₁, X₂, …, Xₙ, provenant d’une population de variance σ². Deux estimateurs reviennent constamment :
- L’estimateur non biaisé : S² = (1 / (n – 1)) Σ (Xᵢ – X̄)²
- L’estimateur du maximum de vraisemblance, souvent appelé MLE sous normalité : σ̂²_MLE = (1 / n) Σ (Xᵢ – X̄)²
Ces deux estimateurs sont très proches numériquement, mais ils n’ont pas exactement les mêmes propriétés. S² est non biaisé pour σ², alors que l’estimateur avec dénominateur n est légèrement biaisé vers le bas. En revanche, son comportement en erreur quadratique moyenne peut parfois être compétitif, notamment dans les petits échantillons sous certaines hypothèses.
2. Pourquoi calculer la variance de l’estimateur de variance ?
Beaucoup d’utilisateurs calculent une variance sans se demander si cette variance estimée est précise. Pourtant, dans les petits échantillons, l’incertitude sur l’estimation de la dispersion peut être importante. Calculer la variance de l’estimateur permet de :
- Comparer plusieurs estimateurs de dispersion.
- Évaluer la stabilité d’une procédure d’inférence.
- Comprendre l’effet de la taille d’échantillon.
- Mesurer l’impact de la non normalité, en particulier via le quatrième moment.
- Justifier le choix d’un estimateur dans un cadre scientifique ou industriel.
En assurance qualité ou en métrologie, cette question est particulièrement importante. Une variance estimée avec une grande variabilité peut conduire à des décisions de conformité fragiles. En finance, une mauvaise précision de l’estimation de la volatilité peut affecter le dimensionnement du risque. En santé publique, l’évaluation de la dispersion d’un biomarqueur influence les comparaisons de groupes et le calcul de taille d’étude.
3. La formule générale
Pour un échantillon i.i.d. avec variance finie σ² et quatrième moment central μ₄, on a pour l’estimateur non biaisé S² :
Cette formule montre immédiatement une chose importante : la variance de l’estimateur de variance dépend non seulement de σ², mais aussi du quatrième moment central μ₄. Autrement dit, deux distributions avec la même variance peuvent produire des estimateurs de variance plus ou moins stables selon leur niveau de kurtosis.
Si l’on introduit l’excès de kurtosis γ₂, alors μ₄ = (γ₂ + 3)σ⁴. On peut donc réécrire :
Ce calculateur utilise précisément cette relation. Il vous permet d’entrer la variance de population σ² et l’excès de kurtosis γ₂ pour obtenir une mesure plus réaliste de la précision de l’estimateur.
4. Cas particulier essentiel : la loi normale
Lorsque la population est normale, le quatrième moment central vaut μ₄ = 3σ⁴. On obtient alors une formule exacte très connue :
C’est l’une des expressions les plus utiles en statistique mathématique. Elle met en évidence trois messages simples :
- La variance de l’estimateur décroît quand n augmente.
- Elle est proportionnelle à σ⁴, donc les populations plus dispersées génèrent des estimateurs plus volatils.
- Dans les petits échantillons, la précision peut rester limitée même si l’estimateur est non biaisé.
Pour l’estimateur MLE avec dénominateur n, il suffit de remarquer que σ̂²_MLE = ((n – 1) / n)S². La variance est donc obtenue par homothétie :
Sous normalité, cela devient :
5. Lecture pratique des résultats
Supposons une population de variance σ² = 4, donc σ⁴ = 16. Si n = 20 et que la population est normale, on obtient pour l’estimateur non biaisé :
L’écart-type de l’estimateur, parfois appelé erreur-type de S², vaut alors la racine carrée de cette quantité, soit environ 1,2978. Cela signifie que d’un échantillon à l’autre, la variance estimée peut varier de façon non négligeable autour de la vraie valeur 4.
Il est donc important de ne pas confondre deux notions :
- La variance de la population, qui décrit la dispersion intrinsèque des données.
- La variance de l’estimateur de variance, qui décrit l’incertitude de l’estimation.
6. Comparaison chiffrée des estimateurs sous normalité
Le tableau suivant donne les multiplicateurs exacts de σ⁴ pour plusieurs tailles d’échantillon. Ces valeurs sont des résultats théoriques exacts sous normalité.
| Taille n | Var(S²) / σ⁴ | Var(σ̂²_MLE) / σ⁴ | Réduction de variance du MLE |
|---|---|---|---|
| 5 | 0,5000 | 0,3200 | 36,0 % |
| 10 | 0,2222 | 0,1800 | 19,0 % |
| 20 | 0,1053 | 0,0950 | 9,8 % |
| 30 | 0,0690 | 0,0644 | 6,7 % |
| 100 | 0,0202 | 0,0198 | 2,0 % |
Ce tableau montre que l’estimateur MLE a souvent une variance plus faible que l’estimateur non biaisé, car il est simplement une version contractée de S². Cependant, ce gain en variance s’accompagne d’un biais. Le bon choix dépend donc du critère retenu : absence de biais, variance minimale, ou erreur quadratique moyenne.
7. Impact de la kurtosis : un point trop souvent négligé
Dans les données réelles, l’hypothèse de normalité n’est pas toujours défendable. Les distributions avec queues épaisses ont un quatrième moment plus élevé. Cela augmente directement la variance de l’estimateur de variance. Voici un exemple numérique avec n = 20 et σ² = 4.
| Excès de kurtosis γ₂ | μ₄ | Var(S²) | Écart-type de S² |
|---|---|---|---|
| 0, loi normale | 48 | 1,6842 | 1,2978 |
| 3, queues plus lourdes | 96 | 4,0842 | 2,0209 |
| 6, queues très lourdes | 144 | 6,4842 | 2,5464 |
Le message est clair : à variance de population identique, des queues plus lourdes rendent l’estimateur de variance sensiblement plus instable. C’est une information majeure pour l’analyse des risques, la surveillance de procédés, ou l’étude de données de revenus et de rendements financiers.
8. Comment utiliser ce calculateur correctement
- Entrez la taille d’échantillon n.
- Entrez la variance de population σ² ou une valeur de référence plausible.
- Choisissez l’estimateur à évaluer, non biaisé ou MLE.
- Indiquez l’excès de kurtosis γ₂. Si vous supposez une loi normale, laissez 0.
- Cliquez sur Calculer pour obtenir la variance de l’estimateur, son écart-type et le coefficient relatif par rapport à σ⁴.
Le graphique intégré illustre aussi l’effet de n sur la stabilité de l’estimateur. Cette visualisation est particulièrement utile pour préparer un plan d’étude ou motiver l’augmentation de la taille d’échantillon.
9. Interprétation statistique avancée
Dans un cadre d’inférence, la variance de l’estimateur de variance intervient dans plusieurs constructions indirectes. Elle aide à comprendre la dispersion des estimateurs de paramètres qui utilisent S² comme composante, par exemple certains estimateurs de précision, des critères de sélection de modèles, des estimations de bruit résiduel en régression, ou encore des procédures de bootstrap paramétrique.
On peut aussi l’interpréter comme une mesure de second ordre de la qualité d’estimation. Le biais traite le décalage moyen entre estimateur et paramètre. La variance de l’estimateur traite la dispersion de cet estimateur entre répétitions. Ensemble, biais et variance déterminent l’erreur quadratique moyenne :
Cette décomposition explique pourquoi un estimateur légèrement biaisé peut parfois être préféré en pratique s’il gagne beaucoup en stabilité. C’est précisément l’un des débats classiques entre S² et l’estimateur MLE.
10. Références institutionnelles pour approfondir
Pour aller plus loin, voici des sources institutionnelles reconnues sur la variance, les moments et les estimateurs statistiques :
- NIST, Engineering Statistics Handbook
- Penn State University, Probability Theory
- University of California, Berkeley, Department of Statistics
11. Erreurs fréquentes à éviter
- Confondre variance observée dans un échantillon et variance de l’estimateur de variance.
- Appliquer automatiquement la formule normale 2σ⁴ / (n – 1) à des données très non normales.
- Oublier que le quatrième moment peut dominer la précision de l’estimation.
- Comparer des estimateurs uniquement sur le biais, sans regarder leur variance.
- Interpréter une faible différence numérique entre S² et l’estimateur MLE comme une équivalence théorique complète.
12. Conclusion
Le calcul de la variance de l’estimateur de variance est un outil indispensable pour évaluer la qualité d’une estimation de dispersion. Sous normalité, les formules sont simples et exactes. Hors normalité, le quatrième moment et l’excès de kurtosis deviennent décisifs. Dans tous les cas, la taille d’échantillon joue un rôle clé : plus n augmente, plus l’estimation de la variance devient stable.
En résumé, ce calculateur vous aide à passer d’une simple estimation de variance à une analyse plus professionnelle de sa précision. C’est exactement le type de raisonnement attendu dans les études sérieuses, qu’il s’agisse de recherche académique, d’analyses industrielles ou d’applications quantitatives avancées.