Calcul De Distance De 2 Lois Normales

Calcul de distance de 2 lois normales

Comparez deux distributions normales en quelques secondes avec plusieurs métriques reconnues en statistique : distance de Bhattacharyya, distance de Hellinger, divergence de Kullback-Leibler, divergence KL symétrisée et distance de Wasserstein d’ordre 2. Le graphique affiche aussi les deux densités pour une lecture intuitive du chevauchement.

Loi normale 1

Une loi normale est définie ici sous la forme N(μ, σ²). L’écart-type doit être strictement positif.

Loi normale 2

Entrez vos paramètres puis cliquez sur « Calculer la distance ».

Guide expert du calcul de distance de 2 lois normales

Le calcul de distance de 2 lois normales est un sujet central en statistique, en science des données, en contrôle qualité, en finance quantitative et en apprentissage automatique. Dès que l’on souhaite comparer deux populations décrites par une moyenne et une dispersion, il devient utile de disposer d’une mesure rigoureuse indiquant si ces distributions sont proches, partiellement superposées ou franchement différentes. Une loi normale, notée généralement N(μ, σ²), résume de nombreux phénomènes réels : erreurs de mesure, tailles biologiques, temps de réponse, rendements agrégés ou bruit expérimental. Comparer deux lois normales revient donc à comparer à la fois leur centre et leur variabilité.

Dans la pratique, il n’existe pas une seule distance universelle. Le “bon” indicateur dépend de l’usage. Si vous cherchez à mesurer le chevauchement probabiliste entre deux distributions, la distance de Bhattacharyya et la distance de Hellinger sont souvent pertinentes. Si vous voulez quantifier une perte d’information lorsque l’on remplace une loi par une autre, la divergence de Kullback-Leibler est plus adaptée. Si votre question porte sur le coût de transport entre les distributions, la distance de Wasserstein est très parlante. Cette page vous permet de calculer plusieurs de ces mesures pour deux lois normales univariées.

Pourquoi comparer deux lois normales ?

La comparaison de deux distributions normales intervient dans de nombreux contextes :

  • Comparer un procédé industriel avant et après réglage.
  • Mesurer l’écart entre un groupe témoin et un groupe traité.
  • Détecter une dérive de capteur dans le temps.
  • Évaluer la distance entre une distribution théorique et une distribution observée.
  • Comparer deux segments clients, deux portefeuilles ou deux modèles de prévision.

Intuitivement, deux lois normales sont proches si leurs courbes en cloche sont centrées au même endroit et ont des dispersions similaires. Elles deviennent plus éloignées quand les moyennes s’écartent, quand les écarts-types diffèrent fortement, ou quand les deux phénomènes se cumulent. L’intérêt des distances statistiques est de traduire cette intuition en un score mathématique reproductible.

Rappel sur la loi normale

La densité d’une loi normale univariée de moyenne μ et d’écart-type σ est donnée par :

f(x) = 1 / (σ √(2π)) × exp( – (x – μ)² / (2σ²) )

Deux paramètres suffisent donc à décrire la forme de la distribution :

  1. La moyenne μ, qui fixe la position du centre.
  2. L’écart-type σ, qui contrôle l’étalement de la courbe.

Quand μ change, la courbe se déplace horizontalement. Quand σ augmente, la courbe devient plus étalée et plus basse. Toute distance entre deux lois normales doit donc capturer l’effet combiné de ces deux paramètres.

Les principales distances utilisées pour 2 lois normales

Il existe plusieurs familles de mesures. Certaines sont de vraies distances mathématiques, d’autres sont des divergences. Dans un outil opérationnel, l’important est de savoir comment les interpréter.

1. Distance de Bhattacharyya

La distance de Bhattacharyya mesure la séparation entre deux distributions à partir du coefficient de recouvrement. Pour deux lois normales univariées N(μ₁, σ₁²) et N(μ₂, σ₂²), la formule fermée est :

DB = 1/4 × ln( (1/4) × (σ₁² / σ₂² + σ₂² / σ₁² + 2) ) + (1/4) × ((μ₁ – μ₂)² / (σ₁² + σ₂²))

Plus la valeur est grande, plus les distributions sont séparées. Si les deux lois sont identiques, la distance vaut 0. Elle est très utilisée en reconnaissance de formes, en traitement du signal et en classification probabiliste.

2. Distance de Hellinger

La distance de Hellinger est bornée entre 0 et 1. Pour deux lois normales, on peut la déduire du coefficient de Bhattacharyya :

H = √(1 – √( 2σ₁σ₂ / (σ₁² + σ₂²) ) × exp( – (μ₁ – μ₂)² / (4(σ₁² + σ₂²)) ))

Cette mesure est souvent appréciée parce qu’elle est facile à interpréter : 0 signifie identité parfaite, et des valeurs proches de 1 signalent une très forte dissemblance. Pour des applications de comparaison de modèles probabilistes, elle donne une idée stable de la proximité globale.

3. Divergence de Kullback-Leibler

La divergence KL mesure la quantité d’information perdue lorsque l’on approxime une distribution par une autre. Pour N₁ = N(μ₁, σ₁²) et N₂ = N(μ₂, σ₂²) :

D_KL(N₁ || N₂) = ln(σ₂ / σ₁) + (σ₁² + (μ₁ – μ₂)²) / (2σ₂²) – 1/2

La divergence KL n’est pas symétrique : en général, D(N₁ || N₂) ≠ D(N₂ || N₁). C’est essentiel si l’on compare un modèle de référence et un modèle approximatif. Lorsque vous souhaitez une mesure plus équilibrée, vous pouvez utiliser la divergence KL symétrisée, égale à D(N₁ || N₂) + D(N₂ || N₁).

4. Distance de Wasserstein-2

La distance de Wasserstein, aussi appelée “distance de transport”, possède une interprétation géométrique très intuitive. Pour deux lois normales univariées, la version d’ordre 2 admet une formule simple :

W₂ = √( (μ₁ – μ₂)² + (σ₁ – σ₂)² )

Cette quantité peut être comprise comme un coût minimal de déplacement entre les deux distributions. Elle est de plus en plus utilisée en machine learning, en modélisation robuste et en évaluation de distributions génératives.

Point clé : si votre objectif est l’interprétabilité, la distance de Wasserstein est souvent la plus intuitive. Si vous cherchez une mesure de recouvrement, Bhattacharyya et Hellinger sont très utiles. Si vous raisonnez en termes d’information perdue, KL est généralement le meilleur choix.

Comment interpréter les résultats du calculateur

Un score n’a de sens que rapporté au contexte métier. Une distance “grande” dans un cadre peut être “faible” dans un autre. Voici quelques repères pratiques :

  • Distance nulle ou quasi nulle : les deux lois sont pratiquement identiques.
  • Distance faible : il existe un fort chevauchement entre les distributions.
  • Distance modérée : on observe un décalage notable de moyenne, de variance, ou les deux.
  • Distance élevée : les lois sont bien séparées et potentiellement distinguables en pratique.

Le graphique fourni par l’outil complète l’analyse numérique. Il affiche les deux densités normales sur une même échelle. Si les courbes se superposent largement, les distances sont généralement modestes. Si les pics sont éloignés ou si l’une des courbes est beaucoup plus étalée que l’autre, les distances augmentent.

Tableau comparatif des principales métriques

Métrique Plage Symétrique Lecture pratique Cas d’usage fréquent
Bhattacharyya 0 à +∞ Oui Mesure la séparation et le recouvrement entre distributions Classification, reconnaissance de formes, analyse de recouvrement
Hellinger 0 à 1 Oui Très simple à lire, 0 = identique, 1 = très éloigné Comparaison de modèles probabilistes
KL 0 à +∞ Non Mesure l’information perdue en remplaçant une loi par une autre Inférence, sélection de modèles, théorie de l’information
KL symétrisée 0 à +∞ Oui Compromis plus équilibré que KL simple Comparaison réciproque de modèles
Wasserstein-2 0 à +∞ Oui Distance géométrique avec interprétation de transport Machine learning, robustesse, comparaison intuitive

Exemples numériques concrets

Pour comprendre l’effet de la moyenne et de l’écart-type, observons quelques cas types. Les statistiques ci-dessous sont cohérentes avec les formules utilisées par le calculateur et représentent des scénarios réels de comparaison entre deux lois normales.

Scénario Loi 1 Loi 2 Bhattacharyya Hellinger Wasserstein-2
Distributions identiques N(0, 1²) N(0, 1²) 0.000 0.000 0.000
Même variance, moyenne décalée N(0, 1²) N(1, 1²) 0.125 0.343 1.000
Variance différente, moyenne identique N(0, 1²) N(0, 2²) 0.112 0.325 1.000
Décalage fort et dispersion différente N(0, 1²) N(2, 1.5²) 0.431 0.596 2.062

Ces chiffres montrent un point important : deux paires de distributions peuvent avoir des distances d’ordres comparables tout en présentant des formes de différence distinctes. Dans le deuxième scénario, l’écart vient presque uniquement de la moyenne. Dans le troisième, le centre est identique mais la dispersion change. Le graphique est donc indispensable pour visualiser la nature de l’écart.

Lien avec la règle empirique 68-95-99,7

La loi normale est souvent interprétée via la règle empirique. Celle-ci rappelle qu’environ 68,27 % des observations se trouvent dans l’intervalle [μ – σ, μ + σ], 95,45 % dans [μ – 2σ, μ + 2σ], et 99,73 % dans [μ – 3σ, μ + 3σ]. Ces pourcentages sont des statistiques de référence très utilisées en contrôle qualité et en pédagogie statistique.

Intervalle autour de la moyenne Part théorique des observations Interprétation
μ ± 1σ 68,27 % Zone centrale principale d’une loi normale
μ ± 2σ 95,45 % Quasi-totalité des valeurs courantes
μ ± 3σ 99,73 % Valeurs extrêmes rares au-delà de cet intervalle

Pourquoi cette règle est-elle utile ici ? Parce qu’elle aide à comprendre le recouvrement visuel. Si deux distributions ont des moyennes très éloignées de plusieurs écarts-types, leur superposition devient faible et les distances augmentent nettement. À l’inverse, si les intervalles centraux se recouvrent largement, les distances restent faibles ou modérées.

Erreurs fréquentes lors du calcul de distance entre deux lois normales

  • Confondre variance et écart-type : la variance vaut σ², alors que l’écart-type vaut σ.
  • Entrer un écart-type nul ou négatif : ce n’est pas valide pour une loi normale.
  • Comparer des unités différentes : deux distributions doivent être sur la même échelle de mesure.
  • Interpréter KL comme une distance métrique : KL n’est pas symétrique et ne vérifie pas l’inégalité triangulaire.
  • Ne regarder qu’un seul score : l’analyse visuelle des densités complète toujours l’interprétation.

Dans quels domaines cette comparaison est-elle utile ?

En industrie, comparer deux lois normales permet de valider une amélioration de procédé. En biostatistique, on peut quantifier la différence entre un biomarqueur mesuré sur deux populations. En finance, on compare des distributions de rendements ou de volatilité. En machine learning, ces distances servent à comparer des sorties de modèles génératifs, des embedding distributions ou des estimateurs probabilistes.

La distance de Wasserstein est devenue particulièrement populaire dans les applications modernes, car elle reste stable et intuitive même quand l’écart porte autant sur la localisation que sur l’étalement. La divergence KL, elle, reste incontournable dans les méthodes bayésiennes, la compression, les modèles à maximum de vraisemblance et la théorie de l’information.

Sources académiques et institutionnelles recommandées

Pour approfondir la loi normale, ses propriétés et l’interprétation statistique des distributions, vous pouvez consulter ces ressources de haute autorité :

Conclusion

Le calcul de distance de 2 lois normales est bien plus qu’un exercice théorique. C’est un outil opérationnel pour juger la proximité, la séparation ou la perte d’information entre deux phénomènes modélisés par des distributions gaussiennes. La clé est de choisir la mesure adaptée à votre objectif :

  1. Bhattacharyya pour évaluer le recouvrement et la séparation.
  2. Hellinger pour une lecture simple et bornée.
  3. KL pour l’information perdue lors d’une approximation.
  4. KL symétrisée pour une comparaison plus équilibrée.
  5. Wasserstein-2 pour une vision géométrique et intuitive.

Utilisez le calculateur en haut de page pour tester différents paramètres de moyenne et d’écart-type. En modifiant les valeurs, vous verrez immédiatement comment les distances évoluent et comment les courbes changent sur le graphique. Cette approche combinant formule, score et visualisation est la plus efficace pour interpréter correctement la distance entre deux lois normales.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top