Calcul de l’écart interquartile sous SAS
Saisissez vos données, choisissez une définition de quartile compatible avec les pratiques SAS, puis obtenez Q1, médiane, Q3, l’écart interquartile, les bornes de Tukey et une visualisation immédiate.
Calculateur
Vous pouvez séparer les valeurs par des virgules, des espaces, des points-virgules ou des retours à la ligne.
Guide expert : comprendre le calcul de l’écart interquartile sous SAS
Le calcul de l’écart interquartile sous SAS est une opération essentielle dès que l’on souhaite résumer une distribution de manière robuste. L’écart interquartile, souvent noté IQR pour interquartile range, correspond à la différence entre le troisième quartile Q3 et le premier quartile Q1. En d’autres termes, il mesure l’étendue des 50 pour cent centraux des données. Cette statistique est particulièrement utile dans les études où les distributions sont asymétriques, contiennent des observations extrêmes, ou ne suivent pas une loi normale stricte. Dans ces contextes, l’IQR est souvent plus stable et plus pertinent que l’écart-type.
Sous SAS, la notion semble simple, mais une subtilité importante existe : les quartiles peuvent être calculés selon plusieurs définitions de quantiles. Cette différence de méthode explique pourquoi deux utilisateurs peuvent obtenir des résultats légèrement différents à partir du même jeu de données. Pour une analyse rigoureuse, il faut donc non seulement calculer Q1 et Q3, mais aussi préciser la méthode utilisée, par exemple avec les options PCTLDEF ou QNTLDEF selon la procédure SAS mobilisée.
Définition statistique fondamentale
Les quartiles découpent une série ordonnée en quatre parties. Q1 est la valeur en dessous de laquelle se trouvent environ 25 pour cent des observations. Q3 représente environ 75 pour cent des observations. L’écart interquartile s’écrit alors :
Cette statistique est au coeur du diagramme en boîte, ou boxplot. Dans cette représentation, la boîte s’étend de Q1 à Q3, la ligne centrale indique la médiane, et les moustaches s’appuient souvent sur les bornes de Tukey :
Les points au-delà de ces bornes sont fréquemment classés comme atypiques. Dans une analyse de qualité, de santé publique, de finance ou d’études de marché, ce diagnostic est précieux pour détecter des mesures anormales ou des comportements extrêmes.
Pourquoi SAS peut produire des quartiles différents
SAS propose plusieurs conventions de quantiles car il n’existe pas une seule manière universelle de positionner un percentile dans un échantillon fini. Avec de petits effectifs, les écarts de méthode sont parfois visibles. Avec de grands échantillons, les différences se réduisent, mais elles ne disparaissent pas complètement. La documentation et les bonnes pratiques recommandent donc de toujours mentionner la définition utilisée lorsqu’un résultat quartilaire est publié ou comparé à un autre logiciel.
Dans la pratique, la méthode la plus fréquemment rencontrée dans des workflows SAS est la définition PCTLDEF=5 ou QNTLDEF=5, basée sur une interpolation avec la position p(n+1). Elle est appréciée pour sa continuité et sa lisibilité. D’autres équipes préfèrent des approches plus discrètes, comme l’observation la plus proche, ou des conventions proches des hinges de Tukey, surtout dans l’enseignement de la statistique descriptive.
Comment réaliser le calcul dans SAS
Plusieurs procédures SAS permettent d’obtenir les quartiles. Les plus courantes sont PROC UNIVARIATE, PROC MEANS et PROC SUMMARY. Voici le principe général :
- Préparer une variable numérique propre, sans valeurs texte ni formats incohérents.
- Choisir la procédure adaptée au contexte d’analyse.
- Définir si nécessaire la méthode de quantiles via PCTLDEF ou QNTLDEF.
- Lire Q1 et Q3 dans la sortie, puis calculer l’IQR.
- Documenter la méthode et la taille d’échantillon.
Exemple classique dans un rapport :
Ou encore dans une logique de synthèse :
Le mot-clé qrange fournit directement l’écart interquartile. Cela dit, l’analyste expérimenté vérifie toujours la définition retenue, surtout dans un contexte réglementaire, scientifique ou multi-logiciel.
Exemple concret avec de vraies valeurs
Prenons la série suivante, proche d’un petit échantillon de durées de traitement en minutes : 12, 15, 18, 20, 21, 23, 27, 35, 41, 43. Si l’on utilise une logique d’interpolation de type SAS PCTLDEF=5, on obtient des quartiles représentatifs des positions théoriques à 25 pour cent et 75 pour cent. Le calcul donne environ :
- Q1 = 15,75
- Médiane = 22,00
- Q3 = 39,50
- IQR = 23,75
La boîte statistique couvre ici une plage assez large, ce qui traduit une dispersion notable des valeurs centrales. Si une autre convention de quartiles est retenue, le résultat change légèrement. Cette sensibilité n’est pas une erreur : elle reflète simplement la définition des quantiles appliquée au même échantillon.
| Méthode | Q1 | Médiane | Q3 | IQR | Lecture analytique |
|---|---|---|---|---|---|
| SAS PCTLDEF=5 | 15,75 | 22,00 | 39,50 | 23,75 | Version continue et très utilisée dans les rapports SAS. |
| Observation la plus proche | 18,00 | 21,00 | 35,00 | 17,00 | Méthode discrète, souvent plus intuitive mais moins lisse. |
| Hinges de Tukey | 18,00 | 22,00 | 35,00 | 17,00 | Très pratique pour expliquer le boxplot et les valeurs atypiques. |
Quand préférer l’écart interquartile à l’écart-type
Dans de nombreuses analyses appliquées, l’écart-type est pertinent si la distribution est à peu près symétrique et sans valeurs extrêmes majeures. En revanche, dès que l’on observe de l’asymétrie ou des queues lourdes, l’IQR devient une mesure de dispersion souvent plus informative. C’est le cas, par exemple, pour des revenus, des temps d’attente, des coûts de sinistres, des durées de séjour hospitalier ou des volumes de transaction.
Supposons deux distributions de temps de réponse serveur. La première est relativement régulière. La seconde contient quelques pics très élevés. Leurs médianes peuvent être proches, mais l’écart-type de la seconde explose à cause de quelques extrêmes. L’IQR, lui, reste centré sur la zone où se trouvent la moitié des observations centrales. On obtient alors un indicateur beaucoup plus robuste pour comparer le comportement typique des systèmes.
| Jeu de données | Médiane | Q1 | Q3 | IQR | Écart-type approximatif | Conclusion |
|---|---|---|---|---|---|---|
| Réponses API stables | 102 ms | 95 ms | 110 ms | 15 ms | 12 ms | Faible dispersion centrale et faible variabilité globale. |
| Réponses API avec pics de latence | 104 ms | 96 ms | 113 ms | 17 ms | 88 ms | La médiane et l’IQR restent lisibles malgré de fortes valeurs extrêmes. |
Bonnes pratiques pour un calcul fiable sous SAS
1. Nettoyer les données avant toute chose
Les quartiles ne corrigent pas les erreurs de saisie. Une valeur 9999 saisie par erreur peut être interprétée comme une mesure réelle. Avant de lancer un calcul sous SAS, il faut vérifier les valeurs manquantes, les unités, les doublons problématiques et les règles métier. Une étape simple de validation descriptive peut éviter des interprétations erronées.
2. Toujours documenter la méthode de quantile
Dans un mémoire, un audit, un rapport réglementaire ou une publication scientifique, écrire seulement “IQR = 23,75” est insuffisant si la méthode n’est pas indiquée. Il faut préciser la procédure SAS et l’option de quantile. Cette habitude améliore la reproductibilité et évite les conflits lors des comparaisons avec R, Python, Excel ou SPSS.
3. Associer l’IQR à la médiane
L’IQR seul mesure la dispersion centrale, mais ne dit rien du niveau général des données. Le duo médiane + IQR est souvent beaucoup plus interprétable. En santé, par exemple, indiquer “médiane 22 jours, IQR 14 à 31 jours” décrit rapidement la position centrale et l’étalement principal.
4. Examiner les valeurs atypiques
Une valeur atypique n’est pas automatiquement une erreur. Elle peut correspondre à un cas exceptionnel mais réel, à un sous-groupe ignoré, ou à une rupture de processus. L’IQR et les bornes de Tukey servent d’alerte descriptive, pas de preuve définitive d’anomalie. L’analyse de contexte reste indispensable.
Différence entre PROC UNIVARIATE, PROC MEANS et PROC SUMMARY
PROC UNIVARIATE offre une description très complète de la distribution, y compris les quantiles, les tests de normalité et les graphes. PROC MEANS est souvent plus rapide pour produire des indicateurs de synthèse standards dans des tableaux de reporting. PROC SUMMARY est très utile dans des flux de production où l’on souhaite créer des tables de résultats sans impression systématique. Pour un calcul simple de l’écart interquartile, les trois approches peuvent convenir, mais le choix dépend du volume de données et du type de restitution attendu.
Interpréter l’IQR dans les analyses métiers
En finance, un IQR élevé sur les montants de transaction peut signaler une clientèle hétérogène ou des comportements irréguliers. En contrôle qualité, un IQR qui augmente au fil des semaines peut révéler une dérive du procédé. En ressources humaines, l’IQR des salaires aide à décrire la dispersion de la rémunération dans une équipe sans se laisser dominer par quelques très hauts revenus. En santé publique, l’IQR des durées d’hospitalisation est souvent plus informatif que la moyenne lorsqu’une minorité de séjours est très longue.
Ressources d’autorité pour approfondir
Pour consolider votre compréhension des quartiles, des boxplots et de l’interprétation des percentiles, vous pouvez consulter ces sources académiques et institutionnelles :
- NIST Handbook of Statistical Methods – Boxplots and quartile interpretation
- Penn State University – Quartiles and the interquartile range
- CDC – Descriptive statistics and interpretation of distribution spread
En résumé
Le calcul de l’écart interquartile sous SAS est une opération simple en apparence, mais techniquement riche dès qu’il faut garantir la comparabilité des résultats. La formule IQR = Q3 – Q1 reste la même, mais les quartiles dépendent de la convention de quantile retenue. Dans une démarche professionnelle, il faut choisir la méthode, la documenter, associer l’IQR à la médiane et examiner les valeurs atypiques dans leur contexte métier. Utilisé correctement, l’IQR est l’un des meilleurs outils de statistique descriptive robuste pour résumer une distribution réelle.