Calcul du C-index
Calculez rapidement l’indice de concordance d’un modèle prédictif à partir des paires concordantes, discordantes et à risque ex-aequo. Cet outil est utile en biostatistique, en analyse de survie et en validation de modèles pronostiques.
Guide expert du calcul du C-index
Le C-index, ou indice de concordance, est l’un des indicateurs les plus utilisés pour évaluer la capacité discriminante d’un modèle prédictif. En termes simples, il mesure la probabilité qu’un modèle attribue un risque plus élevé au sujet qui présente l’événement plus tôt, ou qu’il classe correctement deux observations comparables. Il est très répandu en analyse de survie, en recherche clinique, en épidémiologie et de plus en plus dans les systèmes de scoring en intelligence artificielle appliqués à la santé.
Quand on parle de « calcul du C-index », on se réfère souvent à la version de Harrell, particulièrement fréquente pour les données censurées. Le principe fondamental est intuitif : on examine toutes les paires comparables d’individus. Si le modèle ordonne correctement une paire, elle est dite concordante. Si l’ordre est incorrect, elle est discordante. Si les deux individus ont exactement le même score de risque, la paire est généralement comptée à moitié dans le numérateur. Le résultat final varie de 0,5 pour un modèle sans pouvoir discriminant à 1,0 pour un modèle parfait. Une valeur inférieure à 0,5 peut révéler un problème majeur de codage, une inversion de la direction du risque, ou un modèle réellement contre-performant.
Formule du C-index
Dans sa forme la plus courante, lorsque vous disposez déjà du décompte des paires, la formule est :
Avec :
- Paires concordantes : le modèle classe correctement la paire.
- Paires discordantes : le modèle classe la paire dans le mauvais ordre.
- Paires ex-aequo : les sujets ont un score prédictif identique.
- Paires comparables : somme des paires concordantes, discordantes et ex-aequo, hors paires non comparables.
Dans la pratique, cette mesure est l’équivalent conceptuel d’une généralisation de l’aire sous la courbe ROC dans certains contextes, mais adaptée aux situations où le temps jusqu’à l’événement et la censure jouent un rôle crucial. Pour cette raison, le C-index est souvent préféré lorsqu’on veut évaluer des modèles de survie comme le modèle de Cox.
Comment interpréter un C-index
L’interprétation n’est jamais purement mécanique, car elle dépend du domaine, de la complexité de la population étudiée et de l’objectif clinique. Cependant, des repères pratiques existent. Un C-index proche de 0,50 traduit une discrimination à peine meilleure que le hasard. Entre 0,60 et 0,70, le modèle est souvent considéré comme modeste. Entre 0,70 et 0,80, la discrimination est jugée utile ou bonne selon le contexte. Au-dessus de 0,80, on parle généralement d’excellente discrimination, même si la calibration doit aussi être vérifiée avant toute application décisionnelle.
| Niveau de C-index | Interprétation générale | Lecture pratique |
|---|---|---|
| 0,50 à 0,59 | Très faible discrimination | Le modèle ordonne à peine mieux que le hasard les paires comparables. |
| 0,60 à 0,69 | Discrimination modeste | Utilisable pour de la recherche exploratoire, mais souvent insuffisant pour la décision clinique individuelle. |
| 0,70 à 0,79 | Bonne discrimination | Le modèle distingue correctement une majorité nette des paires comparables. |
| 0,80 à 0,89 | Très bonne à excellente | Performance discriminante élevée, sous réserve d’une calibration et d’une validation externe satisfaisantes. |
| 0,90 et plus | Exceptionnelle, parfois suspecte | Peut refléter un signal très fort, mais impose de vérifier un possible surapprentissage ou une fuite d’information. |
Exemple de calcul pas à pas
Imaginons un modèle pronostique évalué sur un ensemble de patients. Après comparaison des paires admissibles, on obtient :
- 1 200 paires concordantes
- 450 paires discordantes
- 80 paires à score identique
Le nombre total de paires comparables vaut donc 1 730. Le calcul devient :
C-index = (1 200 + 0,5 × 80) / 1 730 = 1 240 / 1 730 = 0,7168
On peut l’exprimer sous forme décimale, 0,717, ou sous forme pourcentage, 71,68 %. Cela signifie que le modèle classe correctement environ 72 % des paires comparables, en tenant compte des ex-aequo comme demi-crédits.
Pourquoi le C-index est si utile en analyse de survie
En présence de censure, l’évaluation d’un modèle devient plus complexe qu’en classification binaire simple. Tous les patients n’ont pas forcément présenté l’événement avant la fin du suivi, et certaines comparaisons entre sujets ne sont donc pas valides. Le C-index répond bien à ce besoin, car il se concentre sur les paires réellement comparables. C’est précisément cette propriété qui explique son succès en oncologie, en cardiologie, en néphrologie et dans l’évaluation des scores pronostiques hospitaliers.
Il faut toutefois garder à l’esprit que le C-index ne mesure pas tout. Un modèle peut avoir une bonne discrimination, donc un C-index élevé, tout en étant mal calibré. Par exemple, il peut correctement ordonner les patients du plus à risque au moins à risque, mais surestimer fortement les probabilités absolues. Dans ce cas, il est utile de compléter l’évaluation par des graphiques de calibration, le Brier score, une validation bootstrap ou une validation externe sur une cohorte indépendante.
Différence entre C-index, AUC et calibration
Le C-index ressemble beaucoup à l’AUC lorsqu’on travaille sur des données sans dimension temporelle ou sur des résultats binaires. Dans certains cas simples, les deux mesures peuvent même être très proches. Cependant, le C-index est plus naturel pour les modèles de survie, car il traite explicitement l’ordre des événements et les comparaisons admissibles. La calibration, quant à elle, répond à une autre question : non pas si le classement est bon, mais si les probabilités prévues correspondent aux fréquences observées.
- Discrimination : le modèle classe-t-il correctement les sujets ?
- Calibration : les probabilités prédites sont-elles réalistes ?
- Utilité clinique : le modèle améliore-t-il la décision ?
Un bon rapport d’évaluation doit couvrir ces trois dimensions. Se reposer uniquement sur le C-index est pratique, mais insuffisant dans un contexte réglementaire, académique ou clinique exigeant.
Statistiques de comparaison issues de modèles publiés
Le tableau suivant résume des ordres de grandeur souvent rapportés dans la littérature pour des modèles connus. Ces chiffres peuvent varier selon la cohorte, la méthode de validation, la définition de l’événement et le sous-groupe étudié, mais ils donnent un point de repère concret sur ce que représente un « bon » C-index dans des environnements réels.
| Modèle / domaine | Discrimination rapportée | Lecture |
|---|---|---|
| Framingham Risk Score, risque cardiovasculaire | Environ 0,74 à 0,79 selon populations et versions | Bon niveau de discrimination pour un score clinique historique, mais variable selon l’âge, le sexe et la cohorte de validation. |
| Pooled Cohort Equations, prévention cardiovasculaire | Environ 0,71 à 0,82 selon les études de validation | Performance correcte à bonne, avec débats fréquents sur la calibration dans certains groupes. |
| Modèles oncologiques pronostiques de survie | Souvent 0,65 à 0,80 en validation externe | Les modèles de survie réels dépassent rarement durablement 0,85 sur des cohortes indépendantes sans simplification importante du problème. |
| EuroSCORE II, chirurgie cardiaque | Environ 0,80 à 0,85 dans de nombreuses validations | Exemple de score clinique à forte valeur discriminante, tout en nécessitant une vérification continue de calibration locale. |
La leçon importante est la suivante : un C-index de 0,72 peut déjà être très crédible dans un environnement clinique complexe. À l’inverse, un score de 0,95 peut sembler impressionnant, mais il doit immédiatement conduire à s’interroger sur la qualité de la validation, la taille de l’échantillon, l’existence d’une fuite d’information ou d’un surapprentissage.
Erreurs fréquentes lors du calcul du C-index
- Inclure des paires non comparables : cela biaise le résultat, surtout avec une forte censure.
- Confondre ex-aequo sur le score et ex-aequo sur le temps : la gestion des égalités dépend de la méthode.
- Inverser le sens du risque : si un score élevé signifie faible risque, il faut l’indiquer correctement dans le calcul.
- Comparer des cohortes hétérogènes sans validation externe : un C-index peut chuter fortement hors de l’échantillon de développement.
- Négliger l’incertitude : un bon rapport doit idéalement fournir un intervalle de confiance.
Quand utiliser cet outil de calcul
Le calculateur ci-dessus est particulièrement utile lorsque vous disposez déjà des comptes agrégés de paires concordantes, discordantes et ex-aequo. C’est fréquent lors de travaux de validation, de synthèses méthodologiques ou de vérifications rapides à partir de sorties logicielles produites par R, Python, SAS, Stata ou SPSS. Il offre une lecture immédiate de la performance discriminante et un graphique visuel permettant de comprendre la structure des comparaisons.
En revanche, si vous partez de données individuelles brutes avec temps de suivi, statut de censure et score pronostique, le décompte des paires doit être obtenu en amont via une méthode conforme au type de C-index choisi. Dans les études avancées, on peut préférer des variantes plus robustes, par exemple l’indice de Uno lorsque la censure est importante.
Bonnes pratiques pour une interprétation rigoureuse
- Rapporter la méthode exacte utilisée pour le calcul du C-index.
- Indiquer le traitement des paires ex-aequo et des observations censurées.
- Présenter l’échantillon de développement et l’échantillon de validation séparément.
- Accompagner le C-index d’un intervalle de confiance ou d’une procédure de bootstrap.
- Compléter par des mesures de calibration et, si possible, d’utilité clinique.
En contexte académique, les lecteurs les plus exigeants attendent souvent une transparence complète sur la préparation des données, la définition de l’événement et la gestion des pertes de suivi. Le C-index est un excellent indicateur, mais il doit être replacé dans une stratégie d’évaluation globale.
Sources utiles et références d’autorité
Pour approfondir le sujet, voici quelques ressources institutionnelles et académiques de qualité :
- National Cancer Institute (.gov) – définition de la concordance statistic
- National Library of Medicine / NIH (.gov) – article méthodologique sur le C-index et ses limites
- Stanford University (.edu) – notes de cours sur l’analyse de survie
Conclusion
Le calcul du C-index est essentiel dès qu’on veut mesurer la capacité d’un modèle à ordonner correctement le risque. Sa force réside dans sa simplicité d’interprétation et sa pertinence pour les données de survie. Utilisé correctement, il permet de comparer des modèles, de valider un score pronostique et de documenter la qualité d’un algorithme de prédiction. Le meilleur usage consiste toutefois à l’intégrer dans une évaluation plus large, incluant la calibration, la validation externe et l’analyse de la pertinence clinique réelle.