Calcul HI gène à 4 allèles
Calculez rapidement l’indice d’hétérozygotie attendu (HI = 1 – Σpi²) pour un locus à quatre allèles, avec visualisation graphique des fréquences, de l’homozygotie et de la diversité génétique.
Paramètres du calculateur
Résultats
Saisissez les fréquences alléliques puis cliquez sur Calculer le HI pour afficher l’hétérozygotie attendue, l’homozygotie, le nombre effectif d’allèles et une interprétation experte.
Guide expert du calcul HI gène à 4 allèles
Le calcul HI gène à 4 allèles est un outil central en génétique des populations, en biologie moléculaire, en sélection animale, en conservation des espèces et en étude de la variabilité intra-spécifique. Dans ce contexte, HI est généralement interprété comme l’hétérozygotie attendue au locus, parfois rapprochée de la diversité génétique de Nei. Pour un locus possédant quatre allèles de fréquences p1, p2, p3 et p4, la formule standard est simple : HI = 1 – (p1² + p2² + p3² + p4²). Cette quantité mesure la probabilité qu’en tirant au hasard deux copies géniques dans la population, elles soient différentes. Plus HI est élevé, plus la diversité allélique est importante.
Dans un système à quatre allèles, la valeur maximale théorique de HI est atteinte lorsque les quatre fréquences sont parfaitement équilibrées, soit 0,25 chacune. Dans ce cas, la somme des carrés vaut 4 × 0,25² = 0,25 et donc HI = 0,75. Cela signifie qu’un locus à 4 allèles ne peut jamais dépasser 0,75 d’hétérozygotie attendue dans ce cadre strict. À l’inverse, si un seul allèle domine totalement avec une fréquence de 1, la somme des carrés vaut 1 et HI = 0, ce qui traduit l’absence de diversité au locus.
À retenir : pour un gène à 4 allèles, HI varie entre 0 et 0,75. Une distribution équilibrée des fréquences augmente la diversité, tandis qu’une forte domination d’un allèle réduit l’hétérozygotie attendue.
Pourquoi le calcul HI est si utile
L’indice HI permet de comparer rapidement plusieurs populations, plusieurs loci ou plusieurs jeux de données expérimentales. Il est utilisé pour identifier des marqueurs génétiques informatifs, repérer une perte de diversité liée à la dérive génétique, mesurer l’effet d’un goulet d’étranglement démographique ou encore évaluer la qualité d’un jeu de marqueurs pour la traçabilité biologique. En pratique, dès que l’on dispose de fréquences alléliques fiables, il est possible d’obtenir une estimation de la diversité au locus.
- En conservation : un HI élevé suggère souvent une meilleure réserve de variation génétique, utile pour l’adaptation future.
- En amélioration des plantes ou des animaux : HI aide à repérer les populations ou lignées les plus diversifiées.
- En génétique médico-légale : les loci très polymorphes sont généralement plus discriminants.
- En recherche fondamentale : HI facilite la comparaison entre marqueurs SNP, microsatellites et systèmes multialléliques.
Formule détaillée pour un locus à 4 allèles
Supposons un locus avec quatre allèles A, B, C et D, de fréquences respectives pA, pB, pC et pD. Les fréquences doivent satisfaire deux conditions : chaque fréquence doit être comprise entre 0 et 1, et la somme doit être égale à 1. Le calcul se déroule en trois étapes simples :
- Élever chaque fréquence au carré : pA², pB², pC², pD².
- Faire la somme des carrés : pA² + pB² + pC² + pD².
- Soustraire cette somme à 1 : HI = 1 – Σpi².
Exemple : si les fréquences valent 0,40 ; 0,30 ; 0,20 ; 0,10, alors la somme des carrés est 0,16 + 0,09 + 0,04 + 0,01 = 0,30. Le HI est donc 1 – 0,30 = 0,70. Cette valeur est élevée, ce qui indique que la diversité du locus reste forte malgré un certain déséquilibre entre allèles.
Interprétation pratique des résultats
L’interprétation ne se résume pas à dire qu’une valeur est haute ou basse. Il faut la replacer dans le contexte biologique, l’effectif d’échantillonnage, la qualité des génotypages, la structure de la population et le type de marqueur. Toutefois, pour un gène strictement limité à quatre allèles, on peut proposer une lecture opérationnelle :
- HI inférieur à 0,30 : diversité faible, souvent liée à la domination d’un ou deux allèles.
- HI entre 0,30 et 0,60 : diversité intermédiaire, informative mais parfois déséquilibrée.
- HI supérieur à 0,60 : diversité forte, généralement compatible avec une distribution allélique relativement riche.
Il peut être utile de calculer en parallèle l’homozygotie, égale à Σpi². Cette grandeur est le complément direct de HI. Plus l’homozygotie est élevée, plus la probabilité de tirer deux copies identiques est importante. Dans le calculateur ci-dessus, les deux valeurs sont fournies ensemble car elles décrivent deux faces du même phénomène.
Nombre effectif d’allèles
Le nombre effectif d’allèles, souvent noté Ae, est aussi très instructif. Il se calcule par la formule Ae = 1 / Σpi². Il ne correspond pas simplement au nombre brut d’allèles observés, mais au nombre d’allèles équiprobables qui produiraient le même niveau de diversité. Un locus peut posséder quatre allèles observés, mais si l’un d’eux domine fortement, le nombre effectif d’allèles sera beaucoup plus faible que 4. Ainsi, Ae complète idéalement HI pour évaluer l’équilibre réel des fréquences.
| Répartition des 4 allèles | Somme des carrés Σpi² | HI = 1 – Σpi² | Nombre effectif d’allèles Ae | Lecture biologique |
|---|---|---|---|---|
| 0,25 / 0,25 / 0,25 / 0,25 | 0,25 | 0,75 | 4,00 | Diversité maximale pour 4 allèles |
| 0,40 / 0,30 / 0,20 / 0,10 | 0,30 | 0,70 | 3,33 | Diversité élevée, léger déséquilibre |
| 0,70 / 0,10 / 0,10 / 0,10 | 0,52 | 0,48 | 1,92 | Domination marquée d’un allèle |
| 1,00 / 0,00 / 0,00 / 0,00 | 1,00 | 0,00 | 1,00 | Aucune diversité au locus |
Hypothèses et limites du modèle
Le calcul du HI à partir des fréquences alléliques repose sur des hypothèses simples mais importantes. D’abord, il suppose que les fréquences sont estimées correctement à partir d’un échantillon représentatif. Ensuite, il décrit une diversité attendue au niveau du locus, sans prouver à lui seul l’équilibre de Hardy-Weinberg. Une population peut présenter un HI élevé tout en montrant une déficience d’hétérozygotes observés si elle est structurée, consanguine ou soumise à sélection. Il faut donc distinguer hétérozygotie attendue et hétérozygotie observée.
Par ailleurs, plus l’échantillon est petit, plus les fréquences estimées peuvent fluctuer. Dans les études appliquées, on compare souvent le HI entre populations avec des tailles d’échantillons similaires et on complète l’analyse par des intervalles de confiance, des tests d’équilibre ou des mesures comme FIS, FST et le PIC selon l’objectif scientifique.
Différence entre HI, He, diversité génétique de Nei et PIC
Dans de nombreux articles, HI est utilisé presque comme synonyme de He, l’hétérozygotie attendue. La diversité génique de Nei, pour un locus, correspond en pratique à la même logique de calcul : 1 – Σpi². Le PIC, ou Polymorphism Information Content, est proche mais pas identique dans les systèmes multialléliques, car il tient compte de la capacité du marqueur à être informatif dans des contextes de ségrégation. Pour un usage rapide de comparaison des fréquences alléliques à un locus à 4 allèles, HI reste l’indicateur le plus direct et le plus lisible.
| Indicateur | Formule simplifiée | Ce qu’il mesure | Usage principal |
|---|---|---|---|
| HI ou He | 1 – Σpi² | Probabilité de différence entre deux copies géniques tirées au hasard | Diversité intra-locus |
| Homozygotie | Σpi² | Probabilité de similarité entre deux copies géniques | Complément de HI |
| Ae | 1 / Σpi² | Nombre effectif d’allèles | Équilibre réel des fréquences |
| PIC | Dépend du système multiallèlique | Informativité du marqueur | Cartographie, sélection, traçabilité |
Exemple complet pas à pas
Imaginons un locus de type microsatellite dans une population avec les fréquences suivantes : A = 0,35, B = 0,30, C = 0,20, D = 0,15. On calcule d’abord les carrés : 0,1225 ; 0,0900 ; 0,0400 ; 0,0225. La somme des carrés vaut 0,2750. Le HI est donc de 0,7250. Le nombre effectif d’allèles vaut 1 / 0,2750 = 3,64. Ce locus est très polymorphe et relativement bien équilibré, bien qu’il ne soit pas au maximum théorique. Si l’on comparait ce résultat à un autre locus ayant HI = 0,42, on conclurait que le premier conserve une diversité nettement supérieure.
Erreurs fréquentes à éviter
- Confondre pourcentages et proportions sans conversion correcte.
- Oublier que les fréquences doivent totaliser 1 ou 100 %.
- Interpréter HI sans tenir compte de la taille d’échantillon.
- Comparer des loci de natures très différentes sans contexte biologique.
- Assimiler automatiquement une diversité élevée à une absence de structure populationnelle.
Conseils pour bien utiliser ce calculateur
Si vos données sont issues d’un tableur ou d’un logiciel de génotypage, vérifiez d’abord la cohérence des fréquences. Le mode exiger une somme exacte est recommandé si vous travaillez avec des valeurs déjà validées. Le mode normaliser automatiquement est utile lorsque vos valeurs résultent d’arrondis ou d’une saisie manuelle approximative. Le graphique généré vous aide à voir immédiatement si le locus est équilibré ou dominé par un allèle principal. Un locus visuellement homogène donnera généralement un HI plus élevé.
Références et sources de confiance
Pour approfondir, consultez des ressources institutionnelles et universitaires fiables : NCBI Bookshelf sur la génétique des populations, ressources universitaires LibreTexts en génétique des populations, USDA Forest Service pour la diversité génétique et la conservation.
En résumé, le calcul HI gène à 4 allèles est l’une des méthodes les plus rapides et les plus robustes pour quantifier la diversité d’un locus multiallèlique. Son intérêt tient à sa simplicité de mise en œuvre, à sa forte valeur comparative et à sa pertinence dans des domaines très variés, de la recherche académique à la conservation appliquée. Utilisé avec discernement et complété par d’autres indicateurs, il constitue une base solide pour interpréter l’architecture génétique d’une population.