Calcul de p, q et s : estimateur premium de génétique des populations

Calculez rapidement les fréquences alléliques p et q à partir des génotypes AA, Aa et aa, puis estimez le coefficient de sélection s à partir d’une fitness relative. Cet outil est conçu pour les étudiants, enseignants, biologistes, candidats aux concours et professionnels qui veulent une interprétation claire, rigoureuse et visuelle.

Nombre d’individus AA

Nombre d’individus Aa

Nombre d’individus aa

Génotype concerné par la sélection

Fitness relative w du génotype sélectionné

Base des fréquences affichées

Nom de l’échantillon

Formules utilisées : p = (2AA + Aa) / 2N ; q = (2aa + Aa) / 2N ; s = 1 – w. Avec un système bi-allélique, p + q = 1.

Guide expert du calcul de p, q et s

Le calcul de p, q et s est une base fondamentale en génétique des populations. Derrière cette notation très courte se cache un raisonnement extrêmement puissant : décrire la composition génétique d’une population, mesurer la fréquence de deux allèles, puis quantifier la force d’une pression de sélection. En pratique, p représente généralement la fréquence d’un premier allèle, souvent noté A. q représente la fréquence du second allèle, souvent noté a. Enfin, s désigne très souvent le coefficient de sélection, c’est-à-dire la perte relative de succès reproducteur d’un génotype par rapport au meilleur génotype de référence.

Si vous préparez un examen, une étude de terrain, un rapport de laboratoire ou un exercice de biostatistique, comprendre la logique de ces trois paramètres permet de passer de simples comptages génotypiques à une interprétation évolutive solide. L’intérêt de cette page n’est pas seulement de fournir un résultat numérique. Elle vise aussi à expliquer à quoi servent p, q et s, quand les employer, comment éviter les erreurs fréquentes et comment lire les résultats dans un contexte biologique réel.

1. Que signifient exactement p et q ?

Dans le cadre le plus classique, on étudie un locus avec deux allèles : A et a. Dans une population diploïde, les individus peuvent être de génotype AA, Aa ou aa. Comme chaque individu possède deux copies du locus, il faut raisonner en nombre total d’allèles et non seulement en nombre d’individus. Si la population compte N individus, alors le nombre total d’allèles observés est 2N.

p = fréquence de l’allèle A = (2 × nombre de AA + nombre de Aa) / (2N)

q = fréquence de l’allèle a = (2 × nombre de aa + nombre de Aa) / (2N)

Dans un modèle bi-allélique : p + q = 1

Cette relation est capitale. Elle signifie que si vous connaissez p, vous connaissez automatiquement q, et inversement. Par exemple, si p = 0,72, alors q = 0,28. Dans les exercices de Hardy-Weinberg, c’est cette contrainte simple qui permet de passer rapidement d’une fréquence allélique aux fréquences génotypiques attendues : p² pour AA, 2pq pour Aa et q² pour aa, à condition que les hypothèses du modèle soient raisonnablement satisfaites.

2. Que signifie s, le coefficient de sélection ?

Le coefficient de sélection s mesure la désavantage sélectif d’un génotype. Dans une écriture très courante, la fitness du meilleur génotype vaut 1. Un génotype moins performant reçoit une fitness relative w inférieure à 1, et l’on calcule alors :

s = 1 – w

Si un génotype a une fitness relative w = 0,80, alors s = 0,20. Cela signifie qu’il subit une réduction de 20 % de son succès relatif par rapport à la référence. Plus s est proche de 0, plus la sélection contre le génotype est faible. Plus s se rapproche de 1, plus la sélection est forte. Dans la littérature, on peut appliquer cette idée à un homozygote récessif, à un hétérozygote ou à un homozygote dominant selon le système étudié.

3. Pourquoi ce calcul est-il si important ?

Le couple p et q donne une photographie de la composition génétique d’une population. Le paramètre s donne une information dynamique sur l’évolution possible de cette composition sous l’effet de la sélection. Ensemble, ces variables permettent de répondre à des questions très concrètes :

Un allèle est-il rare, fréquent ou en train de se diffuser ?
Les fréquences observées sont-elles compatibles avec l’équilibre de Hardy-Weinberg ?
Un génotype subit-il une sélection négative importante ?
Quel risque relatif existe pour un phénotype récessif si q augmente ?
Comment interpréter des données de santé publique, de dépistage ou de conservation des espèces ?

4. Méthode correcte pour calculer p et q à partir des génotypes

Supposons un échantillon de 100 individus comprenant 40 AA, 45 Aa et 15 aa. Le nombre total d’allèles est 200. Le nombre d’allèles A est 2 × 40 + 45 = 125. Le nombre d’allèles a est 2 × 15 + 45 = 75. On obtient donc :

N = 40 + 45 + 15 = 100
2N = 200
p = 125 / 200 = 0,625
q = 75 / 200 = 0,375
Vérification : p + q = 1,000

Si la fitness relative du génotype aa vaut 0,80, alors s = 1 – 0,80 = 0,20. Avec cet exemple, on comprend déjà comment les trois paramètres s’articulent : p et q décrivent la population, tandis que s aide à anticiper la manière dont cette population pourrait changer au fil des générations si d’autres forces n’interviennent pas de façon dominante.

5. Erreurs fréquentes dans le calcul de p, q et s

Beaucoup d’erreurs viennent d’une confusion entre individus et allèles. On ne peut pas calculer p en divisant simplement le nombre de AA par N, car un individu AA apporte deux allèles A, alors qu’un individu Aa n’en apporte qu’un. Une autre erreur courante consiste à oublier que s se calcule à partir d’une fitness relative. Si la valeur fournie n’est pas normalisée par rapport au meilleur génotype, il faut d’abord la transformer en fitness relative avant de calculer s.

Point clé : p et q doivent toujours être compris comme des fréquences alléliques dans un modèle à deux allèles. Si vous travaillez sur plus de deux allèles, la logique change : les fréquences doivent toujours sommer à 1, mais on n’a plus seulement p et q.

6. Interprétation biologique de la valeur de q

En génétique médicale, q est souvent utilisé pour discuter de l’allèle associé à une maladie récessive. Quand l’allèle pathogène est rare, q est faible et la fréquence attendue des homozygotes atteints, q², devient encore plus faible. C’est pour cela que de nombreuses maladies autosomiques récessives restent rares à l’échelle de la population générale tout en conservant un nombre non négligeable de porteurs sains hétérozygotes, dont la fréquence est approximativement 2pq.

Cette logique est très utile en conseil génétique, en santé publique et en dépistage. Elle est aussi importante en génétique de conservation, car une baisse de la diversité peut modifier les fréquences alléliques et augmenter la probabilité d’homozygotie pour certains allèles délétères.

7. Données réelles utiles pour comprendre l’ordre de grandeur

Les tableaux suivants rassemblent des statistiques largement citées dans les ressources de santé publique et de génétique humaine. Elles permettent de comprendre comment des fréquences de portage ou d’incidence peuvent être reliées à la logique de p, q et parfois à la pression de sélection dans des contextes particuliers.

Condition génétique	Statistique rapportée	Population ou contexte	Source d’autorité
Trait drépanocytaire	Environ 1 naissance noire ou afro-américaine sur 13 présente le trait	États-Unis	CDC
Fibrose kystique	Environ 1 naissance blanche sur 2 500 à 3 500 est atteinte	États-Unis	NIH / NHGRI
Maladie de Tay-Sachs	Taux de portage d’environ 1 sur 27 dans la population juive ashkénaze	Population à risque accru	NIH / NLM

Ces chiffres montrent qu’une fréquence allélique même modeste peut avoir une signification majeure. Un allèle pathogène récessif peut rester discret chez les homozygotes tout en étant relativement présent chez les hétérozygotes. C’est justement l’intérêt du calcul de p et q : on passe d’une impression vague à une quantification exploitable.

Exemple	Statistique observée	Lecture génétique utile	Conséquence pour le calcul
Trait drépanocytaire	Fréquence de portage relativement élevée dans certaines populations	Le terme 2pq peut être substantiel même si q reste modéré	Les hétérozygotes peuvent être bien plus fréquents que les homozygotes atteints
Fibrose kystique	Incidence clinique faible comparée au portage	q² reste faible, alors que 2pq peut rester notable	Bien distinguer incidence de la maladie et fréquence des allèles
Tay-Sachs	Portage élevé dans certains groupes fondateurs	Les fréquences alléliques dépendent de l’histoire démographique	Le contexte populationnel est indispensable à l’interprétation de p et q

8. Hardy-Weinberg : le pont entre p, q et les génotypes attendus

Le modèle de Hardy-Weinberg est souvent le premier cadre où l’on rencontre le calcul de p et q. Si la population est grande, panmictique, sans mutation notable, sans migration et sans sélection différentielle, alors les fréquences génotypiques d’un locus à deux allèles devraient tendre vers :

AA : p²

Aa : 2pq

aa : q²

Ce modèle ne décrit pas parfaitement tous les systèmes réels, mais il sert de référence théorique. Quand les fréquences observées s’écartent sensiblement de p², 2pq et q², il peut exister un signal de sélection, de consanguinité, de structure de population, de migration, de dérive ou d’erreur d’échantillonnage. C’est là que s devient particulièrement intéressant : il donne une manière simple de quantifier une composante sélective d’un écart évolutif.

9. Comment lire les résultats de ce calculateur

Le calculateur de cette page vous demande trois effectifs génotypiques : AA, Aa et aa. À partir de là, il calcule N, puis les fréquences alléliques p et q. Vous pouvez ensuite choisir le génotype auquel appliquer une fitness relative w. Le système en déduit s = 1 – w. Le graphique compare visuellement les valeurs calculées et aide à repérer en un coup d’œil un allèle majoritaire, un allèle minoritaire ou une sélection potentiellement forte.

Si p est nettement supérieur à q, l’allèle A est majoritaire dans l’échantillon.
Si q augmente d’un échantillon à l’autre, l’allèle a devient plus fréquent.
Si s est proche de 0, la sélection contre le génotype étudié est faible.
Si s devient élevé, il existe une forte réduction relative de fitness.

10. Limites du calcul

Aucun calcul de p, q et s ne doit être interprété hors contexte. Les résultats dépendent de la qualité du génotypage, de la taille de l’échantillon, de la définition de la fitness et du niveau de structuration de la population. De plus, s peut varier selon le sexe, l’âge, l’environnement, les interactions géniques et l’époque d’observation. En biologie réelle, la sélection n’est pas toujours constante ni uniforme.

Le coefficient s calculé ici est donc un estimateur pédagogique clair, idéal pour l’apprentissage, les comparaisons et les premiers raisonnements. Pour des inférences évolutives avancées, on utilise souvent des modèles plus riches intégrant la dominance, la dérive génétique, la migration, des intervalles de confiance et des méthodes statistiques dédiées.

11. Ressources d’autorité pour aller plus loin

Pour approfondir le sujet avec des sources fiables, vous pouvez consulter les ressources suivantes :

12. Conclusion

Le calcul de p, q et s est l’un des socles de la génétique des populations. Il permet de relier des observations concrètes à une lecture quantitative de l’évolution. p et q résument la structure allélique d’une population. s estime l’intensité d’une sélection relative. Ensemble, ces paramètres facilitent l’analyse des maladies héréditaires, de la biologie évolutive, de la conservation, de la médecine génomique et de l’enseignement supérieur.

Si vous utilisez cet outil régulièrement, retenez une règle simple : commencez toujours par des effectifs génotypiques fiables, transformez-les correctement en fréquences alléliques, vérifiez que p + q = 1, puis n’interprétez s qu’en précisant bien la signification biologique de la fitness relative choisie. Cette discipline méthodologique fait toute la différence entre un simple chiffre et une conclusion scientifique défendable.

Calcul De P Q Et S