Informations

Probabilités dans le calcul du coefficient de parenté

Probabilités dans le calcul du coefficient de parenté


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'ai lu pour essayer de comprendre comment le coefficient de parenté (ou coefficient d'ascendance) est calculé. https://brainder.org/2015/06/13/genetic-resemblance-between-relatives/ c'est la meilleure explication que j'ai pu trouver jusqu'à présent. Cependant, je n'ai pas été en mesure de trouver une explication qui fasse une distinction claire entre les gènes et les allèles.

Dans ma lecture initiale de ce qui précède, j'ai pris en compte ce fait et j'ai supposé que souvent, lorsque l'auteur a écrit gène, il / elle voulait dire allèle (une hypothèse que je pense maintenant incorrecte), et donc que l'identité par descendance d'un seul allèle entre individus serait suffire à satisfaire la parenté dans le cadre de la définition du coefficient de parenté. Cela m'a amené à la confusion en lisant le coefficient de parenté tel que défini mathématiquement à partir des coefficients d'identité condensés :

D1 + 1/2(D3+D5+D7) + 1/4(D8)

Assurément, pensai-je, le coefficient de parenté devrait simplement être la somme des probabilités de toutes les façons possibles dont les deux individus peuvent partager le même allèle. Et donc il n'y a aucune raison de multiplier la somme de D3, D5 et D7 par 1/2 et D8 par 1/4.

Enfin à ma question; Le coefficient de parenté est défini comme la probabilité que deux individus soient identiques par descendance à un seul gène choisi au hasard. En se souvenant de cela, c'est la raison pour laquelle il est calculé de cette manière car pour que le gène entre les individus soit totalement identique dans le cas de D3, D5 et D7, un allèle identique supplémentaire est requis d'un parent (un événement avec une probabilité de 1/2), et dans le cas de D8, des allèles identiques supplémentaires sont requis des deux parents (un événement avec une probabilité de 1/4) ?

Je serais très reconnaissant si quelqu'un pouvait m'expliquer pourquoi il est calculé de cette manière.


Estimation FST et parenté pour des structures de population arbitraires

Affiliations Duke Center for Statistical Genetics and Genomics, Duke University, Durham, Caroline du Nord, États-Unis d'Amérique, Département de biostatistique et de bioinformatique, Duke University, Durham, Caroline du Nord, États-Unis d'Amérique

Rôles Conceptualisation, Analyse formelle, Acquisition de financement, Enquête, Méthodologie, Rédaction – ébauche originale, Rédaction – révision et édition

Affiliation Lewis-Sigler Institute for Integrative Genomics, Université de Princeton, Princeton, New Jersey, États-Unis d'Amérique


Inférence relationnelle à partir des données génétiques sur les parents ou la progéniture : une étude comparative

L'inférence de relations dans une population présente un intérêt pour de nombreux domaines de recherche, de l'anthropologie à la génétique. Il est possible de déduire directement la relation entre les deux individus d'un couple à partir de leurs données génétiques ou de la déduire indirectement à partir des données génétiques d'un de leurs descendants. Pour cette raison, on peut se demander s'il est plus avantageux d'échantillonner des couples ou des célibataires pour étudier les relations de couples dans une population. En effet, l'échantillonnage de deux individus est plus informatif que l'échantillonnage d'un seul car nous examinons quatre haplotypes au lieu de deux, mais cela double également le coût de l'étude et constitue un schéma d'échantillonnage plus complexe.

Pour répondre à cette question, nous avons effectué des simulations de 1000 trios de 10 relations différentes en utilisant de vrais haplotypes humains pour avoir des données génétiques réalistes à l'échelle du génome. Ensuite, nous avons comparé les coefficients de partage du génome et l'inférence de relation obtenue à partir d'une paire d'individus ou d'un de leurs descendants en utilisant à la fois des approches à point unique et à points multiples.

Nous avons observé que pour les relations plus proches que le 1er cousin, les paires d'individus étaient plus informatives que l'un de leurs descendants pour l'inférence de relation, et les coefficients de parenté obtenus à partir de méthodes à point unique donnaient des estimations de partage du génome plus précises ou équivalentes. Pour les relations plus éloignées, la progéniture était plus informative pour l'inférence de relations, et les coefficients de consanguinité obtenus à partir de méthodes multipoints ont donné des estimations plus précises du partage du génome.

En conclusion, l'inférence relationnelle sur un couple parental ou sur l'un de leurs descendants apporte des informations complémentaires. Lorsque cela est possible, les trios d'échantillonnage doivent être encouragés car ils pourraient permettre de couvrir un plus large éventail de relations potentielles.


Formules de comptage de chemins pour les coefficients de parenté généralisés et les coefficients d'identité condensés.

Avec l'expansion rapide du domaine de la génétique médicale et du conseil génétique, les informations généalogiques deviennent de plus en plus abondantes. En janvier 2009, le département américain de la Santé et des Services sociaux a publié une version mise à jour et améliorée de l'outil Web d'historique de santé familiale du Surgeon General [1]. Cet outil Web permet aux utilisateurs d'enregistrer facilement les antécédents médicaux de leur famille. Les grands pedigrees humains étendus sont très instructifs pour l'analyse de liaison. Des pedigrees comprenant des milliers de membres sur 10 à 20 générations sont disponibles à partir de populations génétiquement isolées [2, 3]. En génétique humaine, un pedigree est défini comme « un diagramme simplifié de la généalogie d'une famille qui montre les relations des membres de la famille les uns avec les autres et comment un trait, une anomalie ou une maladie spécifique a été hérité » [4]. Les pedigrees sont utilisés pour retracer l'hérédité d'une maladie spécifique, calculer les ratios de risque génétique, identifier les individus à risque et faciliter le conseil génétique. Pour calculer les ratios de risque génétique ou identifier les individus à risque, nous devons évaluer le degré de parenté de deux individus. En fait, toutes les mesures de parenté sont basées sur le concept d'identité par filiation (IBD). Deux allèles sont identiques par descendance si l'un est une copie ancestrale de l'autre ou s'ils sont tous deux des copies du même allèle ancestral. Le concept IBD est principalement dû à Cotterman [5] et Malecot [6] et a été appliqué avec succès à de nombreux problèmes de génétique des populations.

La mesure la plus simple de la relation entre deux individus est leur coefficient de parenté. Le coefficient de parenté entre deux individus i et j est la probabilité qu'un allèle choisi au hasard parmi i et un allèle choisi au hasard dans le même locus autosomique de j soient identiques par filiation. Pour mieux discriminer entre les différents types de paires de parents, des coefficients d'identité ont été introduits par Gillois [7] et Harris [8] et promulgués par Jacquard [9]. Considérant les quatre allèles de deux individus à un locus autosomique fixe, il y a 15 états d'identité possibles. Sans tenir compte de la distinction entre les allèles d'origine maternelle et paternelle, nous obtenons 9 états d'identité condensés. Les probabilités associées à chaque état d'identité condensé sont appelées coefficients d'identité condensés, qui sont utiles dans un large éventail de domaines. Cela comprend le calcul des rapports de risque pour la maladie qualitative, l'analyse des traits quantitatifs et le conseil génétique en médecine.

Un algorithme récursif de calcul de coefficients d'identité condensés proposé par Karigl [10] est connu depuis un certain temps. Cette méthode nécessite que l'on calcule un ensemble de coefficients de parenté généralisés, à partir desquels on obtient des coefficients d'identité condensés via une transformation linéaire. Une limitation est que cette approche récursive n'est pas évolutive lorsqu'elle est appliquée à de très grands pedigrees. Il a été précédemment montré que les coefficients de parenté pour deux individus 11-13] et les coefficients de parenté généralisés pour trois individus [14, 15] peuvent être calculés efficacement en utilisant des formules de comptage de chemins ainsi que des schémas de codage de chemins adaptés aux graphes généalogiques.

Motivés par l'efficacité des formules de comptage de chemins pour calculer le coefficient de parenté pour deux individus et le coefficient de parenté généralisé pour trois individus, nous introduisons d'abord un cadre pour développer des formules de comptage de chemins pour calculer les coefficients de parenté généralisés concernant trois individus, quatre individus, et deux paires d'individus. Ensuite, nous présentons des formules de comptage de chemins pour tous les coefficients de parenté généralisés qui ont des formules récursives proposées par Karigl [10] et sont suffisantes pour calculer des coefficients d'identité condensés. En résumé, notre objectif ultime est d'utiliser des formules de comptage de chemins pour le calcul généralisé des coefficients de parenté afin que l'efficacité et l'évolutivité du calcul des coefficients d'identité condensés puissent être améliorées.

Les principaux apports de notre travail sont les suivants :

(i) un cadre pour développer des formules de comptage de chemins pour les coefficients de parenté généralisés

(ii) un ensemble de formules de comptage de chemins pour tous les coefficients de parenté généralisés ayant des formules récursives [10]

(iii) des résultats expérimentaux démontrant des gains de performances significatifs pour le calcul des coefficients d'identité condensés basés sur nos formules de comptage de chemin proposées par rapport à l'utilisation de formules récursives [10].

Cette section décrit les coefficients de parenté et les coefficients de parenté généralisés, les coefficients d'identité et les coefficients d'identité condensés plus en détail. Les termes conceptuels des formules de dénombrement des chemins pour trois et quatre individus sont présentés à la section 2.3. De plus, une vue d'ensemble de la dérivation de la formule de comptage de chemins est présentée.

2.1. Coefficients de parenté et coefficients de parenté généralisés. Le coefficient de parenté entre deux individus a et h est la probabilité qu'un allèle choisi au hasard au même locus de chacun soit identique par filiation (IBD). Il existe deux approches pour calculer le coefficient de parenté [[PHI].sub.ab] : l'approche récursive [10] et l'approche de comptage de chemin [16]. Les formules récursives [10] pour [[PHI].sub.ab] et [[PHI].sub.ab] sont

[[PHI].sub.ab] = 1/2([[PHI].sub.fb] + [[PHI].sub.mb]) si a n'est pas un ancêtre de b, [[PHI].sub. aa] = 1/2 (1 + [[PHI].sub.fm]) = 2 1/2 (1 + [F.sub.a]), (1)

où f et m désignent respectivement le père et la mère de a, et [F.sub.a] est le coefficient de consanguinité de a.

La formule de comptage de chemin de Wright [16] pour [[PHI].sub.ab] est

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], (2)

où A est un ancêtre commun de a et b, PP est un ensemble de paires de chemins non chevauchants [??][P.sub.Aa], [P.sub.Aa][??] de A à a et b, r est la longueur du chemin [P.sub.Aa], s est la longueur du chemin [P.sub.Ab], et [F.sub.A] est le coefficient de consanguinité de A. Le chemin- paire [??][P.sub.Aa], [P.sub.Ab][??] ne se chevauchent pas si et seulement si les deux chemins ne partagent aucun individu commun, sauf A.

Les formules récursives proposées par Karigl [10] pour les coefficients de parenté généralisés concernant trois individus, quatre individus et deux paires d'individus sont répertoriées comme suit en (3), (4) et (5) :

[[PHI].sub.abc] = 1/2 + ([[PHI].sub.fbc] + [[PHI].sub.mbc]) si a n'est pas un ancêtre de b ou c,

[[PHI].sub.aab] = 1/2 ([[PHI].sub.ab] + [[PHI].sub.fmb])

si a n'est pas un ancêtre de b,

[[PHI].sub.aaa] = 1/4 (1 + 3[[PHI].sub.fm]) = 1/4 (1 + 3[F.sub.a]) > [[PHI].sub .abcd] = 1/2 ([[PHI].sub.fbcd] + [[PHI].sub.mbcd]) (3)

si a n'est pas un ancêtre de b ou c ou d,

[[PHI].sub.aabc] = 1/2 ([[PHI].sub.abc] + [[PHI].sub.fmbc])

si a n'est pas un ancêtre de b ou c,

[[PHI].sub.aaab] = 1/4 ([[PHI].sub.ab] + 3[[PHI].sub.fmb])

si a n'est pas un ancêtre de b,

[[PHI].sub.aaaa] = 1/8 (1 + 7[[PHI].sub.fm]) = 1/8 (1 + 7[F.sub.a]), (4)

[[PHI].sub.ab,cd] = 1/2 ([[PHI].sub.fb,cd] + [[PHI].sub.mb,cd])

si a n'est pas un ancêtre de b ou c ou d,

[[PHI].sub.aa,bc] = 1/2 ([[PHI].sub.bc] + [[PHI].sub.fm,bc])

si a n'est pas un ancêtre de b ou c,

[[PHI].sub.aa,ac] = 1/2 ([[PHI].sub.abc] + [[PHI].sub.fb,mc] + [[PHI].sub.mb,fc])

si a n'est pas un ancêtre de b ou c,

[[PHI].sub.aa,ab] = 2 ([[PHI].sub.ab] + [[PHI].sub.fmb])

si a n'est pas un ancêtre de b,

[[PHI].sub.aa,aa] = 4 (l + [[PHI].sub.fm]) = 1/4 (1 + 3[F.sub.a]). (5)

[[PHI].sub.abc] est la probabilité que des allèles choisis au hasard au même locus de chacun des trois individus (c'est-à-dire a, b et c) soient identiques par descendance (IBD). De même, [[PHI].sub.abcd] est la probabilité que des allèles choisis au hasard au même locus de chacun des quatre individus (c'est-à-dire a, b, c et d) soient IBD. [[PHI].sub.ab,cd] est la probabilité qu'un allèle aléatoire de a soit IBD avec un allèle aléatoire de b et qu'un allèle aléatoire de c soit IBD avec un allèle aléatoire de d au même locus. Notez que [[PHI].sub.abc] = 0 s'il n'y a pas d'ancêtre commun à a, b et c. [[PHI].sub.abcd] = 0 s'il n'y a pas d'ancêtre commun de a, b, c et d, et [[PHI].sub.ab,cd] = 0 en l'absence d'ancêtre commun soit pour a et b ou pour c et d.

2.2. Coefficients d'identité et coefficients d'identité condensés. Étant donné deux individus a et b avec des allèles d'origine maternelle et paternelle à un locus autosomique fixe, il y a 15 états d'identité possibles, et les probabilités associées à chaque état d'identité sont appelées coefficients d'identité. Ignorant la distinction entre les allèles d'origine maternelle et paternelle, nous classons les 15 états possibles en 9 états d'identité condensés, comme le montre la figure 1. Les états vont de l'état 1, dans lequel les quatre allèles sont IBD, à l'état 9, dans lequel aucun des quatre allèles sont IBD. Les probabilités associées à chaque état d'identité condensé sont appelées coefficients d'identité condensés, notés <[DELTA].sub.i] | 1 [inférieur ou égal à] i [inférieur ou égal à] 9>. Les coefficients d'identité condensés peuvent être calculés sur la base de coefficients de parenté généralisés en utilisant la transformation linéaire illustrée comme suit en (6) :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII]. (6)

Dans notre travail, nous nous concentrons sur la dérivation des formules de comptage de chemins pour les coefficients de parenté généralisés, y compris [[PHI].sub.abc], [[PHI].sub.abcd] et [[PHI].sub.ab, CD].

2.3. Termes définis pour les formules de comptage de chemins pour trois et quatre personnes

(1) Ancêtre triple commun. Étant donné trois individus a, b et c, si A est un ancêtre commun des trois individus, alors nous appelons A un ancêtre triple-commun de a, b et c.

(2) Ancêtre Quad-Common. Étant donné quatre individus a, b, c et d, si A est un ancêtre commun des quatre individus, alors nous appelons A un ancêtre quad-commun de a, b, c et d.

(3) P(A, a). Il désigne l'ensemble de tous les chemins possibles de A à a, où les chemins ne peuvent traverser que des arêtes dans la direction du parent à l'enfant de telle sorte que P(A, a) [pas égal à] NULL si et seulement si A est un ancêtre de une. [P.sub.Aa] désigne un chemin particulier de A à a, où [P.sub.Aa] e P(A, a).

(4) Paire de chemins. Il se compose de deux chemins, notés [??][P.sub.Aa], [P.sub.Ab][??], où [P.sub.Aa] [membre de] P(A, a) et [P.sub.Ab] [membre de] P(A, b).

(5) Paire de chemins sans chevauchement. Étant donné une paire de chemins [??][P.sub.Aa], [P.sub.Ab][??], il n'y a pas chevauchement si et seulement si les deux chemins ne partagent aucun individu commun, sauf A.

(6) Chemin-Triple. Il se compose de trois chemins, notés [??][P.sub.Aa], [P.sub.Ab] [P.sub.Ab][??], où [P.sub.Aa] [membre de ] P(A, a), [P.sub.Ab] [membre de] P(A, b) et [P.sub.Ac] [membre de] P(A, c).

(7) Chemin-Quad. Il se compose de quatre chemins, notés [??][P.sub.Ab], [P.sub.Ab], [P.sub.Ac][??], [P.sub.Aa]>, où [P.sub.Aa] [membre de] P(A, a), [P.sub.Ab] [membre de] P(A, b), [P.sub.Ac] [membre de] P(A , c) et [P.sub.Ac] [membre de] P(A, d).

(8) BLC ([P.sub.Aa], [P.sub.Ab]). Il désigne tous les individus communs partagés entre [P.sub.Aa] et [P.sub.Ab], sauf A.

(9) TrLC ([P.sub.Aa], [P.sub.Ab], [P.sub.Ac]). Il désigne tous les individus communs partagés entre [P.sub.Aa], [P.sub.Ab] et [P.sub.Ac], à l'exception de A.

(10) Quad_C([P.sub.Aa], [P.sub.Ab], [P.sub.Ac], [P.sub.Ad]). Il désigne tous les individus communs partagés entre [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] et [P.sub.Ad], à l'exception de A.

(11) Croisement et 2-Chevauchement Individuel. Si se BLC([P.sub.Aa], [P.sub.Ab]), on appelle sa crossover individu par rapport à [P.sub.Aa] et [P.sub.Ab] si les deux chemins passent par différents parents de l'art. D'un autre côté, si [P.sub.Aa] et [P.sub.Ab] passent par le même parent de s, alors nous appelons sa 2-chevauchement individu par rapport à [P.sub.Aa] et [P .sub.Ab].

(12) 3-Chevauchement individuel. Si s [membre de] Tri_C([P.sub.Aa], [P.sub.Ab], [P.sub.Ac]) et les trois chemins [P.sub.Aa], [P.sub.Ab ], et [P.sub.Ac] passent par le même parent de s, alors nous appelons sa 3-chevauchement individu par rapport à [P.sub.Aa], [P.sub.Ab] et [P.sub .Ac].

(13) 2-Chemin de chevauchement. Si s est un individu à double chevauchement par rapport à [P.sub.Aa] et [P.sub.Ab], alors [P.sub.Aa] et [P.sub.Ab] passent par le même parent de s, noté p, et le bord de p à s est appelé bord de chevauchement. Tous les bords de chevauchement consécutifs constituent un chemin et ce chemin est appelé un chemin à 2 chevauchements. Si le chemin à 2 chevauchements s'étend jusqu'à l'ancêtre A, nous l'appelons un chemin à 2 chevauchements racine.

(14) Chemin à 3 chevauchements. Il se compose de tous les individus à 3 chevauchements dans un ordre consécutif. Si le chemin à 3 chevauchements s'étend jusqu'à la racine A, nous l'appelons un chemin à 3 chevauchements à la racine.

Exemple 1. Considérez les paires de chemins de A à a et h sur la figure 2, où A est un ancêtre commun de a et h. Pour pathpai[R.sub.1], BLC([P.sub.Aa], [P.sub.Ab]) = , et A [flèche droite] s [flèche droite] e [flèche droite] t est un chemin racine 2-chevauchement par rapport à [P.sub.Aa] et [P.sub.Ab]. Pour path-pair4, Bi_C([P.sub.Aa], [P.sub.Ab]) = , où e est un individu croisé t est un individu à 2 chevauchements par rapport à [P.sub.Aa] et [P.sub.Ab], et e [flèche droite] t est un chemin racine à 2 chevauchements par rapport à [P.sub.Aa] et [P.sub.Ab].

Exemple 2.Il y a quatre chemin-quads répertoriés dans la figure 3, de A à quatre individus a, h, c et d, où A est un ancêtre quad-commun des quatre individus. Pour le chemin-quad2, compte tenu des chemins [P.sub.Aa] et [P.sub.Ab], le chemin A [flèche droite] t [flèche droite] f [flèche droite] s est un chemin racine 2-chevauchement sont des individus qui se chevauchent par rapport à [P.sub.Aa] et [P.sub.Ab]. Pour chemin-quad3, sont des individus à 3 chevauchements par rapport à [P.sub.Aa], P^ et [P.sub.Ac], et le chemin A [flèche droite] t [flèche droite] f [flèche droite] s est une racine Chemin de 3 chevauchements.

Ensuite, nous résumons tous les termes conceptuels utilisés dans les formules de comptage de chemins pour deux individus, trois individus et quatre individus dans le tableau 1 qui révèle un aperçu de notre cadre pour généraliser la formule de Wright à trois et quatre individus d'un point de vue terminologique.

2.4. Un aperçu de la dérivation de formules de comptage de chemins. Selon la formule de comptage de chemin de Wright [16] (voir (2)) pour deux individus a et h, l'approche de comptage de chemin nécessite d'identifier les ancêtres communs de a et h et de calculer la contribution de chaque ancêtre commun à [[PHI]. sous.ab]. Plus précisément, pour chaque ancêtre commun, noté A, nous obtenons toutes les paires de chemins de A à a et h et identifions les paires de chemins acceptables. Pour [[PHI].sub.ab], une paire de chemins acceptable [??][P.sub.Aa], [P.sub.Ab][??] est une paire de chemins sans chevauchement où les deux chemins partagent aucun individu commun, sauf A. Dans la figure 2, path-pai[R.sub.2] est une paire de chemins acceptable, tandis que pathpai[R.sub.1], path-pai[R.sub.3], et path-pair4 ne sont pas des paires de chemins acceptables. La contribution de chaque ancêtre commun A à [[PHI].sub.ab] est calculée sur la base du coefficient de consanguinité de A, modifié par la longueur de chaque paire de chemins acceptable.

Pour calculer [[PHI].sub.abc], l'approche de comptage de chemins nécessite d'identifier tous les ancêtres triplement communs de a, b et c et de résumer toutes les contributions des ancêtres triples communs à [[PHI].sub.abc ]. Pour chaque ancêtre triple commun, noté A, nous identifions d'abord tous les triples chemins dont chacun se compose de trois chemins de A à a, b et c, respectivement. Quelques exemples de trajets triples sont présentés dans la figure 2.

Pour [[PHI].sub.ab], seules les paires de chemins qui ne se chevauchent pas sont acceptables. Un triple chemin [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] se compose de trois paires de chemins [??][P.sub. Aa], [P.sub.Ab][??] [??][P.sub.Aa], [P.sub.Ac][??] et [??][P.sub.Ab], [P.sub.Ac][??]. Pour [[PHI].sub.abc], un chemin triple peut être acceptable même si des individus à 2 chevauchements ou des individus croisés existent entre une paire de chemins. Le principal défi que nous devons relever est de trouver les conditions nécessaires et suffisantes pour des trajets triples acceptables.

Visant à résoudre le problème de l'identification des chemins triples acceptables, nous utilisons d'abord une méthode systématique pour générer tous les cas possibles pour une paire de chemins en considérant différents types d'individus communs partagés entre les deux chemins. Ensuite, nous introduisons des blocs de construction qui sont des graphes connectés avec des conditions sur chaque arête du graphe qui encapsulent un ensemble de cas acceptables de paires de chemins. Dans chaque bloc de construction, nous représentons les chemins comme des nœuds et les interactions (c'est-à-dire des individus communs partagés entre deux chemins) comme des bords. Il y a au moins deux chemins dans un bloc de construction. Pour chaque bloc de construction, nous obtenons tous les cas acceptables pour les paires de chemins concernées. Étant donné un chemin triple, il peut être décomposé en un ou plusieurs blocs de construction. Considérant une paire de chemins partagée entre deux blocs de construction, nous utilisons l'opérateur de jointure naturelle de l'algèbre relationnelle pour faire correspondre les cas acceptables pour la paire de chemins partagée entre deux blocs de construction. En d'autres termes, en considérant les cas acceptables pour les blocs de construction comme entrées, nous utilisons l'opérateur de jointure naturelle pour construire tous les cas acceptables pour un chemin triple. Les cas acceptables pour un chemin triple sont identifiés et ensuite utilisés pour dériver la formule de comptage de chemin pour [[PHI].sub.abc].

Ensuite, nous résumons toutes les principales procédures utilisées pour dériver la formule de comptage de chemin pour [[PHI].sub.abc] dans un organigramme illustré à la figure 4. Les principales procédures sont également applicables pour dériver les formules de comptage de chemin pour [[ PHI].sub.abcd] et [[PHI].sub.ab,cd].

3.1. Formules de comptage de chemins pour trois individus. Nous introduisons d'abord une méthode systématique pour générer tous les cas possibles pour une paire de chemins. Ensuite, nous discutons des éléments constitutifs des triplets de chemin et identifions tous les cas acceptables qui sont utilisés pour dériver la formule de comptage de chemin pour [[PHI].sub.abc].

3.1.1. Cas pour une paire de chemins. Étant donné une paire de chemins [??][P.sub.Aa], [P.sub.Ab][??] avec BL_C([P.sub.Aa], [P.sub.Ab]) [pas égal à] NULL, où A est un ancêtre commun de a et b et Bi_C([P.sub.Aa], [P.sub.Ab]) se compose de tous les individus communs partagés entre [P.sub.Aa] et [P .sub.Ab], à l'exception de A, nous introduisons trois modèles (c'est-à-dire, crossover, 2-overlap et root 2-overlap) pour générer tous les cas possibles pour [??][P.sub.Aa], [P.sub .Un B][??].

(1) X([P.sub.Aa], [P.sub.Ab]) : [P.sub.Aa] et [P.sub.Ab] partagent un ou plusieurs individus croisés.

(2) T([P.sub.Aa], [P.sub.Ab]) : [P.sub.Aa] et [P.sub.Ab] sont la racine 2-chevauchement de A, et la racine 2- le chemin de chevauchement peut avoir un ou plusieurs individus à double chevauchement.

(3) Y([P.sub.Aa], [P.sub.Ab]) : [P.sub.Aa] et [P.sub.Ab] se chevauchent mais pas à partir de A, et le chemin de 2 chevauchements peut avoir un ou plusieurs individus qui se chevauchent.

Sur la base des trois modèles, X([P.sub.Aa], [P.sub.Ab]) et Y([P.sub.Aa], [P.sub.Ab]), nous utilisons des expressions régulières pour générer tous les cas possibles pour la paire de chemins [??][P.sub.Aa], [P.sub.Ab][??]. Pour plus de commodité, nous supprimons [??][P.sub.Aa], [P.sub.Ab][??] et utilisons X, T et Y au lieu des motifs X([P.sub.Aa], [ P.sub.Ab]), T([P.sub.Aa], [P.sub.Ab]) et Y([P.sub.Aa], PM), lorsqu'il n'y a pas de confusion. Lorsque BLC([P.sub.Aa], [P.sub.Ab]) [différent de] NULL, les huit cas indiqués en (7) couvrent tous les cas possibles pour [??][P.sub.Aa] , [P.sub.Ab][??]. La complétude des huit cas montrés en (7) pour [??][P.sub.Aa], [P.sub.Ab][??] peut être prouvée par induction sur le nombre total de T, X et Y apparaissant dans [??][P.sub.Aa], [P.sub.Ab][??]. En utilisant le pedigree de la figure 2, les cas 1 à 3 et le cas 6 sont illustrés en (8), (9), (10) et (11) :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], (7)

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], (8)

sont des individus à 2 chevauchements et le chemin de chevauchement est un chemin racine à 2 chevauchements :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], (9)

où s est un individu à 2 chevauchements et le chemin de chevauchement est un chemin racine à 2 chevauchements t est un individu de croisement :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], (10)

où t est un individu croisé :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], (11)

où e est un individu croisé t est un individu à 2 chevauchements et le chemin de chevauchement est un chemin à 2 chevauchements.

3.1.2. Représentation graphique au niveau des paires de chemins d'un triple chemin. Étant donné un triple chemin [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??], nous représentons chaque chemin comme un nœud. Le chemin triple peut être décomposé en trois paires de chemins (c'est-à-dire, [??][P.sub.Aa], [P.sub.Ab][??], [??][P.sub.Aa] , [P.sub.Ac][??], et [??][P.sub.Ab], [P.sub.Ac] [??]). Pour chaque paire de chemins, si les deux chemins partagent au moins un individu commun (c. Par conséquent, nous obtenons quatre scénarios différents [S.sub.0]-[S.sub.3], illustrés à la figure 5.

Dans la figure 5, le scénario S0 n'a pas de bords, cela signifie donc que [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] se compose de trois chemins. Dans la figure 2, path-triplel est un exemple de [S.sub.0]. Ensuite, nous introduisons un lemme qui peut aider à identifier les options pour les arêtes dans les scénarios [S.sub.1] - [S.sub.3].

Lemme 3. Étant donné un triple chemin [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??], considérons les trois paires de chemins [??] [P.sub.Aa], [P.sub.Ab] [??], s'il y a une arête à 2 chevauchements qui est représentée par Y dans la représentation d'expression régulière de l'une des trois paires de chemins, puis le chemin -triple [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] n'a aucune contribution à [[PHI].sub.abc].

Preuve. Dans [17], Nadot et Vaysseix ont proposé, d'un point de vue génétique et biologique, que [[PHI].sub.abc] peut être évalué en énumérant tous les chemins d'héritage éligibles au niveau de l'allèle à partir d'un triple ancêtre commun A à les trois individus a, b et c.

Pour le pedigree de la figure 6, considérons le chemin-triple [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] répertorié comme suit. [P.sub.Aa] : A [flèche droite] a [P.sub.Ab] : A [flèche droite] [p.sub.3] [flèche droite] [P.sub.6] [flèche droite] [ p.sub.7] [flèche droite] b [P.sub.Ac] : A [flèche droite] [p.sub.4] [flèche droite] [p.sub.6] [flèche droite] [p.sub ,7] [flèche droite] C.

Pour [??][P.sub.Ab], [P.sub.Ac][??], [p.sub.6] est un individu croisé, [p.sub.7] est un individu chevauchant, et [p.sub.6] [flèche droite] [p.sub.7] est une arête à 2 chevauchements représentée par Y dans une représentation d'expression régulière (voir la définition de Y dans la section 3.1.1).

Pour l'individu [p.sub.6], désignons les deux allèles à un locus autosomique fixe comme [g.sub.1] et [g.sub.2]. Au niveau des allèles, un seul allèle peut être transmis de [p.sub.6] à [p.sub.7]. Puisque [p.sub.3] et [p.sub.4] sont les parents de [p.sub.6], [g.sub.1] est transmis d'un parent, et [g.sub.2] est transmis par l'autre parent. Il est impossible de transmettre à la fois [g.sub.1] et [g.sub.2] de [p.sub.6] à [p.sub.7]. En d'autres termes, il n'y a pas de chemins d'héritage correspondants pour le chemin-triple [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] avec un 2- bord de chevauchement entre [??][P.sub.Ab], [P.sub.Ac][??] (c.-à-d. Cas 6 : XY). Par conséquent, ce type de chemin triple n'a aucune contribution à [[PHI].sub.abc].

La figure 6(b) montre un exemple de chemins d'héritage éligibles correspondant à un graphe d'ascendance. Chaque individu est représenté par deux nœuds alléliques. Les chemins d'héritage éligibles de la figure 6(b) sont constitués de bords rouges uniquement.

Seuls les cas 1, les cas 2 et 3 n'ont pas Y dans la représentation d'expression régulière d'une paire de chemins (voir (7)) compte tenu des scénarios [S.sub.1]-[S.sub.3] montrés dans Figure 5, une arête peut avoir trois options .

3.1.3. Construire des cas pour un chemin-triple. Pour les scénarios [S.sub.1]-[S.sub.3] dans la figure 5, nous définissons deux blocs de construction <[B.sub.1], [B.sub.2]>avec quelques règles dans la figure 7 pour générer des cas acceptables. Pour B3, le bord peut avoir trois options . Pour [B.sub.2], nous ne pouvons pas permettre que les deux arêtes soient un chevauchement de racine, car si deux arêtes sont un chevauchement de racine, alors [P.sub.Aa] et [P.sub.Ac] doivent partager au moins un com- mon individu, sauf A, qui contredit le fait que [P.sub.Aa] et [P.sub.Ac] n'ont pas d'avantage.

Ensuite, nous nous concentrons sur la génération de tous les cas acceptables pour les scénarios [S.sub.1]-[S.sub.3] de la Figure 5, où seul [S.sub.3] contient plus d'un bloc de construction. Afin de tirer parti de la dépendance entre les blocs de construction, nous décomposons [S.sub.3] en [S.sub.3] = <[u.sub.1] = [B.sub.2], [u.sub. 2] = [B.sub.2], [u.sub.3] = [B.sub.2]>, illustré à la Figure 8. Pour chaque [u.sub.i], nous avons un ensemble de chemins acceptables -triples, notés [R.sub.i].

Compte tenu de la dépendance entre <[R.sub.1], [R.sub.2], [R.sub.3]>, nous utilisons l'opérateur de jointure naturelle, noté m, opérant sur <[R.sub.1 ], [R.sub.2], [R.sub.3]>pour générer tous les cas acceptables pour [S.sub.3]. En conséquence, nous obtenons [T.sub.3] = [R.sub.1] [??] [R.sub.2] [??] [R.sub.3], où [T.sub. 3] désigne les cas acceptables du chemin-triple [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] dans le scénario [S.sub. 3].

Pour chaque scénario de la figure 5, nous générons tous les cas acceptables pour [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??]. Le scénario S0 n'a pas de bords, et il montre que [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] se compose de trois chemins indépendants, tandis que, pour les autres scénarios [S.sub.k] (k = 1, 2, 3), les k arêtes peuvent avoir deux options :

(1) toutes les arêtes k appartiennent au croisement ou

(2) une arête appartient à la racine 2-chevauchement les (k-1) arêtes restantes appartiennent au croisement.

En résumé, les chemins triples acceptables peuvent avoir au plus un chemin racine à 2 chevauchements, un nombre quelconque d'individus de croisement, mais zéro chemin à 2 chevauchements.

3.1.4. Opérateur de fractionnement. Considérant l'existence d'un chemin racine 2-overlap et d'un croisement dans des chemins triples acceptables, nous proposons un opérateur de division pour transformer un chemin-triple avec des individus croisés en un chemin-triple non croisé sans changer la contribution de ce chemin-triple en [[PHI ].sub.abc]. L'objectif principal de l'utilisation de l'opérateur de fractionnement est de simplifier le processus de dérivation de la formule de comptage des chemins. Nous utilisons d'abord un exemple de la figure 9 pour illustrer le fonctionnement de l'opérateur de fractionnement. Dans la figure 9, il y a un individu croisé entre [P.sub.Aa] et PM dans le chemin triple [??][P.sub.Ab], [P.sub.Ab], [P.sub.Ac ]) dans [G.sub.k+1]] L'opérateur de découpage procède comme suit :

(1) diviser le nœud s en deux nœuds, [s.sub.1] et [s.sub.2]

(2) transformer les bords s [flèche droite] a et s [flèche droite] b' en [s.sub.1] [flèche droite] a' et [s.sub.2] [flèche droite] b', respectivement

(3) ajouter deux nouvelles arêtes, [s.sub.2] [flèche droite] a' et [s.sub.1] [flèche droite] b'.

Lemme 4. Étant donné un graphe généalogique [G.sub.k+1] ayant (k + 1) individus croisés concernant [??][P.sub.Ac], [P.sub.Ab], [P.sub. Ac][??] illustré à la figure 9, désignons par s l'individu de croisement le plus bas, où aucun descendant de s ne peut être un individu de croisement parmi les trois chemins [P.sub.Aa], [P.sub.Ab] et [P.sub.Ac]. Après avoir utilisé l'opérateur de division pour l'individu de croisement le plus bas dans [G.sub.k] + 1, le nombre d'individus de croisement dans [G.sub.k+1] est diminué de 1.

Preuve. L'opérateur de fractionnement n'affecte que les arêtes de s à a' et b'. Si un nouveau nœud de croisement apparaît, le seul nœud possible est a ou b. Supposons que b devienne un individu croisé, cela signifie que b est capable d'atteindre a et b à partir de deux chemins distincts. Cela contredit le fait que s est l'individu de croisement le plus bas entre [P.sub.Aa] et [P.sub.Aa].

Ensuite, nous introduisons un graphe canonique qui résulte de l'application de l'opérateur de fractionnement pour tous les individus croisés. Le graphe canonique a zéro croisement individuel.

Définition 5 (Graphique canonique). Étant donné un graphe d'ascendance G ayant un ou plusieurs individus croisés concernant [[PHI].sub.abc], S'il existe un graphe G qui n'a pas d'individus croisés concernant [[PHI].sub.abc] tel que

(i) tout chemin-triple acceptable dans G a un chemin-triple acceptable dans G qui a la même contribution à [[PHI].sub.abc] que celui de G pour [[PHI].sub.abc]

(ii) tout chemin-triple acceptable dans G' a un chemin-triple acceptable dans G qui et a la même contribution à [[PHI].sub.abc] que celui dans G' pour [[PHI].sub.abc ].

Nous appelons G' un graphe canonique de G concernant [[PHI].sub.abc].

Lemme 6. Pour un graphe généalogique G ayant un ou plusieurs individus croisés concernant [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??], il existe un graphe canonique G pour G.

Preuve (esquisse). La preuve est par induction sur le nombre d'individus croisés.

Hypothèse d'induction : supposons que si G a k croisements ou moins, il existe un graphe canonique G' pour G.

Dans l'étape d'induction, soit [G.sub.k+1] un graphe avec k + 1 croisements, soit s le croisement le plus bas entre les chemins [P.sub.Aa] et [P.sub.Ab] dans [G. sous.k+1]. Nous appliquons l'opérateur de découpage sur s dans Gk+1 et obtenons [G.sub.k] ayant k croisements par le lemme 4.

3.1.5. Formule de comptage de chemin pour [[PHI].sub.abc]. Maintenant, nous présentons la formule de comptage de chemins pour [[PHI].sub.abc] :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], (12)

où [[PHI].sub.aa] - (1/2)(1 + [F.sub.A]), [[PHI].sub.AAA] - (1/4)(1 + 3[F. sub.A]), [F.sub.A] : le coefficient de consanguinité de A, A : un ancêtre triple commun de a, h et c, Type 1 : ([P.sub.Aa], [P. sub.Ab], [P.sub.Ac]) a zéro racine 2-chevauchement, Type 2 : [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] a un seul chemin racine 2 PAs se terminant à l'individu s

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], (13)

et [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII] la longueur du chemin [P.sub.Aa] (également applicable pour [P.sub.Aa], [P.sub.Ac] et [P.sub.As]) .

Pour être complet, la formule de comptage de chemin pour [[PHI].sub.aab] est donnée dans l'annexe A et la preuve de l'exactitude de la formule de comptage de chemin est donnée dans l'annexe B.

3.2. Formules de comptage de chemins pour quatre individus

3.2.1. Représentation graphique au niveau des paires de chemins de [??][[PHI].sub.Aa], [P.sub.Ab], [P.sub.Ac], [P.sub.Ad][??]. Étant donné un chemin-quad [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac], [P.sub.Ad][??] et Quad_C([P. sub.Aa], [P.sub.Ab], [P.sub.Ac], [P.sub.Ad]) - 0, le path-quad peut avoir 11 scénarios [S.sub.0]-[S 10] représenté sur la figure 10 où les quatre chemins sont considérés de manière symétrique.

Dans la figure 11, nous introduisons trois blocs de construction <[B.sub.1], [B.sub.2], [B.sub.3]>. Pour [B.sub.1] et [B.sub.2], les règles présentées dans la Figure 7 sont également applicables pour la Figure 11. Pour [B.sub.3], nous ne considérons que le chevauchement des racines, car les individus croisés peuvent être éliminé en utilisant l'opérateur de fractionnement présenté à la section 3.1.4. Notez que pour [B.sub.3] si Tr_C([P.sub.Aa], [P.sub.Ab], [P.sub.Ac]) - 0 alors c'est équivalent au scénario [S.sub. .3] dans la figure 8 Par conséquent, nous n'avons besoin de considérer [B.sub.3] que lorsque Tr_C([P.sub.Aa], Pap, [P.sub.Ac]) - 0.

3.2.2. Construction de cas basés sur des blocs de construction pour [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac], [P.sub.Ad][??]. Pour un scénario [S.sub.] (0 [inférieur ou égal à] i [inférieur ou égal à] 10) de la figure 11, nous décomposons d'abord [S.sub.i] en un ou plusieurs blocs de construction.Pour un scénario [S.sub.i] [membre de] <[S.sub.1], [S.sub.3]>, il n'a qu'un seul bloc de construction, et tous les cas acceptables peuvent être obtenus directement. Pour [S.sub.2] - <[u.sub.1] = [B.sub.1], [u.sub.2] - [B.sub.1]>, il n'est pas nécessaire de considérer le conflit entre les bords dans [u.sub.1] et [u.sub.2] parce que [u.sub.1] et [u.sub.2] sont déconnectés. Soit [R.sub.i] dénoter tous les cas acceptables des paires de chemins dans [u.sub.i], et laissez [T.sub.i] dénoter tous les cas acceptables pour [S.sub.i]. Par conséquent, nous obtenons [T.sub.2] - [R.sub.1] x [R.sub.2] où x désigne l'opérateur produit cartésien de l'algèbre relationnelle.

Pour [S.sub.6] = <[u.sub.1] = [B.sub.3]>, on obtient [T.sub.6] = [R.sub.1]. Pour [S.sub.i] [membre de] <[S.sub.i] | 4 [inférieur ou égal à] i [inférieur ou égal à] 10 et i [différent de] 6>, nous définissons le plus grand sous-graphe de [S.sub.i] sur la base duquel nous construisons [T.sub. je].

Définition 7 (plus grand sous-graphe). Étant donné un scénario [S.sub.i] (4 [inférieur ou égal à] i [inférieur ou égal à] 10 et i [différent de] 6), le plus grand sous-graphe de [S.sub.i], désigné par [S.sub.j] est défini comme suit :

(1) [S.sub.j] est un sous-graphe approprié de [S.sub.i]

(2) si [S.sub.i] contient [B.sub.3], alors [S.sub.j] doit également contenir B3

(3) aucun [S.sub.k] n'existe que [S.sub.j] soit un sous-graphe approprié de [S.sub.k] tandis que [S.sub.k] est également un sous-graphe approprié de [S. sub.i].

Pour chaque scénario [S.sub.i] (4 [inférieur ou égal à] i [inférieur ou égal à] 10 et i = 6), nous listons le plus grand sous-graphe de [S.sub.i], noté [S.sub.j] dans le tableau 2.

Pour un scénario [S.sub.i] (4 [inférieur ou égal à] i [inférieur ou égal à] 10 et i = 6), soit Diff([S.sub.i] [S.sub. j]) désignent l'ensemble des blocs de construction dans [S.sub.i] mais pas dans [S.sub.j], où [S.sub.j] est le plus grand sous-graphe de [S.sub.i]. Soit [valeur absolue de [E.sub.i]] et [valeur absolue de [E.sub.j]] dénoter le nombre d'arêtes dans [S.sub.i] et [S.sub.j], respectivement. Selon le tableau 2, nous pouvons conclure que [valeur absolue de [E.sub.i]] et [valeur absolue de [E.sub.j]] = 1. Afin de tirer parti de la dépendance entre les blocs de construction, nous considérons seulement [B.sub.2] dans Diff([S.sub.i][S.sub.j]). Par exemple, Diff([S.sub.5][S.sub.3]) = <[B.sub.2]>. Soit [T.sub.3] tous les cas acceptables pour [S.sub.3]. Et laissez [R.sub.1] désigner l'ensemble des cas acceptables pour Diff([S.sub.5] [S.sub.3]). Ensuite, nous pouvons utiliser [S.sub.3] et Diff([S.sub.5] [S.sub.3]) pour construire tous les cas acceptables pour [S.sub.5]. Ensuite, nous appliquons cette idée pour construire tous les cas acceptables pour chaque [S.sub.i] dans le tableau 2.

Étant donné un chemin-quad [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac], [P.sub.Ad] [??], un cas acceptable a le propriétés suivantes :

(1) s'il y a un chemin racine 3-chevauchement, il peut y avoir au plus un chemin racine 2-chevauchement

(2) sinon, il peut y avoir au plus deux chemins racine 2-chevauchement.

3.2.3. Formule de comptage de chemin pour [[PHI].sub.abcd]. Maintenant, nous présentons la formule de comptage de chemins pour [[PHI].sub.abcd] comme suit :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], (14)

où [[PHI].sub.AA] = (1/2)(1 + [F.sub.A]), [[PHI].sub.AAA] = (1/4)(1 + 3[F. sub.A]), [[PHI].sub.AAA] = (1/8)(1 + 7[F.sub.A]), [F.sub.A]. le coefficient de consanguinité de A, A : un ancêtre quad-commun de a, b, c et d, Type 1 : racine zéro 2-chevauchement et zéro racine 3-chevauchement chemin, Type 2 : une seule racine 2-chevauchement chemin PAs se terminant à s

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], (15)

et [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII] la longueur du chemin [P.sub.Aa] (également applicable pour [P.sub.Ab], [P.sub.Ac], [P.sub.Ad]'etc ).

Par souci d'exhaustivité, les formules de comptage de chemins pour [[PHI].sub.aabc] et [[PHI].sub.aaab] sont présentées à l'annexe A. L'exactitude de la formule de comptage de chemins pour quatre individus est prouvée à l'annexe C .

3.3. Formules de comptage de chemins pour deux paires d'individus

3.3.1. Terminologie et définitions

(1) 2-Pair-Path-Paire. Il se compose de deux paires de paires de chemins notées [??]([P.sub.Sa], [P.sub.Sb]), ([P.sub.Tc], [P.sub.Td]) [??], où [P.sub.Sa] [membre de] P(S, a), [P.sub.Sb] [membre de] P(S, b), [P.sub.Tc] [ membre de] P(T, c), [P.sub.Td] [membre de] P(T, d), S est un ancêtre commun de a et b, et T est un ancêtre commun de c et d. Si A = S = T, alors A est un ancêtre quad-commun de a, b, c et d.

(2) Homo-Chevauchement et Heter-Chevauchement Individuel. Soit deux paires d'individus [??]a,b[??] et [??]c,d[??], si s [membre de] BLC([P.sub.Aa], [P.sub. Ab]) (ou s [member of] BLC([P.sub.Ac], [P.sub.Ad]), nous appelons sa homo-overlap individu lorsque [P.sub.Aa] et (ou [P. sub.Ac] et [P.sub.Ad]) passent par le même parent de s. Si r [membre de] Bi_C([P.sub.Ai], [P.sub.Aj]), où i [membre de] et j [membre de] , nous appelons r un individu hétérogène lorsque [P.sub.Ai] et [P.sub.Aj] passent par le même parent de r.

(3) Racine Homo-Chevauchement et Heter-Chevauchement Chemin. Étant donné une paire de 2 paires de chemins [??]([P.sub.Aa], [P.sub.Ab], ([P.sub.Ac], [P.sub.Ad])[??], si s est un individu d'homo-chevauchement et que le chemin d'homo-chevauchement s'étend jusqu'à l'ancêtre quad-commun A, alors nous l'appelons un chemin d'homo-chevauchement racine. chemin s'étend jusqu'à l'ancêtre quad-commun A, puis nous l'appelons un chemin racine hétéro-chevauchement.

Exemple 8. A est l'ancêtre quad-commun pour a, b, c et d dans la figure 12. Pour (a), s est un individu homo-cheval entre [P.sub.Aa] et [P.sub.Ab] .

t est un individu homo-overlap entre [P.sub.Ac] et [P.sub.Ad]. Et, A [flèche droite] s et A [flèche droite] t sont des chemins d'homo-chevauchement de racine. Pour (b), x est un individu hétérogène entre [P.sub.Aa] et [P.sub.Ad]. y est un individu hétérogène entre [P.sub.Ab] et [P.sub.Ac]. Et A [flèche droite] x et A [flèche droite] y sont des chemins de superposition de racines.

3.3.2. Formule de comptage de chemin pour [[PHI].sub.ab,cd]. Maintenant, nous présentons une représentation graphique au niveau des paires de chemins pour [??]([P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Ad] ) [??] illustré à la Figure 13. Les options pour une arête peuvent être . (Reportez-vous à la section 3.1.1 pour les définitions de T, X et TX). Basé sur les différents types de [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac], [P.sub.Ad][??] présentés dans (14) , tous les cas pour <([P.sub.Aa], [P.sub.Ab]),([P.sub.Ac], [P.sub.Ad])) sont résumés dans le tableau 3, où h est le dernier individu d'un chemin d'homo-chevauchement racine [P.sub.Ali] (c'est-à-dire le chemin [P.sub.Ah] se terminant par h) et [r.sub.1] et [r.sub.2] sont les derniers individus des chemins de superposition de racines [P.sub.Ar1] et [P.sub.Ar2], respectivement.

Étant donné un graphe généalogique ayant un ou plusieurs progéniteurs <[p.sub.i] | i > 0>, nous définissons que la génération d'un géniteur

[p.sub.i] est 0, noté gen([p.sub.i]) = 0. Si un individu a n'a qu'un seul parent p, alors nous définissons gen(a) = gen(p) + 1. Si un individu a a deux parents f et m, on définit gen(a) = MAX + 1.

La formule de comptage de chemin pour [[PHI].sub.ab,cd] est la suivante :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], (16)

où A : un ancêtre quad-commun de a, b, c et d, S : un ancêtre commun de a et b, et T : un ancêtre commun de c et d. Pour [??][P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Ad])[??] (S = T = A) , il existe quatre types (c'est-à-dire du type 1 au type 4).

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII]. (17)

Type 4 : une racine homo-chevauchement [P.sub.Ah] se terminant à h et deux racines hétéro-chevauchement se terminant par [r.sub.1] et [r.sub.2], et h = [r.sub. 1] = [r.sub.2]. Pour (([P.sub.Sa], [P.sub.Sb]), ([P.sub.Tc], [P.sub.Td])) (S = T), il existe un type (c'est-à-dire , Tapez 5).

Type 5 : [??][P.sub.Sb], [P.sub.Sb] [??] n'a aucun chevauchement individuel, [??][P.sub.Tc], [P.sub.Td] [??] n'a aucun chevauchement individuel.

Au plus une paire de chemins (soit [??][P.sub.Sa], [P.sub.Sb][??] ou [??][P.sub.Tc], [P.sub.Td ] [??]) peuvent avoir des individus croisés.

Entre un chemin de [??][P.sub.Sa], [P.sub.Sb][??] et un chemin de [??][P.sub.Tc], [P.sub.Td] [??], il n'y a pas d'individus chevauchants, mais il peut y avoir des individus croisés, x, où x = S et x = T :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII]. (18)

Notez que si (a, b) et (c, d) n'ont aucun ancêtre quad-commun, nous avons la formule suivante pour [[PHI].sub.ab,cd] :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII]. (19)

Type 6 : [??][P.sub.Sa], [P.sub.Sb][??] est une paire de chemins sans chevauchement et [??][P.sub.Tc], [P.sub. Td][??] est une paire de chemins sans chevauchement. Entre un chemin de [??][P.sub.Sa], [P.sub.Sb][??] et un chemin de [??][P.sub.Tc], [P.sub.Td] [??], il n'y a pas d'individus chevauchants, mais il peut y avoir des individus croisés.

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII] sont définis comme dans le Type 5

L'exactitude de la formule de comptage de chemin pour [[PHI].sub.ab.cd] est prouvée dans l'annexe C. Pour être complet, veuillez vous référer à [18] pour les formules de comptage de chemin pour [[PHI].sub.aa ,bc], [[PHI].sub.ab,ac], [[PHI].sub.ab,ab] et [[PHI].sub.aa,ab]

3.4. Résultats expérimentaux. Dans cette section, nous montrons l'efficacité de notre méthode de comptage de chemins utilisant des NodeCodes pour des coefficients d'identité condensés en faisant des comparaisons avec les performances d'une méthode récursive utilisée dans [10]. Nous avons mis en œuvre deux méthodes : (1) en utilisant des formules récursives pour calculer chaque coefficient de parenté requis et coefficient de parenté généralisé (2) en utilisant la méthode de comptage de chemin couplée à NodeCodes pour calculer chaque coefficient de parenté requis et coefficient de parenté généralisé indépendamment. Nous appelons la première méthode Récursive, la seconde méthode NodeCodes. Pour être complet, veuillez vous référer à [18] pour les détails de la méthode basée sur les NodeCodes.

Les codes de nœud d'un nœud sont un ensemble d'étiquettes représentant chacune un chemin vers le nœud depuis ses ancêtres. Étant donné un graphe d'ascendance, soit r le géniteur (c'est-à-dire le nœud avec 0 in-degré). (Pour plus de simplicité, nous supposons qu'il y a un ancêtre, r, comme ancêtre de tous les individus dans le pedigree. Sinon, un nœud virtuel r peut être ajouté au graphe d'ascendance et tous les progéniteurs peuvent devenir des enfants de r.) Pour chaque nœud u dans le graphe, l'ensemble des NodeCodes de u, noté NC(w), est attribué à l'aide d'un parcours de recherche en largeur d'abord à partir de r comme suit.

(1) Si u est r alors NC(r) ne contient qu'un seul élément : la chaîne vide.

(2) Sinon, soit u anode avec NC(w), et [v.sub.0], [v.sub.1], . [v.sub.k] être nous enfants dans l'ordre des frères et sœurs alors pour chaque x [inférieur ou égal à] NC(m), un code [xi.sup.*] est ajouté à NC(v), où 0 < i [inférieur ou égal à] k, et * indique le sexe de l'individu représenté par le nœud [v.sub.i].

Les calculs des coefficients de parenté pour deux individus et des coefficients de parenté généralisés pour trois individus présentés dans [11, 12, 14, 15] utilisent des NodeCodes. Les schémas de calcul basés sur les NodeCodes peuvent également être appliqués pour les coefficients de parenté généralisés pour quatre individus et deux paires d'individus. Pour être complet, veuillez vous référer à [18] pour plus de détails sur l'utilisation des NodeCodes pour calculer les coefficients de parenté généralisés pour quatre individus et deux paires d'individus sur la base de nos formules de comptage de chemin proposées dans les sections 3.2 et 3.3.

Afin de tester l'évolutivité de notre approche de calcul de coefficients d'identité condensés sur de grands pedigrees, nous avons utilisé un simulateur de population implémenté dans [11] pour générer des pedigrees arbitrairement grands. Le simulateur de population est basé sur l'algorithme de génération de populations avec des générations qui se chevauchent dans le chapitre 4 de [19] ainsi que les paramètres donnés dans l'annexe B de [20] pour modéliser la sous-population finlandaise Kainuu relativement isolée et sa croissance au cours des années 1500-2000 . Un aperçu de l'algorithme de génération a été présenté dans [11,12,14]. Les paramètres comprennent l'année de début/fin, la taille initiale de la population, la répartition par âge initiale, la probabilité de mariage, l'âge maximum à la grossesse, le nombre prévu d'enfants par période, le taux d'immigration et la probabilité de décès par période et groupe d'âge.

Nous examinons la performance des coefficients d'identité condensés à l'aide de douze pedigrees synthétiques allant de 75 individus à 195 197 individus. Le plus petit pedigree s'étend sur 3 générations et le plus grand pedigree s'étend sur 19 générations. Nous avons analysé les effets de la taille du pedigree et de la profondeur des individus dans le pedigree (le chemin le plus long entre l'individu et un géniteur) sur l'amélioration de l'efficacité des calculs.

Dans la première expérience, 300 paires aléatoires ont été sélectionnées dans chacun de nos 12 pedigrees synthétiques. La figure 14 montre l'amélioration de l'efficacité des calculs pour chaque pedigree. Comme on peut le voir, l'amélioration de NodeCodes par rapport à Recursive est devenue de plus en plus importante à mesure que la taille du pedigree augmentait, passant d'un montant comparable de 26,83 % sur le plus petit pedigree à 94,75 % sur le plus grand pedigree. Il montre également que la méthode de comptage de chemins couplée aux NodeCodes peut très bien évoluer sur de grands pedigrees en termes de calcul de coefficients d'identité condensés.

Dans notre expérience suivante, nous avons examiné l'effet de la profondeur de l'individu dans le pedigree sur le temps de requête. Pour chaque profondeur, nous avons généré 300 paires aléatoires à partir du plus grand pedigree synthétique.

La figure 15 montre l'effet de la profondeur sur l'amélioration de l'efficacité du calcul. Nous pouvons voir l'amélioration de NodeCodes par rapport à Recursive, allant de 86,48 % à 91,30 %.

Nous avons introduit un cadre pour généraliser la formule de comptage de chemins de Wright pour plus de deux individus. Dans le but de calculer efficacement des coefficients d'identité condensés, nous avons proposé des formules de comptage de chemins (PCF) pour tous les coefficients de parenté généralisés pour lesquels sont suffisants pour exprimer des coefficients d'identité condensés par une combinaison linéaire. Nous effectuons également des expériences pour comparer l'efficacité de notre méthode avec la méthode récursive pour le calcul de coefficients d'identité condensés sur de grands pedigrees. Nos travaux futurs incluent (i) d'autres améliorations sur le calcul des coefficients d'identification condensés en calculant collectivement l'ensemble des coefficients de parenté généralisés pour éviter les calculs redondants, et (ii) des résultats expérimentaux pour l'utilisation de PCF en conjonction avec des schémas de codage (par exemple, schémas de codage de chemin compact [13]) pour le calcul de coefficients d'identité condensés sur de très grands pedigrees.

A. Formules de comptage de chemins de cas particuliers

A.1. Formule de comptage de chemin pour [[PHI].sub.aa,ab]. Pour [??][P.sub.Aa1], [P.sub.Aa2][??], nous introduisons un cas particulier, où [P.sub.Aa1] et [P.sub.Aa2] sont fusionnables.

Définition A.1 (Paire de chemins fusionnables). Une paire de chemins [??][P.sub.Aa1], [P.sub.Aa2][??] est fusionnable si et seulement si les deux chemins [P.sub.Aa1] et [P.sub.Aa2 ] sont complètement identiques.

Ensuite, nous présentons une représentation graphique de [??][P.sub.Aa1], [P.sub.Aa2], [P.sub.Ab][??] dans la Figure 16.

Lemme A.2. Pour [S.sub.2] et [S.sub.3] dans la Figure 16, [??][P.sub.Aa1], [P.sub.Aa2][??] ne peut pas être une paire de chemins fusionnable .

Preuve. Pour [S.sub.2] et [S.sub.3], si [??][P.sub.Aa1], [P.sub.Aa2]) est fusionnable, alors tout individu commun entre [P.sub. sub.Aa1] et [P.sub.Ab] est également un individu partagé entre [P.sub.Aa]2 et [P.sub.Ab]. Cela signifie s [membre de] Tri_C([P.sub.Aa1], [P.sub.Aa2], [P.sub.Ab]) ce qui contredit le fait que Tri_C([P.sub.Aa1], [P .sub.Aa2], [P.sub.Ab]) = 0.

En considérant les trois scénarios de la figure 16, seul S1 peut avoir une paire de chemins fusionnable [??][P.sub.Aa1], [P.sub.Aa2][??] par le lemme A.2. Maintenant, nous présentons notre formule de comptage de chemins pour [[PHI].sub.aab] où a n'est pas un ancêtre de b :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], (A.1)

où A : un ancêtre commun de a et b.

Lorsque [??][P.sub.Aa1], [P.sub.Aa2][??] n'est pas fusionnable,

Type 1 : [??][P.sub.Aa1], [P.sub.Aa2], [P.sub.Ab][??] n'a pas de racine 2-overlap.

Type 2 : [??][P.sub.Aa1], [P.sub.Aa2], [P.sub.Ab][??] a un chemin racine 2-chevauchement [P.sub.As] se terminant à l'individu s.

Lorsque [??][P.sub.Aa1], [P.sub.Aa2][??] est fusionnable, Type 3 : [??][P.sub.Aa], [P.sub.Ab][ ??] est une paire de chemins sans chevauchement

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII]. (A.2)

Par souci d'exhaustivité, si a est un ancêtre de b, il n'y a pas de formule récursive pour [[PHI].sub.aab] dans [10], mais nous pouvons utiliser soit la formule récursive pour [[PHI].sub. abc] ou la formule de comptage de chemin pour [[PHI].sub.abc] pour calculer [[PHI].sub.a1a2b].

A.2. Formule de comptage de chemin pour [[PHI].sub.aabc]. Étant donné un chemin-quad [??][P.sub.Aa1], [P.sub.Aa2] [P.sub.Ab], [P.sub.Ac][??], si [??][ P.sub.Aa1], [P.sub.Aa2][??] n'est pas fusionnable, alors nous traitons le chemin quad comme équivalent à [??][P.sub.Aa], [P.sub.Ab ], [P.sub.Ac], [P.sub.Ad][??]. Si [??][P.sub.Aa1] > [P.sub.Aa2][??] est fusionnable, le chemin-quad [??][P.sub.Aa1], [P.sub.Aa2] , [P.sub.Ab], [P.sub.Ac][??] peuvent être condensés en scénarios pour [??] [P.sub.Aa], [P.sub.Ab], [P.sub .Ac][??].

Maintenant, nous présentons une formule de comptage de chemins pour [[PHI].sub.aabc] où a n'est pas un ancêtre de b et c comme suit :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], (A.3)

où A : un ancêtre quad-commun de a, b, c et d.

Lorsque [??][P.sub.Aa1], [P.sub.Aa2][??] n'est pas fusionnable,

Type 1 : chemin zéro racine 2-chevauchement et zéro racine 3-chevauchement chemin

Type 2 : un chemin racine 2-chevauchement [P.sub.As] se terminant à s

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII]. (A.4)

Lorsque [??][P.sub.Aa1], [P.sub.Aa2][??] est fusionnable,

Type 4: [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] a zéro racine 2-chevauchement chemin

Type 5 : [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] a un chemin racine 2 PAs se terminant à s

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII]. (A.5)

Notez que si a est un ancêtre de b ou c, ou des deux, alors la formule de comptage de chemin de [[PHI].sub.abcd] est applicable pour calculer [[PHI].sub.a1a2bc].

A3. Formule de comptage de chemin pour [[PHI].sub.aaab]. Un cas particulier de [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII] est introduit lorsque [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII] est fusionnable.Avec l'existence d'un triple chemin fusionnable, [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII] peut être condensée en [??][P.sub.Aa], [P.sub.Ab] [??].

Définition A3 (Chemin fusionnable-Triple). Étant donné trois chemins [P.sub.Aa1], [P.sub.Aa2] et [P.sub.Aa3], ils sont fusionnables si et seulement s'ils sont complètement identiques.

Lemme A.4. Étant donné un chemin-quad [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], il doit y avoir au moins une paire de chemins fusionnable parmi [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII].

Preuve. Pour un individu a avec deux parents f et m, l'allèle paternel de l'individu a est transmis par f et l'allèle maternel est transmis par m. Au niveau des allèles, seuls deux chemins de descente à partir d'un ancêtre sont autorisés. Pour un quadruple chemin [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], il doit y avoir au moins une paire de chemins fusionnable parmi [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII].

Pour plus de simplicité, nous traitons [??][P.sub.Aa1], [P.sub.Aa2][??] comme une paire de chemins fusionnable par défaut.

Maintenant, nous présentons la formule de comptage de chemins pour [[PHI].sub.aaab] où a n'est pas un ancêtre de b comme suit :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], (A.6)

où A : un ancêtre commun de a et b.

Lorsqu'il n'y a qu'une seule paire de chemins fusionnable (considérons [??][P.sub.Aa1], [P.sub.Aa2][??] comme la paire de chemins fusionnable),

Type 1 : [??][P.sub.Aa1], [P.sub.Aa3], [P.sub.Ab][??] a zéro racine 2-chevauchement chemin,

Type 2 : [??][P.sub.Aa1], [P.sub.Aa3], [P.sub.Ab][??] a un chemin racine 2 PAs se terminant à s.

Lorsque ([P.sub.Aa1], [P.sub.Aa2], [P.sub.Aa3][??] est fusionnable,

Type 3 : [??][P.sub.Aa], [P.sub.Ab][??] ne se chevauche pas

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII]. (A.7)

Notez que si a est un ancêtre de b, nous traitons [[PHI].sub.aaab] = [[PHI].sub.a1a2a3b]. Ensuite, nous appliquons la formule de comptage de chemins pour [[PHI].sub.abcd] pour calculer [[PHI].sub.a1a2a3b].

B. Preuve pour les formules de comptage de chemins de trois individus

Nous démontrons d'abord que, pour un ancêtre triple commun A, le calcul de comptage de chemin de [[PHI].sub.abc] est équivalent au calcul utilisant des formules récursives. Ensuite, nous prouvons l'exactitude du calcul de comptage de chemins pour plusieurs ancêtres triples communs.

B.1. Un ancêtre triple commun. Considérant les différents types de chemin-triples partant d'un ancêtre triple-commun A dans un graphe généalogique G contribuant à [[PHI].sub.abc] et [[PHI].sub.aab], G peut avoir 5 cas différents :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII] (B.1)

Sur la base des 5 cas du cas 2.1 au cas 3.2, nous construisons d'abord un graphique de dépendance illustré à la figure 17, cohérent avec les formules récursives (3), (4) et (5) pour les coefficients de parenté généralisés pour trois individus.

Ensuite, nous procédons comme suit pour prouver l'exactitude des formules de comptage de chemin (12) et (A.1) :

(i) pour [[PHI].sub.ab], l'exactitude de la formule de comptage de chemins (c'est-à-dire la formule de Wright) est prouvée dans [21]. Pour les cas 2.1 et 2.2, l'exactitude est prouvée sur la base de l'exactitude des cas 3.1 et 3.2

(ii) pour le cas 2.3, il n'a pas de cycle mais dépend uniquement de [[PHI].sub.ab]. Ainsi, nous prouvons l'exactitude du cas 2.3 en transformant le cas en [[PHI].sub.ab]

(iii) pour les cas 3.1 et 3.2, l'exactitude est prouvée par récurrence sur le nombre d'arêtes, n, dans le graphe d'ascendance G.

B.1.1. Preuve d'exactitude pour le cas 3.1

Cas 3.1. Pour [[PHI].sub.abc], G n'a pas de triplets de chemin [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] avec chevauchement des racines.

Preuve (Base). Il existe deux scénarios de base : (i) un individu est le parent d'un autre (ii) aucun individu n'est le parent d'un autre, parmi a, b et c.

En utilisant la formule récursive (3) pour calculer 0abc, pour la figure 18(a), [[PHI].sub.abc] = (1/2) [[PHI].sub.abc] = [(1/2). sup.2] [[PHI].sub.abc] pour la figure 18(b), 0abc = (1/2) [[PHI].sub.abc] = [(1/2).sup.2] [[ PHI].sub.abc] = [(1/2).sup.3] [[PHI].sub.AAA].

En utilisant la formule de comptage de chemin (12), si un chemin triple [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] n'a pas de chevauchement de racine (ie, Type 1), puis la contribution de [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] à [[PHI].sub. abc] peut être calculé comme suit : [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII].

Pour la figure 18(a), c est le seul ancêtre triple-commun et nous obtenons [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII].

Étape d'induction. Soit n le nombre d'arêtes dans G. Supposons vrai pour n < k, où k > 2. Ensuite, nous montrons que c'est vrai pour n = k + 1.

Pour les figures 19(a) et 19(b), parmi a, b et c, soit a l'individu ayant le chemin le plus long à partir de son ancêtre triple commun dans le graphe généalogique G avec (k+1) arêtes. Si nous supprimons le nœud a et coupons l'arête f [flèche droite] a de G, alors le nouveau graphe [G.sup.*] a k arêtes. En termes de calcul de [[PHI].sub.fbc], [G.sup.*] satisfait la condition de l'hypothèse d'induction.

Pour la figure 19(a), [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII]. Basé sur la formule récursive (3), [[PHI].sub.abc] = (1/2) [[PHI].sub.fbc] + [[PHI].sub.mbc]) où f et m sont parents d'un. Dans G, a n'a qu'un seul parent f donc, il indique [[PHI].sub.mbc] = 0. Ensuite, nous pouvons brancher la formule de comptage de chemin pour [[PHI].sub.fbc] pour obtenir

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII]. (B.2)

B.1.2. Preuve d'exactitude pour le cas 3.2

Cas 3.2. Pour [[PHI].sub.abc], G a des triplets de chemin ([P.sub.Aa], P^, [P.sub.Ac]) avec chevauchement de racine.

Preuve (Base). Il existe trois scénarios de base : (i) il y a deux individus qui sont parents d'un autre (ii) il n'y a qu'un seul individu qui est parent d'un autre (iii) il n'y a aucun individu qui est parent d'un autre, parmi a, b, et C.

Utilisation de la formule récursive (3) pour calculer [[PHI].sub.abc] : dans la figure 20, pour la figure 20(a), [[PHI].sub.abc] = (1/2) [[PHI]. sub.bbc] = [(1/2).sup.2] [[PHI].sub.abc] = [(1/2).sup.3] [[PHI].sub.cc] pour la figure 20( b), [[PHI].sub.abc] = (1/2) [[PHI].sub.bbc] = [(1/2).sup.2]Ofcc = [(1/2).sup. 4] [[PHI].sub.AA] pour la figure 20(c), [[PHI].sub.abc] = [(1/2).sup.2] [[PHI].sub.ssc] = ( 1/2)3 [[PHI].sub.sc] = [(1/2).sup.5] [[PHI].sub.AA].

En utilisant la formule de comptage de chemin (12), si un chemin triple [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] a un chevauchement de racine ( ie, Type 2), puis la contribution de [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] à [[PHI].sub.fbc ] peut être calculé comme suit : [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII] et s est le dernier individu du chemin de chevauchement de racine [P.sub.As].

Pour la figure 20(a), c est le seul ancêtre triple-commun et nous obtenons [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII]. De même, pour les figures 20(b) et 20(c), on obtient [[PHI].sub.abc] = [(1/2).sup.4] [[PHI].sub.aa] et [[PHI ].sub.abc] = [(1/2).su.5] [[PHI].sub.AA], respectivement.

Étape d'induction. Soit n le nombre d'arêtes dans G. Supposons vrai pour n [inférieur ou égal à] k, où k [supérieur ou égal à] 2. Montrer que c'est vrai pour = fc + 1.

Pour les figures 21(a), 21(b) et 21(c), parmi a, fc et c, soit a l'individu qui a le chemin le plus long et soit p le parent de a. Ensuite, on coupe l'arête p [flèche droite] a de G et on obtient un nouveau graphe [G+*] qui vérifie la condition d'hypothèse d'induction. Pour la figure 21(a), nous utilisons la formule de comptage de chemins pour [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII].

Dans G, f est le seul parent de a, selon la formule récursive (3), on a [[PHI].sub.abc] = (1/2) [[PHI].sub.afc]. Ensuite, nous pouvons brancher le [[PHI].sub.fbc] et obtenir

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII]. (B.3)

Pour les figures 21(b) et 21(c), nous procédons de la même manière que nous calculons [[PHI].sub.abc] pour la figure 21(a).

En résumé, c'est vrai pour n = fc + 1.

B.1.3. Preuve d'exactitude pour le cas 2.3

Cas 2.3. Pour [[PHI].sub.aab], les chemins triples dans le graphe d'ascendance G ont une paire de chemins fusionnable.

Preuve. Compte tenu de la relation entre a et fc, G a deux scénarios : (i) fc n'est pas un ancêtre de a (ii) fc est un ancêtre de a. En utilisant la formule de comptage de chemin (A.1), si un chemin triple ([P.sub.Aa1], [P.sub.Aa2], [P.sub.Ab]) 6 Type 3, ce qui signifie qu'il a une paire de chemins fusionnable, alors la contribution de [??][P.sub.Aa1], [P.sub.A2], [P.sub.Ab][??] à [[PHI].sub. aab] peut être calculé comme suit : [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII].

En utilisant la formule récursive (4), nous obtenons [[PHI].sub.aab] = (1/2)([[PHI].sub.ab] + [[PHI].sub.fmb]).

Pour la figure 22(a), A est un ancêtre commun de a et fc. [??] a n'a qu'un seul parent f

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII]. (B.4)

Pour [[PHI].sub.ab], nous utilisons la formule de Wright et obtenons [MATHEMATICAL EXPRESSION NOT REPRODUCIBLE IN ASCII] OAA où P désigne toutes les paires de chemins non chevauchantes [??][P.sub.Aa], [P.sub .Un B][??].

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII].

Pour la figure 22(b), nous pouvons également transformer le calcul de [[PHI].sub.aab] en [[PHI].sub.ab].

En résumé, cela montre que la formule de comptage de chemins (A.1) est vraie pour le cas 2.3.

B.1.4. Preuve d'exactitude pour les cas 2.1 et 2.2. Pour [[PHI].sub.aab], lorsqu'il n'y a pas de chemin triple ayant une paire de chemins fusionnable, (c'est-à-dire que le chemin triple appartient au cas 2.1 ou au cas 2.3), [[PHI].sub.aab] peut être transformé en [EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII], ce qui équivaut au calcul de [[PHI].sub.abc] pour les cas 3.1 et 3.2. L'exactitude de notre formule de comptage de chemins pour les cas 3.1 et 3.2 est prouvée. Ainsi, nous obtenons la correction pour [[PHI].sub.aab] lorsque le chemin triple appartient soit au cas 2.1, soit au cas 2.2.

B.2. Plusieurs ancêtres triples communs. Maintenant, nous fournissons la preuve d'exactitude pour plusieurs ancêtres triples communs concernant les formules de comptage de chemin (12) et (A.1).

Lemme A. Étant donné un graphe d'ascendance G et trois individus a, b, c ayant au moins un ancêtre commun au voyage, [[PHI].sub.abc] est correctement calculé en utilisant les formules de comptage de chemin (12) et (A.1 ).

Preuve. Preuve par induction sur le nombre d'ancêtres triples communs

Base. G n'a qu'un seul ancêtre triple commun à a, b et c.

L'exactitude de (12) et (A.1) pour G avec un seul ancêtre triple commun de a, b et c est prouvée dans la section précédente.

Hypothèse d'induction. Supposons que si G a k ou moins ancêtres triple-commun de a, b et c, 12) et (A.1) sont corrects pour G.

Étape d'induction. Maintenant, nous montrons que c'est vrai pour G avec k + 1 ancêtres triple-communs de a, b et c.

Soit Tr_C(a, b, c, G) tous les ancêtres triplement communs de a, b et c dans G, où Tri_C(a, b, c, G) = <[A.sub.i] | 1 [inférieur ou égal à] i [inférieur ou égal à] k + 1>. Soit A1 l'ancêtre triple-commun le plus élevé tel qu'il n'y ait aucun individu parmi les ancêtres restants <[A.sub.i] | 2 [inférieur ou égal à] i [inférieur ou égal à] k + 1>qui est un ancêtre de [A.sub.1]. Soit [inférieur ou égal à] ([A.sub.1]) la contribution de A1 à [[PHI].sub.abc].

Parce que A1 est l'ancêtre triple-commun le plus élevé, il n'y a [inférieur ou égal à] aucun chemin-triple de <[A.sub.i] | 2 [inférieur ou égal à] i [inférieur ou égal à] k + 1>à a, b et c qui passe par A1. Ensuite, nous pouvons supprimer [A.sub.1] de G et supprimer toutes les arêtes sortantes de [A.sub.1] et obtenir un nouveau graphe G' qui a k ​​ancêtres triples communs de a, b et c . Cela signifie Tri_C(a, b, c, G') = <[A.sub.i] | 2 [inférieur ou égal à] i [inférieur ou égal à] k + 1>.

Pour le nouveau graphe G', nous pouvons appliquer notre hypothèse d'induction et obtenir [[PHI].sub.abc] (G').

Pour l'ancêtre triple commun le plus élevé A1, il existe deux cas différents compte tenu de sa relation avec les autres ancêtres triples communs :

(1) il n'y a aucun individu parmi <[A.sub.i] | 2 [inférieur ou égal à] i [inférieur ou égal à] k + 1>qui est un descendant de [A.sub.1]

(2) il y a au moins un individu parmi <[A.sub.i] | 2 [inférieur ou égal à] i [inférieur ou égal à] k + 1>qui est un descendant de [A.sub.1].

Pour (1), puisqu'aucun individu parmi <[A.sub.i] | 2 [inférieur ou égal à] i [inférieur ou égal à] k + 1>est un descendant de A1, l'ensemble des chemins-triples de [A.sub.1] à a, b et c est indépendant de l'ensemble des chemins-triples de <[A.sub.i] | 2 [inférieur ou égal à] i [inférieur ou égal à] k + 1>à a, b et c. Cela signifie également que la contribution de

[A.sub.1] à [[PHI].sub.abc] est indépendant de la contribution des autres ancêtres triple-commun.

En additionnant toutes les contributions, nous pouvons obtenir [[PHI].sub.abc] (G) = [[PHI].sub.abc] (G') + S([A.sub.1]).

Pour (2), soit [A.sub.j] un descendant de [A.sub.1]. Maintenant, [A.sub.1] et [A.sub.j] peuvent atteindre a, b et c.

Si [t.sub.a], [t.sub.b] et [t.sub.c] passent tous par [t.sub.j] alors le chemin triple [pt.sub.i] n'est pas un triple chemin éligible pour [[PHI].sub.abc]. Lorsque nous calculons la contribution de A1 à [[PHI].sub.abc], nous excluons tous ces triplets de chemin où [t.sub.a], [t.sub.b] et [t.sub.c] tous passent par un ancêtre triple-commun inférieur. En d'autres termes, un chemin triple éligible de [A.sub.1] concernant [[PHI].sub.abc] ne peut pas avoir trois chemins passant tous par un ancêtre triple commun inférieur. Par conséquent, nous savons que la contribution de A1 à [[PHI].sub.abc] est indépendante de la contribution des autres ancêtres triples communs. En additionnant toutes les contributions, nous obtenons [[PHI].sub.abc](G) = [[PHI].sub.abc](G') + S(A 1).

C. Preuve pour quatre individus et deux paires d'individus

Ici, nous donnons une esquisse de preuve de l'exactitude des formules de comptage de chemins pour quatre individus. Tout d'abord, pour quatre individus dans un graphe d'ascendance G, nous présentons tous les cas différents à partir desquels nous construisons un graphe de dépendance. L'exactitude des formules de comptage de chemins pour les individus à deux paires peut être prouvée de la même manière.

C.1. Preuve pour quatre personnes. Considérez l'existence de différents types de chemin-quad concernant [[PHI].sub.abcd], [[PHI].sub.aabc] et [[PHI].sub.aaab] il y a 15 cas pour un graphe généalogique G :

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII]

[EXPRESSION MATHÉMATIQUE NON REPRODUCTIBLE EN ASCII] (C.1)

Ensuite, nous construisons un graphique de dépendance illustré à la figure 23 pour tous les cas pour quatre individus.

D'après le graphe de dépendance de la figure 23, les étapes intermédiaires incluant les cas 3.4 et 3.5 sont déjà prouvées pour le calcul de [[PHI].sub.abc]. L'exactitude de la transformation du cas 4.2 au cas 3.4 peut être prouvée sur la base de la formule récursive pour [[PHI].sub.abcd] et [[PHI].sub.aabc]. De même, nous pouvons obtenir la transformation du cas 4.3.1 au cas 3.5.

C.2. Preuve pour deux paires d'individus. Considérez l'existence de différents types de paires de chemins à 2 paires concernant [[PHI].sub.ab,cd] il y a 9 cas qui sont répertoriés comme suit.

Cas 4.1. G a [??]([P.sub.Aa], [P.sub.Ab], ([P.sub.Ac], [P.sub.Aa])[??] avec zéro homochevauchement de racine et zéro racine hétéro-chevauchement.

Cas 4.2. G a [??]([P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Ad])[??] avec zéro homooverlap de racine et une racine hétéro-chevauchement.

Cas 4.3.1. G a [??]([P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Ad])[??] avec zéro racine homo- chevauchement et deux racines hétéro-chevauchement.

Cas 4.3.2. G a [??]([P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Aa])[??] avec une racine homo- chevauchement et deux racines hétéro-chevauchement.

Cas 4.4. G a [??]([P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Ad])[??] avec une racine homooverlap et zéro racine hétéro-chevauchement.

Cas4.5. G a [??]([P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Ad])[??] avec deux racines homooverlap et zéro racine hétéro-chevauchement.

Cas4.6. G a des chemins triples [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] avec zéro chevauchement de racine.

Cas 4.7. G a des chemins triples [??][P.sub.Aa], [P.sub.Ab], [P.sub.Ac][??] avec un chevauchement de racine.

Cas 4.8. G a des paires de chemins [??][P.sub.Tc], [P.sub.Td][??] avec zéro chevauchement de racine.

Ensuite, nous construisons un graphe de dépendance pour les cas relatifs à [[PHI].sub.ab,cd] dans la figure 24.

D'après le graphe de dépendance de la figure 24, les cas 4.6, 4.7 et 4.8 sont les étapes intermédiaires déjà prouvées pour le calcul de [[PHI].sub.abc]. L'exactitude de la transformation du cas 4.2 au cas 4.6 peut être prouvée sur la base de la formule récursive pour [[PHI].sub.ab,cd] et [[PHI].sub.ab,cd]. De même, nous pouvons obtenir la transformation des cas 4.3.1 et 4.3.2 en cas 4.7 ainsi que du cas 4.4 en cas 4.8 en conséquence.

Les auteurs déclarent qu'il n'y a pas de conflit d'intérêts concernant la publication de cet article.

Les auteurs remercient le professeur Robert C. Elston, Case School of Medicine, de leur avoir présenté les coefficients d'identité et de les avoir renvoyés à la littérature connexe [7, 10, 17]. Ce travail est partiellement soutenu par les subventions de la National Science Foundation DBI0743705, DBI0849956 et CRI0551603 et par la subvention GM088823 de l'Institut national de la santé.

[1] Le nouvel outil d'histoire de la santé familiale du Surgeon General est publié, prêt pour la "médecine du 21ème siècle", http://compmed.com/category/people-helping-people/page/7/.

[2] M. Falchi, P. Forabosco, E. Mocci et al., "Une recherche à l'échelle du génome utilisant une approche originale d'échantillonnage par paires pour les grandes généalogies identifie un nouveau locus pour le cholestérol des lipoprotéines totales et de faible densité dans deux isolats génétiquement différenciés de Sardaigne ", The American Journal of Human Genetics, vol. 75, non. 6, pages 1015-1031, 2004.

[3] M. Ciullo, C. Bellenguez, V. Colonna et al., "Nouveau locus de susceptibilité à l'hypertension sur le chromosome 8q par rupture efficace du pedigree dans un isolat italien," Human Molecular Genetics, vol. 15, non. 10, pages 1735-1743, 2006.

[4] Glossaire des termes génétiques, National Human Genome Research Institute, http://www.genome.gov/glossary/?id=148.

[5] C. W. Cotterman, A calculus for statistico-genetics [Ph.D. thèse], Columbus, Ohio, États-Unis, Ohio State University, 1940, réimprimé dans P. Ballonoff, Ed., Genetics and Social Structure, Dowden, Hutchinson & Ross, Stroudsburg, Pennsylvanie, États-Unis, 1974.

[6] G. Malecot, Les mathématiques de l'hérédité, Masson, Paris, France, 1948, édition traduite : The Mathematics of Heredity, Freeman, San Francisco, Calif, USA, 1969.

[7] M.Gillois, « La relation d'identité en génétique », Annales de l'Institut Henri Poincaré B, vol. 2, p. 1-94, 1964.

[8] D. L. Harris, "Covariances génotypiques entre parents consanguins," Genetics, vol. 50, pages 1319-1348, 1964.

[9] A. Jacquard, « Logique du calcul des coefficients d'identité entre deux individus », Population, vol. 21, pages 751-776, 1966.

[10] G. Karigl, "Un algorithme récursif pour le calcul des coefficients d'identité," Annals of Human Genetics, vol. 45, non. 3, pages 299-305, 1981.

[11] B. Elliott, S. F. Akgul, S. Mayes et Z. M. Ozsoyoglu, "Efficient evaluation of inbreeding queries on pedigree data," dans Actes de la 19e Conférence internationale sur la gestion des bases de données scientifiques et statistiques (SSDBM '07), juillet 2007

[12] B. Elliott, E. Cheng, S. Mayes et Z. M. Ozsoyoglu, "Calculer efficacement la consanguinité sur de grandes bases de données généalogiques," Information Systems, vol. 34, non. 6, p. 469-492, 2009.

[13] L. Yang, E. Cheng et ZM (Ozsoyoglu, "Using com[P.sub.Ac]t encodings for path-based calculs on pedigree graphs," dans Actes de la conférence ACM sur la bioinformatique, la biologie computationnelle et Biomédecine (ACM-BCB '11), pp. 235-244, août 2011.

[14] E. Cheng, B. Elliott et ZM Ozsoyoglu, « Calcul évolutif des coefficients de parenté et d'identité sur les grands pedigrees », dans Actes de la 7e conférence internationale annuelle sur la bioinformatique des systèmes informatiques (CSB '08), pp. 27- 36, 2008.

[15] E. Cheng, B. Elliott et ZM (Ozsoyoglu, "Efficient computation of kinship and identity coefficients on large pedigrees," Journal of Bioinformatics and Computational Biology (JBCB), vol. 7, n° 3, pp. 429 -453, 2009.

[16] S. Wright, « Coefficients de consanguinité et de relations », The American Naturalist, vol. 56, non. 645, 1922.

[17] R. Nadot et G. Vaysseix, « Algorithme de parenté et d'identité des coefficients d'identité », Biometrics, vol. 29, non. 2, pages 347-359, 1973.

[18] E. Cheng, Calculs évolutifs basés sur des chemins sur des données généalogiques [Ph.D. thèse], Case Western Reserve University, Cleveland, Ohio, États-Unis, 2012.

[19] V. Ollikainen, Techniques de simulation pour la localisation des gènes de maladies dans les populations isolées [Ph.D. thèse], Université d'Helsinki, Helsinki, Finlande, 2002.

[20] H. T. T. Toivonen, P. Onkamo, K. Vasko et al., « L'exploration de données appliquée à la cartographie du déséquilibre de liaison », The American Journal of Human Genetics, vol. 67, non. 1, p. 133-145, 2000.

[21] W. Boucher, « Calcul du coefficient de consanguinité », Journal of Mathematical Biology, vol. 26, non. 1, p. 57-64, 1988.

En Cheng (1) et Z. Meral Ozsoyoglu (2)

(1) Département d'informatique, Université d'Akron, Akron, OH 44325, États-Unis

(2) Département de génie électrique et d'informatique, Case Western Reserve University, 10900 Euclid Avenue, Cleveland, OH 44106, États-Unis


Probabilités dans le calcul du coefficient de parenté - Biologie

Comme il existe un nombre fini d'allèles dans la plupart des loci génétiques, les individus peuvent présenter le même génotype à un locus particulier mais, néanmoins, porter des chromosomes distincts. Les informations sur les fréquences alléliques et les marqueurs voisins peuvent être utilisées pour estimer la probabilité que deux individus aient réellement hérité du même chromosome des fondateurs du pedigree.

MERLIN peut estimer le nombre d'allèles partagés identiques par descendance parmi les parents d'un pedigree, et résumer cette information soit en tant que probabilités qu'une paire donnée partagera 0, 1 ou 2 allèles IBD ou en tant que coefficient de parenté entre chaque paire à un moment donné. lieu.

Certains programmes nécessitent des estimations d'EIA comme données d'entrée pour leur analyse. Par exemple, QTDT teste l'association en utilisant tous les phénotypes d'individus apparentés et nécessite des matrices IBD pour faire la distinction entre liaison et association.

Pour cet exemple, nous utiliserons un jeu de données simulé que vous trouverez dans le sous-répertoire exemples de la distribution MERLIN ou dans la page de téléchargement.

L'ensemble de données comprend 50 familles, chacune avec 4 frères et sœurs, génotypés pour 3 marqueurs SNP et est également utilisé dans le tutoriel QTDT. Nous utiliserons MERLIN pour estimer l'IBD pour cet ensemble de données dans un format prêt à être utilisé par QTDT.

Vous devriez déjà être familiarisé avec les formats de fichiers d'entrée. Les données consistent en un fichier généalogique ( sibs.ped ), qui spécifie les relations individuelles, les génotypes et les phénotypes. De plus, un fichier de carte ( sibs.map ) fournit des emplacements de marqueurs et un fichier de données ( sibs.dat ) décrit l'ensemble de données.

Comme d'habitude, c'est toujours une bonne idée de vérifier le contenu des fichiers d'entrée en exécutant pedstats :

Pour calculer les matrices IBD par paires, nous utiliserons l'option de ligne de commande --ibd. Étant donné que MERLIN étiquette tous les résultats avec des positions chromosomiques par défaut, nous utiliserons également l'option --markerNames pour demander que la sortie inclue les noms de marqueur requis par QTDT. Donc la commande :

Estimera les coefficients IBD pour toutes les paires relatives et produira un fichier merlin.ibd prêt à être utilisé par QTDT. Chaque ligne de merlin.ibd commence par un identifiant de famille suivi d'identifiants pour deux individus. Ceci est suivi des noms des marqueurs et des probabilités de partage des allèles 0, 1 et 2 IBD.

Les options couramment utilisées lors de l'estimation des coefficients IBD incluent --singlepoint (qui considère chaque marqueur indépendamment) et --steps n (qui demande une analyse à n positions entre les marqueurs) ou --grid k (qui demande une analyse tous les k cM le long du chromosome) .


FST et parenté pour des structures de population arbitraires I : Définitions généralisées

FST est une mesure fondamentale de la différenciation génétique et de la structure de la population, actuellement définie pour des populations subdivisées. FST en pratique suppose généralement sous-populations indépendantes et non chevauchantes, qui se séparent toutes simultanément de leur dernière population ancestrale commune, de sorte que la dérive génétique dans chaque sous-population est probabiliste indépendante des autres sous-populations. On introduit une généralisation FST définition de structures de population arbitraires, où les individus peuvent être liés de manière arbitraire, permettant une dépendance probabiliste arbitraire entre les individus. Nos définitions sont construites sur des probabilités d'identité par filiation (IBD) qui relient les individus par des coefficients de consanguinité et de parenté. nous généralisons FST comme le coefficient moyen de consanguinité des populations locales des individus par rapport à leur dernière population ancestrale commune. Nous montrons que la définition généralisée est en accord avec les définitions originales et indépendantes de la sous-population de Wright en tant que cas particuliers. Nous définissons un nouveau modèle de co-ascendance basé sur des « fréquences alléliques spécifiques à chaque individu » et prouvons que ses paramètres correspondent à des coefficients de parenté probabilistes. Enfin, nous étendons le modèle de mélange Pritchard-Stephens-Donnelly dans le cadre de notre modèle de co-ascendance et calculons son FST. Pour motiver ce travail, nous incluons un résumé des analyses que nous avons effectuées dans des articles de suivi, où notre nouvelle approche a été appliquée à des simulations et à des données humaines globales, montrant la complexité de la structure de la population humaine, démontrant notre succès dans l'estimation de la parenté et FST, et les lacunes des approches existantes. Le cadre probabiliste que nous présentons ici fournit un fondement théorique qui s'étend FST en termes de coefficients de consanguinité et de parenté à des structures de population arbitraires, ouvrant la voie à de nouveaux estimateurs et à de nouvelles analyses.

Remarque : Cet article est la première partie des manuscrits en deux parties. Nous les désignons dans le texte par les parties I et II, respectivement.


Première règle de probabilité

Notre première règle nous rappelle simplement la propriété de base de la probabilité que nous avons déjà apprise.

La probabilité d'un événement, qui nous informe de la probabilité qu'il se produise, peut aller de 0 (indiquant que l'événement ne se produira jamais) à 1 (indiquant que l'événement est certain).

Première règle de probabilité :

REMARQUE: Une utilisation pratique de cette règle est qu'elle peut être utilisée pour identifier tout calcul de probabilité qui s'avère être supérieur à 1 (ou inférieur à 0) comme incorrect.

Avant de passer aux autres règles, examinons d'abord un exemple qui fournira un contexte pour illustrer les prochaines règles.


Calcul des coefficients de consanguinité à partir des données

Si l'hétérozygotie observée dans une population est (H_O) , et nous supposons que les proportions généralisées de Hardy-Weinberg sont vérifiées, nous pouvons définir (H_O) égal à (f_<12>) , et résoudre l'équation. pour (F) pour obtenir une estimation du coefficient de consanguinité comme

Comme précédemment, (p) est la fréquence de l'allèle (A_<1>) dans la population. Ceci peut être réécrit en termes d'hétérozygotie observée ( (H_O) ) et d'hétérozygotie attendue en l'absence de consanguinité, (H_E=2pq) , comme [hat = frac = 1 - frac. étiqueter] Par conséquent, (hat) quantifie l'écart dû à la consanguinité de l'hétérozygotie observée par rapport à celle attendue en accouplement aléatoire, par rapport à cette dernière. Si nous avons plusieurs loci, nous pouvons remplacer (H_O) et (H_E) par leurs moyens sur les loci, (ar_O) et (ar_E) , respectivement. Notez qu'en principe, nous pourrions également calculer (F) pour chaque locus individuel d'abord, puis prendre la moyenne sur tous les loci. Cependant, cette procédure est plus susceptible d'introduire un biais si la taille des échantillons varie selon les loci, ce qui n'est pas improbable lorsque nous avons affaire à des données réelles.

Supposons que les fréquences de génotype suivantes ont été observées pour un locus d'estérase dans une population de Drosophile (A désigne l'allèle « rapide » et B désigne l'allèle « lent »):

Quelle est l'estimation du coefficient de consanguinité au locus de l'estérase ?


Probabilités dans le calcul du coefficient de parenté - Biologie

Si des données suffisantes sont disponibles, une façon de déterminer l'importance d'un ancêtre est de calculer sa contribution en pourcentage aux chiens actuels. Le % de contribution (alias pourcentage de sang) est déterminé par la façon dont les gènes sont transmis des parents à la descendance. Un individu hérite d'un ensemble de chromosomes et des gènes qu'ils portent, de son père et d'un deuxième ensemble homologue (équivalent) de la mère. Ainsi, chaque parent verse une contribution de 50 %. Comme les parents de toute génération contribuent toujours à 50 % de leurs gènes à leur progéniture, il semble raisonnable de s'attendre à ce que 25 % provienne de chaque grand-parent, 12,5 % de chaque arrière-grand-parent, et ainsi de suite. Cependant, une fois que nous avons dépassé les parents, nous avons affaire à des probabilités, pas à des certitudes. Ce n'est pas comme mélanger de la peinture ! Lorsque papa vous transmet un jeu de ses chromosomes, ils incluront une sélection de ceux hérités de ses deux parents, mais rien ne garantit que la sélection sera exactement égale. Il y a même une petite chance (très faible) qu'il transmette celles d'un seul de ses parents.

Au bout de 10 générations, la contribution de chacun des 1024 ancêtres s'élèverait, en théorie, à un peu moins de 0,1%. Cependant, dans le pedigree du chien de race moyenne, il y a rarement plus de 100 à 200 noms différents et certains apparaissent 50 fois ou plus. Ce sont les ancêtres significatifs qui apportent les contributions génétiques majeures.

Si vous avez un pedigree, vous pouvez calculer le pourcentage de contribution de toutes les répétitions simplement en multipliant le nombre de fois où chaque ancêtre apparaît dans une génération par le pourcentage approprié pour cette génération, puis en additionnant tout le pourcentage calculé des contributions de chaque génération. Le tableau ci-dessous montre le pourcentage de sang hérité de chaque ancêtre aux niveaux de génération donnés. La génération "1" est celle des parents.

Contribution génétique des ancêtres
Génération 1 2 3 4 5 6 7 8 9 10
% Contribution 50.0 25.0 12.5 6.25 3.125 1.563 0.781 0.391 0.195 0.098

Vous devriez obtenir un nombre entre 0 et 1 multiplié par 100 % pour obtenir le pourcentage de contribution.

Des bases de données existent pour de nombreuses races qui contiendront les données vous permettant d'étendre un pedigree à 10 générations ou plus. Le calcul manuel, bien que fastidieux, est toujours possible, mais peu pratique. Plusieurs programmes de pedigree (par exemple CompuPed) calculeront rapidement le pourcentage de contribution pour les ancêtres sélectionnés ou tous les ancêtres pour un nombre spécifié de générations, vous fournissant des informations sur les chiens qui ont eu le plus d'influence.

Coefficients de consanguinité

Alors que la plupart des éleveurs reconnaissent qu'un accouplement entre demi-frères ou cousins ​​représente la consanguinité, la majorité n'a probablement aucune idée de la relation la plus proche. Cela n'est pas aidé par la définition non standard de la consanguinité dans certains livres (par exemple, "Breeding Better Dogs" d'Onstott).

La définition standard de la consanguinité est qu'il s'agit de tout schéma qui fait que le père et la mère ont des ancêtres communs. De nombreux éleveurs utilisent le terme « reproduction » pour des parents proches et « reproduction en lignée » pour des individus plus éloignés, mais il n'y a pas de différence fondamentale.

Le paramètre utilisé pour exprimer ce patrimoine commun est appelé le coefficient de consanguinité et a été proposé pour la première fois par Sewell Wright en 1922. Désigné F par Wright (mais plus communément IC ou COI par les sélectionneurs), il peut théoriquement aller de 0 à 100%, et indique la probabilité que les deux allèles d'un gène soient identique par descendance.

La principale conséquence de la consanguinité est d'augmenter l'homozygotie. Cependant, l'IC n'est pas une mesure directe de l'homozygotie car les deux allèles transmis par des ancêtres différents peuvent être fonctionnellement identiques. De plus, une certaine proportion de tous les gènes sera homozygote car il n'y a qu'un seul allèle. L'IC sert d'indicateur de la proportion du reste qui peut avoir été rendue homozygote par consanguinité.

Le coefficient de consanguinité est fonction du nombre et de la localisation des ancêtres communs dans un pedigree. Il est ne pas fonction, sauf indirectement, de la consanguinité des parents. Ainsi, on peut accoupler deux individus hautement consanguins qui partagent peu d'ascendance commune et produire une portée avec un IC très faible. (Parce que le nombre potentiel d'ancêtres double à chaque génération, vous atteignez finalement un point où le nombre d'ancêtres dépasse le nombre d'individus vivants à ce moment-là. Vous êtes donc obligé de trouver des ancêtres communs si vous remontez assez loin.) Inversement, il est possible d'accoupler deux chiens étroitement apparentés, qui ont tous deux des CI faibles, et d'augmenter considérablement le CI.

L'approche la plus largement utilisée pour calculer les coefficients de consanguinité est la méthode des "paths"s de Wright (voir note) , mieux illustrée par un exemple simple. Supposons que nous accouplerions des demi-frères et sœurs, l'ancêtre commun, Anson, étant le père. Don est le fils d'Anson et Bess Eva la fille d'Anson et Claire. Fred est l'un de leurs descendants.

Pour simplifier, nous n'affichons pas les ancêtres qui ne sont pas partagés :

Considérons maintenant un gène pour lequel Anson porte deux allèles différents, a1 et a2. Il y a une probabilité de 50% que l'allèle Anson transmis à Don soit transmis à Fred. Il y a également une probabilité de 50 % que le même allèle soit transmis d'Anson à Eva, et une probabilité de 50 % qu'il soit transmis d'Eva à Fred, si Eva l'a obtenu. Lorsqu'il s'agit d'événements contingents (ceci * et * qui doivent arriver), nous multiplions les probabilités - dans ce cas 0,5 x 0,5 x 0,5 = 0,125 (12,5%). Ce nombre final est la probabilité que Fred soit homozygote pour l'un ou l'autre a1 ou a2 à cause du grand-père commun.

En général, la méthode de Wright consiste à déterminer le chemin de Fred à l'ancêtre commun, Anson, et inversement de l'autre côté du pedigree (Fred-Don-Anson-Eva-Fred), à compter le nombre d'individus sur le chemin, en excluant Fred (il y en a 3, Don-Anson-Eva) puis calculez ½ n , où n est ce nombre. Donc, dans le cas présent, nous avons (½) 3 ou (½ x ½ x ½) = 1/8, soit 12,5%. S'il s'agissait du seul ancêtre commun, le coefficient de consanguinité pour Fred serait de 12,5 %.

Maintenant, supposons que l'ancêtre commun était l'un des grands-pères des parents (c'est-à-dire un arrière-grand-père de la portée). Cela ajoute un individu de chaque côté du pedigree, de sorte que nous obtiendrons un chemin du type Fred-X-Don-Anson-Eva-Y-Fred, et la consanguinité sur Anson sera (1/2) 5 ou 1 /32 (3,125%).

Comme beaucoup d'autres calculs génétiques, l'IC est basé sur des probabilités, pas sur des certitudes. Un individu peut être plus ou moins fortement consanguin que le nombre calculé.

Si nous n'avions affaire qu'à un seul ancêtre commun, la vie serait relativement simple. Cependant, il y a deux complications à gérer. La première est qu'il y aura plus d'un ancêtre commun. Considérons le cas des cousins ​​germains. Dans les populations humaines, un tel appariement est interdit dans certaines sociétés mais autorisé dans d'autres. Nous avons déjà calculé la consanguinité pour un seul grand-parent commun. Les cousins ​​germains ont deux grands-parents communs, et nous ajoutons simplement le coefficient de consanguinité pour chacun pour obtenir 6,25 %.

La deuxième complication est que l'ancêtre commun peut être consanguin. Si tel est le cas, son coefficient de consanguinité devra être calculé. Pour en tenir compte, il faut multiplier le coefficient de consanguinité calculé pour Fred par (1 + F A ), où F A est le coefficient de consanguinité calculé pour Anson. Par exemple, si Anson est le produit d'un accouplement de cousins ​​germains, la consanguinité totale pour Fred sera de 0,125 x 1,0625 = 0,133 (13,3%) s'il n'y a pas d'autres ancêtres communs dans le pedigree.

Malheureusement, dans le pedigree moyen, il existe un grand nombre d'ancêtres communs. Par conséquent, la consanguinité totale pour un chien ne peut généralement pas être calculée manuellement et un logiciel approprié doit être utilisé (par exemple, CompuPed). Le calcul de la consanguinité pour les premières générations seulement n'est pas particulièrement utile. S'il y a plus d'un ou deux ancêtres communs dans un pedigree de quatre ou cinq générations, la consanguinité est probablement déjà plus élevée que souhaitable. Malheureusement, n'en avoir aucun ne garantit pas que les ancêtres communs ne se produiront pas en abondance plus tôt, et certains pedigrees de ce type atteignent encore des coefficients de consanguinité modérément élevés. Le nombre d'ancêtres communs ne peut pas non plus être utilisé comme un guide fiable, car le coefficient de consanguinité est très sensible au moment et à l'endroit où ils se produisent dans un pedigree.

Existe-t-il un moyen rapide de déterminer à quel point deux chiens sont génétiquement similaires ?

Supposons qu'un éleveur a deux chiennes (A et B) qu'elle veut accoupler à des mâles différents. Après des recherches minutieuses, elle a identifié trois mâles potentiellement appropriés (C, D et E), qui ont tous la même apparence. Elle espère obtenir un chiot mâle d'une portée et une femelle de l'autre, et aimerait éventuellement les faire se reproduire. L'objectif pourrait être de choisir la combinaison qui minimisera la consanguinité potentielle.Alternativement, elle peut être à la recherche de deux chiens qui ne sont pas des parents proches mais qui ont un héritage similaire.

Une approche serait de produire des portées hypothétiques pour toutes les combinaisons : AC, AD, AE, BC, BD et BE. Ensuite, il faudrait examiner les possibilités pour la deuxième génération. Il y en aura six si nous n'autorisons pas les grands-parents partagés, et 36 s'il n'y a pas de restrictions. Ces portées potentielles pourraient ensuite être évaluées pour la consanguinité ou la contribution en % d'ancêtres significatifs. Cela fournira certainement les données, mais est inutilement fastidieux.

Le coefficient de relation

Le coefficient de parenté (RC) fournit un moyen d'évaluer objectivement la similitude de deux pedigrees en donnant un nombre qui est une mesure directe de l'ascendance partagée. Dans la plupart des populations humaines, deux individus choisis au hasard auraient probablement un RC de 0, un frère et une sœur de 50 % et des jumeaux identiques de 100 %. Les autres relations se situeraient entre 0 et 50 %.

Le nombre généré peut être considéré comme analogue à la composition en %, sauf que vous comparez deux chiens au lieu d'en regarder un. Un frère et une sœur donneront une valeur de 50% tant qu'un ancêtre n'est pas répété. Une fois que les ancêtres commencent à se répéter, les individus n'ont plus un coefficient de consanguinité de zéro. Deux frères d'une lignée hautement consanguine peuvent avoir un RC de 80 % ou plus, et deux chiens qui ne sont pas des frères et sœurs peuvent avoir un RC supérieur à 50 %.

La formule du RC est :
RUN B = 2FUN B ÷ [(1 + FUNE)(1 + FB)] ½
FUN B est le coefficient de consanguinité d'une portée hypothétique entre A et B, et FUNE et FB sont les coefficients de consanguinité pour les deux individus, A et B.

Une approche plus simple du problème du sélectionneur serait de calculer les CR pour C vs D et E, et D vs E. Ce n'est pas un calcul crayon et papier. Cependant, confronté à un tel problème, il m'a fallu environ 2 minutes pour obtenir les trois RC avec la dernière version de CompuPed. Mes résultats étaient RCD 10,4 %, RCE 13,4%, RDE 17.2%.

Comme D et E partagent l'ascendance la plus commune, il en va de même pour la progéniture de leurs deux portées potentielles, tandis que C et D partagent le moins. Pour minimiser la consanguinité et maximiser la diversité, ce serait mon choix, toutes choses égales par ailleurs. (Ces valeurs sont en fait toutes inférieures à la moyenne de la race, qui est

Le coefficient de parenté

Les FUN B Le terme dans l'équation RC est parfois appelé « coefficient de parenté » et peut également être utilisé comme mesure de la relation entre deux individus. Son calcul est le même que celui d'un coefficient de consanguinité pour une portée hypothétique entre les deux chiens. (Peu importe qu'ils soient du même sexe.)

La parenté moyenne (mkje) pour les particuliers je est la moyenne des coefficients de parenté (Fje) entre je et tous les autres individus reproductibles de la population :


Un biologiste de la conservation considérerait l'individu avec le le plus bas signifie que la parenté est la plus précieuse sur le plan génétique en termes de maintien de la diversité dans la population, et essaierait de favoriser cet individu dans un programme de sélection.

Noter: Une approche alternative, souvent appelée méthode "tabulaire", calcule la consanguinité à partir de l'ancêtre le plus ancien jusqu'au(x) chien(s) actuel(s).

&copier John B. Armstrong, 1998, 1999


Simulation

Dans cette section, nous évaluons l'approche du rapport de vraisemblance pour distinguer les relations 3/4S des relations FS et 2e en utilisant des données simulées. Les pedigrees ont été simulés à partir des données génétiques des individus du projet GCAT, en utilisant la méthode ped-sim de Caballero et al. (2019). Nous appliquons cette méthode afin de tenir compte de la recombinaison en utilisant des cartes génétiques spécifiques au sexe (Bherer et al., 2017) et également un modèle d'interférence croisée (Campbell et al., 2015). Les simulations ont été effectuées comme suit. Premièrement, nous avons identifié 4147 individus potentiellement non apparentés avec un coefficient de parenté <0,025. De ces individus, nous avons retenu 537 488 SNP autosomiques avec une fréquence allélique mineure (MAF) > 0,01, Hardy-Weinberg exact milieu p valeur > 0,05 (Graffelman et Moreno, 2013) et taux d'appel manquant zéro. Les génotypes des individus non apparentés ont été phasés avec SHAPEIT4 (Delaneau et al., 2019) et ont été utilisés comme données d'entrée pour la méthode ped-sim. Ensuite, nous avons simulé 500 pedigrees contenant une paire FS et 500 pedigrees contenant une paire 3/4S. Au total, nous avons utilisé 3000 individus GCAT aléatoires comme fondateurs pour générer 3000 individus artificiels. Le nombre de paires apparentées simulées était de 4 000 PO, 500 FS, 500 3/4S et 3 500 2e degré sur un total de 17 997 000 paires. Pour estimer les probabilités IBD et le coefficient de parenté pour ces paires simulées, nous avons utilisé 27 087 SNP obtenus en conservant des variantes avec MAF > 0,40 et par élagage LD, nécessitant que les marqueurs aient une faible corrélation par paire (r 2 < 0,20).

La figure 1 montre le ((>_<0>,>_<1>)) -plot pour ces paires d'individus simulés. Les probabilités de MII ont été estimées avec le logiciel PLINK (Purcell et al., 2007). Comme prévu, les probabilités estimées de MII sont proches des valeurs théoriques attendues du tableau 1 pour la plupart des paires d'individus. Sur la figure 1, les relations 3/4S montrent une bonne séparation des relations du 2e degré mais se mélangent dans une certaine mesure avec les paires FS. Les probabilités IBD estimées semblent être centrées sur leurs valeurs attendues pour les paires FS, 3/4S et 2e degré, et ont une plus grande variance que les paires PO et UN. Le pouvoir discriminant de notre méthode dépend de manière cruciale de la variance de ces probabilités estimées (Hill et Weir, 2011).

18 millions de paires d'individus simulés utilisant 27 087 SNP.

UN : non apparenté 2e : relations au deuxième degré 3/4S : frères et sœurs aux trois quarts. FS : pleins frères et sœurs PO : parent-enfant. Les points vides marron représentent les probabilités théoriques d'IBD marron + signe la moyenne du groupe correspondant.

Les boxplots de l'estimateur de parenté récemment proposé par Goudet & Weir (Goudet et al. (2018), Weir et Goudet (2017)) montrés sur la figure 2 montrent clairement une différence de médiane pour les relations 3/4S et les relations de 1er et 2e degrés. , bien que la distribution du coefficient de parenté des 3/4S chevauche celles des couples du 1er et du 2e degré. De plus, les coefficients de parenté peuvent être identiques pour différentes relations, comme c'est le cas pour PO et FS. Par conséquent, selon l'Éq. (3), on calcule le FS

Rapports de vraisemblance UN pour 500 paires simulées 2nd, 500 3/4S et 500 FS. La figure 3 montre que les paires FS ont pour la plupart les valeurs LR les plus élevées dans le FS

Rapport UN, les paires 3/4S ont pour la plupart les valeurs LR les plus élevées dans les 3/4S

Le rapport UN et les paires de 2e degré ont principalement le plus grand LR dans le 2e

ONU. Notez le profil de données tracé en forme de signe "supérieur à" (">") suggérant l'inférence de 3/4S pour la plupart des paires 3/4S. En fait, le taux de classification correct de l'approche LR pour les paires simulées 2e, 3/4S et FS est de 500/500 = 1, 479/500 = 0,958 et 475/500 = 0,95, respectivement. En comparant le taux de classification correct de l'approche LR avec l'approche LR-kinbiplot (Graffelman et al., 2019) basé sur 500 FS, 500 3/4S, 3 500 2e et 5 000 paires simulées UN (Fig. S1), nous observons taux de classification légèrement inférieurs pour 3/4S (478/500 = 0,956) et FS (468/500 = 0,936) en utilisant une analyse discriminante linéaire et taux de classification légèrement meilleurs pour 3/4S (481/500 = 0,962) et FS (483/500 = 0,966) lors de l'utilisation de l'analyse discriminante quadratique comme modèle prédictif. Ces simulations montrent que l'approche LR proposée est utile pour distinguer les relations 3/4S des relations FS et 2e degré, et pour avoir des performances similaires à l'approche LR-kinbiplot proposée précédemment.


Voir la vidéo: PROBABILITÉS (Février 2023).