Informations

Quels facteurs dois-je considérer lors de la sélection d'un génome de référence pour la cartographie ?

Quels facteurs dois-je considérer lors de la sélection d'un génome de référence pour la cartographie ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'ai l'impression que le génome de référence le plus récent est généralement le meilleur des cas. Quels autres éléments dois-je prendre en compte lors de la sélection d'un génome de référence ? Par exemple, y a-t-il une raison particulière de ne pas utiliser le génome de référence le plus récent lors de l'alignement de courtes lectures à partir de RNAseq ?


Il y a plusieurs raisons!

Supposons que vous utilisez le génome humain de référence. La dernière version est hg38 ou GrCh38. Cela est sorti il ​​y a environ trois ans (décembre 2013). Bien que maintenant ces mêmes raisons ne s'appliquent pas vraiment à cet assemblage particulier, mais aucun autre assemblage ne vient à l'esprit où ces raisons sont démontrables. Lorsque vous traitez des données RNA-Seq, vous effectuez quelques tâches courantes.

  1. Annotations : Lorsqu'un nouvel assemblage sort, toutes les annotations existantes sont normalisées sur l'assemblage précédent. Prenez par exemple GENCODE, qui renvoie notamment à la version actuelle de gencode, qui est désormais basée sur hg38. Mais, plus important encore, notez qu'ils maintiennent toujours la même version pour hg19/GrCh37. D'après mon expérience, il faut environ 1 à 3 mois pour que les bases de données d'annotations migrent vers un nouvel assemblage de génome après la publication de l'assemblage.
  2. Pistes de conservation : Ce sont les pistes qui mettent le plus de temps à être mises à jour. Je ne posterai pas de lien vers les pistes ici. Mais, voici le navigateur de tables UCSC, vous pouvez accéder aux pistes de génomique comparative et visualiser les pistes de conservation (Phylop, Phastcons) qui sont disponibles pour chaque assemblage. Encore une fois par expérience, il a fallu plus d'un an pour que ces pistes soient générées pour hg38. Il est donc préférable de travailler sur l'assemblage précédent si vous souhaitez obtenir cette information particulière, car générer ces pistes par soi-même est une tâche très fastidieuse et gourmande en calculs.
  3. Risques associés aux génomes inachevés : Cela ne concerne pas vraiment le génome humain car le gain est de plus en plus petit à chaque assemblage consécutif. Mais compte tenu d'un assemblage composé à 70 % d'échafaudages, la variation entre les assemblages a tendance à être énorme. Pour les études fonctionnelles par opposition aux études insilico, cela n'a aucun sens de refaire l'intégralité de l'analyse à chaque sortie d'un nouvel assemblage, puisque la partie insilico de l'étude est le pilier prédictif sur lequel reposent les validations fonctionnelles. Bien qu'il n'en soit pas de même pour les études insilico où les résultats présentés au public sont uniquement prédictifs.
  4. Incohérence avec les études existantes : Il s'agit d'un obstacle majeur à l'utilisation d'un assemblage plus récent, particulièrement applicable aux génomes inachevés, dans lesquels les résultats peuvent être largement variables et ne pas s'aligner sur les connaissances préexistantes. Bien sûr, vous êtes peut-être celui qui a raison, mais il est également possible que la variabilité de vos résultats soit le résultat d'une erreur humaine. Il vaut donc mieux attendre une étude « historique » pour présenter le montage au public, permettant à votre étude de subir une lecture moins stricte et vous permettant également de valider la variabilité attendue de vos résultats.
  5. Pièges lors de l'analyse fonctionnelle: Pour l'analyse RNA-Seq, il est de pratique courante d'utiliser la RT-PCR pour un gène particulier afin d'établir le niveau d'expression attendu pour ce gène, ce qui validera à son tour une expérience RNA-Seq réussie dépourvue de duplications et d'artefacts PCR louches. Pour cette partie particulière, vous devez d'abord créer une amorce, qui valide le niveau d'expression attendu de ce gène. Mais cette amorce particulière provient d'un assemblage particulier. Il est également possible que la région qui est amplifiée se soit déplacée ou changée entre les assemblages. Ainsi, lorsque vous alignez vos données sur un assemblage différent de celui qui a été utilisé pour créer l'amorce, vous pouvez obtenir un niveau d'expression inattendu pour ce gène, car l'amorce d'origine a amplifié une région incorrecte, qui a été corrigée dans le nouvel assemblage.

Je sais qu'il y en a beaucoup d'autres. Mais ce sont les seuls qui me viennent à l'esprit pour le moment.


Des associations pangénomiques aux variantes causales candidates par cartographie statistique fine

Passer des associations statistiques de traits complexes avec des marqueurs génétiques à la compréhension des variantes génétiques fonctionnelles qui influencent les traits est souvent un processus complexe. La cartographie fine peut sélectionner et hiérarchiser les variantes génétiques pour une étude plus approfondie, mais la multitude de stratégies analytiques et de conceptions d'étude rend difficile le choix d'une approche optimale. Nous passons en revue les forces et les faiblesses des différentes approches de cartographie fine, en mettant l'accent sur les principaux facteurs qui affectent les performances. Les sujets comprennent l'interprétation des résultats des études d'association pangénomique (GWAS), le rôle du déséquilibre de liaison, les approches de cartographie fine statistique, les études transethniques, l'annotation génomique et l'intégration de données, et d'autres problèmes d'analyse et de conception.


Introduction

L'évolution convergente se produit lorsque des lignées indépendantes développent des phénotypes similaires en réponse à des pressions sélectives similaires (p.4 photosynthèse chez les plantes). 3 L'évolution convergente peut donc refléter à la fois le pouvoir de sélection mais aussi ses limites. Observer que des traits similaires ont évolué à plusieurs reprises est souvent considéré comme une preuve qu'un trait est adaptatif, en particulier lorsqu'il existe une correspondance constante entre le trait et l'environnement. Cependant, ce phénomène soulève la question : ce modèle reflète-t-il plutôt une limitation commune à la sélection et d'autres solutions mieux adaptées sont-elles possibles ? 4 Examiner l'évolution convergente n'est donc pas seulement intéressant en soi, mais il peut aider à démêler les nombreux facteurs connus pour influencer l'adaptation, en mettant en lumière leur importance relative et la manière dont ils interagissent. En passant par différents niveaux d'organisation biologique, du phénotype aux voies, gènes et paires de bases sous-jacents, nos prédictions sur ce qui pourrait limiter la sélection peuvent changer (par exemple, les contraintes de développement des voies, les limites de l'apport mutationnel). 5 Récemment, avec l'avènement des méthodes de séquençage à haut débit, il est devenu possible d'explorer les génomes d'organismes non modèles et de se demander si la convergence phénotypique se reflète à divers niveaux moléculaires. Cela promet d'identifier des loci en évolution convergente et d'élucider les contraintes génomiques et les contingences historiques qui conduisent à une évolution convergente.

La convergence moléculaire peut être obtenue par une variété de modes : la sélection au sein des populations peut agir indépendamment sur (1) de novo mutations (DNM) apparaissant indépendamment dans différentes lignées, (2) ségrégation des variantes génétiques qui sont apparues dans l'ancêtre commun (c'est-à-dire variation génétique permanente, SGV), ou (3) loci partagés par le flux de gènes (GF) entre les populations (Fig. 1 ). La convergence DNM est souvent considérée comme l'interprétation traditionnelle de la convergence moléculaire car les mutations sont indépendantes, mais dans les trois modes, les populations s'adaptent indépendamment à des environnements similaires. 6 Pour éviter une confusion supplémentaire, nous adopterons le cadre d'Arendt et Reznick 7 et appellerons tous les mécanismes une évolution convergente et ferons référence à des modes de convergence spécifiques si nécessaire. Il vaut la peine de faire la distinction entre ces modes car chacun est censé nécessiter différentes forces de sélection et refléter différentes limitations d'évolution (par exemple, la sélection sur un DNM avec une faible fréquence de démarrage devra être plus forte que la sélection sur SGV avec une fréquence de démarrage plus élevée pour atteindre fixation). 6, 8

L'interaction entre la sélection naturelle et les contraintes évolutives dans la prédiction de l'évolution convergente phénotypique a été bien explorée dans la littérature, mais nous devons encore établir un cadre pour l'évolution convergente moléculaire. On a beaucoup parlé du rôle de la contingence dans la convergence phénotypique, à la fois de l'importance des événements aléatoires et de la manière dont ils peuvent façonner le contexte et la dépendance de l'adaptation. 9, 10 Recadrées dans un cadre de génétique des populations, nous pouvons considérer ces contingences comme l'importance de la DNM et les processus qui façonnent les modèles de SGV. Les théories génétiques des populations de l'équilibre mutation-sélection-dérive fournissent des prédictions solides sur la façon dont le DNM et le SGV varient en fonction des paramètres démographiques (par exemple, des niveaux inférieurs de SGV et de nouvelles mutations au sein des populations efficaces petites par rapport aux grandes). Cependant, tester ces prédictions dans les populations sauvages est rarement fait. De même, l'importance des contraintes sur la convergence phénotypique (fonctionnelle, développementale et génétique) a reçu beaucoup d'attention dans la littérature. 4, 11 Avec la connaissance de génomes entiers, nous pouvons commencer à tester directement les prédictions de la contrainte génétique. 12 Par exemple, on peut se demander si des loci à évolution convergente se produisent plus souvent dans des régions du génome avec des taux de mutation ou de recombinaison différents. Par conséquent, le développement d'un cadre avec des prédictions claires sur la façon dont l'histoire de la population et le contexte génomique affecteront et interagiront vers la convergence moléculaire est nécessaire et réalisable.

Il existe de nombreuses façons différentes de détecter l'évolution convergente au niveau génomique, par exemple, les méthodes comparatives phylogénétiques, 13 ou la cartographie des traits convergents phénotypiques à l'aide d'études d'association à l'échelle du génome (GWAS) ou de loci de traits quantitatifs (QTL). 14 Cependant, ceux-ci reposent soit sur une connaissance préalable des gènes candidats (par exemple, des méthodes comparatives), soit nécessitent des échantillons de très grande taille (par exemple, GWAS) ou la capacité de réaliser des croisements génétiques contrôlés en laboratoire (par exemple, une cartographie QTL). Ce n'est pas utile pour les espèces non modèles, où nous avons certaines des preuves les plus convaincantes et les plus diverses de l'évolution convergente phénotypique. Récemment, une nouvelle approche de la génomique des populations a réussi à identifier la convergence dans les génomes des populations naturelles que nous appelons cela l'approche des valeurs aberrantes chevauchantes (OOA) (Fig. 2). Cette approche a l'avantage de nécessiter peu d'informations préalables sur la base génétique de l'adaptation, et elle peut être appliquée à un large éventail de taxons. Dans les études OOA, des paires de populations qui se sont adaptées indépendamment à des environnements alternatifs sont analysées au niveau du génome pour les signatures de sélection, par exemple, la différenciation/divergence génétique des populations. Au sein de chaque ensemble de populations divergentes, la sélection est déduite en identifiant les zones génomiques périphériques, par rapport à la toile de fond putativement neutre du génome. Une fois les valeurs aberrantes identifiées dans chaque réplicat, la liste des valeurs aberrantes qui se chevauchent entre les réplicats est considérée comme une preuve de l'évolution moléculaire convergente. Fondamentalement, l'inclusion d'un échantillonnage répliqué dans les études de convergence différencie la littérature des études d'« adaptation locale » (examinées dans la réf. 15 ).

Ici, nous passons en revue l'utilisation de l'OOA pour étudier l'évolution convergente des populations sauvages. Bien que les études expérimentales et de domestication aient fourni des informations précieuses sur l'évolution moléculaire convergente, elles ont des structures de population et de génomique différentes par rapport aux systèmes naturels. Les études expérimentales sur l'évolution de la convergence (examinées dans la référence 16) ont contribué à démontrer les contributions relatives du caractère aléatoire et de la contingence dans l'évolution convergente, par exemple, en démontrant les effets des mutations apparaissant dans un ordre particulier sur l'évolution convergente des populations. 17 Ces études, cependant, sont souvent limitées à des espèces modèles, en particulier celles avec des temps de génération courts, et utilisent souvent des souches de laboratoire avec une faible diversité génétique (par exemple, des lignées consanguines de drosophile ou des lignées microbiennes). Par conséquent, les paramètres démographiques et le contexte génomique sont susceptibles d'être très différents dans ces études par rapport aux populations naturelles exsangues et très variables. Les études sur la convergence génomique comme conséquence de la domestication ont été également instructives sur la convergence moléculaire, mais encore une fois, elles sont d'une pertinence discutable pour l'étude de l'adaptation dans la nature. La domestication est limitée à une poignée d'organismes et est limitée à un laps de temps relativement court. 18, 19 De plus, la sélection artificielle pour un nombre limité de traits spécifiques peut être très différente de la sélection naturelle agissant sur la fitness globale dans la nature, selon la relation entre les traits et la fitness. Par conséquent, l'étude de la convergence génomique dans les populations naturelles permettra aux chercheurs d'examiner les effets de paramètres de population complexes et réalistes sur la probabilité de convergence, tout en élargissant la recherche à un large éventail de taxons non modèles.

Nous commençons par présenter une brève revue synthétique dans laquelle nous analysons les résultats d'études récentes utilisant l'OOA dans les populations naturelles. Nous adoptons une approche similaire à celle d'Ahrens et al. 15 pour aborder et discuter de la manière dont les problèmes soulevés par les approches aberrantes dans les études d'adaptation locale peuvent influencer les études d'OOA. En bref, nous examinons si les caractéristiques de la conception de l'étude et de l'intensité de l'échantillonnage affectent l'identification des loci convergents (définis comme le chevauchement des valeurs aberrantes entre les répétitions). Il est tentant de supposer que les faux positifs dérivés d'analyses de valeurs aberrantes individuelles sont distribués de manière aléatoire dans le génome et, par conséquent, ne se répéteront pas dans les réplicats. Cependant, cela peut ne pas toujours être le cas. Nous explorons ensuite comment la démographie de la population et le contexte génomique peuvent contribuer à la convergence et également à de fausses conclusions dans les études OOA. Enfin, nous explorons des méthodes émergentes dans le domaine de la convergence génomique dans les populations naturelles.


Introduction

L'accumulation rapide de séquences génomiques et le développement de méthodes statistiques puissantes, pour détecter les signatures d'adaptation, nous offrent une opportunité sans précédent d'accroître notre compréhension des régions génomiques importantes sur le plan fonctionnel. Même si les principales sources de caractères adaptatifs causant des différences phénotypiques entre organismes restent débattues ( Hughes 2012 ), il est généralement admis que la sélection positive (PS) (sélection en faveur de mutations avantageuses) joue un rôle important dans l'origine de nouveaux phénotypes ( Anisimova et Liberles 2012 ). En fait, les preuves de la sélection agissant sur les séquences codant pour les protéines ont énormément augmenté au cours des 20 dernières années ( Fitch et al. 1991 McDonald et Kreitman 1991 Bishop et al. 2000 Bustamante et al. 2005 Aguileta et al. 2010 Rech et al. 2012). Cependant, le niveau élevé de similitude entre les protéines (en nombre et en fonction), provenant d'organismes phénotypiquement très différents, et le fait qu'une grande partie de l'ADN non codant pour les protéines des génomes eucaryotes est en fait fonctionnelle ( Kondrashov 2005 Taft et al. 2007 Raffaele et Kamoun 2012 ), a conduit de nombreux chercheurs à se demander si la diversité phénotypique est principalement déterminée par des changements dans les séquences codant pour les protéines ou dans les séquences régulatrices non codantes ( King et Wilson 1975 Oleksiak et al. 2002 Gasch et al. 2004 Whitehead et Crawford 2006 Wray 2007). Pour cette raison, une grande attention a récemment été accordée à la compréhension de la fonction des séquences d'ADN non codantes, comme illustré par le projet humain ENCODE ( ENCODE Project Consortium 2012 ) ainsi qu'à l'étude de l'évolution moléculaire de ces séquences ( Zhen et Andolfatto 2012 ). Néanmoins, les études d'évolution adaptative dans l'ADN non codant sont actuellement limitées aux organismes modèles, y compris la levure ( Fay et Benavides 2005 Borneman et al. 2007 Ronald et Akey 2007 Emerson et al. 2010 ), Arabidopsis (Kim et al. 2007), Drosophile ( Andolfatto 2005 Haddrill et al. 2008 ), des souris ( Kousathanas et al. 2011 ) et des humains ( Keightley et al. 2005 Haygood et al. 2007 , 2010 ). Il devient maintenant clair que la sélection naturelle agit sur de larges portions du génome non codant.

Dans ce travail, nous étudions les modèles de sélection opérant à la fois sur des séquences d'ADN codant pour les protéines (CDS) et sur des séquences intergéniques et introniques non codantes dans un échantillon mondial de huit souches du champignon filamenteux. Colletotrichum graminicola ( Cg ). Le genre Colletotrichum représente l'un des dix groupes d'agents phytopathogènes les plus dévastateurs sur le plan économique, provoquant des pourritures post-récolte et des taches d'anthracnose et des brûlures des parties aériennes de la plante dans une vaste gamme de cultures agronomiques et horticoles à travers le monde ( Cannon et al. 2012 Dean et al. 2012 ). Cg infecte le maïs ( Zea mays ) ( LeBeau 1950 Jamil et Nicholson 1991 ), produisant des pertes de rendement annuelles de plus de 1 milliard de dollars rien qu'aux États-Unis ( Frey et al. 2011 ) et ayant un grand potentiel d'endommager les écosystèmes agricoles ( Kamenidou et al. 2013 ). En outre, Cg est un organisme modèle pour l'étude des agents pathogènes hémibiotrophes, ceux qui commencent leur infection en tant que biotrophes (maintenant la cellule hôte en vie) mais passent plus tard à un mode de vie nécrotrophique, tuant leurs hôtes et se nourrissant de cellules mortes (Bergstrom et Nicholson 1999 O'Connell et al. 2012 Vargas et al. 2012 ). L'intérêt pour ce champignon haploïde à reproduction clonale a conduit les chercheurs à développer une séquence génomique de référence de haute qualité, longue de 51,6 Mo et répartie sur 13 chromosomes avec 12 006 gènes prédits codant pour des protéines ( O'Connell et al. 2012 ).

Afin d'étudier les pressions sélectives agissant sur différentes régions du génome, nous avons séquencé les génomes de sept isolats phénotypiquement et géographiquement divers de Cg et les ont conjointement analysés avec le génome de référence de haute qualité de Cg souche M1.001 ( O'Connell et al. 2012 ). Nous avons trouvé des preuves que les séquences d'ADN codant et non codant pour les protéines des gènes liés à la pathogénicité sont soumises à des pressions sélectives différentielles par rapport à d'autres gènes. De plus, le type de sélection agissant dans différentes régions du génome est lié à la fois à la fonction des gènes et à la régulation transcriptionnelle des gènes au cours de l'infection du maïs. Cette étude est la première étude à l'échelle du génome de la sélection naturelle agissant à la fois sur les séquences codantes et non codantes dans un champignon filamenteux phytopathogène important sur le plan agronomique.


DISCUSSION

Avec le développement du HTS, plus d'un millier de génomes humains ont été séquencés et plusieurs d'entre eux ont été minutieusement analysés. Bien que différentes études s'accordent généralement sur la quantité de variation d'un seul nucléotide dans un génome, les estimations de la variation indel d'une étude à l'autre ont considérablement différé. Dans le présent manuscrit, nous avons analysé les forces et les lacunes des technologies basées sur HTS pour identifier les indels dans les génomes humains personnels. Nous avons utilisé notre analyse pour estimer le nombre total de polymorphismes indels dans un génome humain, arrivant à l'estimation de ∼1 million d'indels dans un génome yoruba, cohérent avec les études antérieures basées sur Sanger (8), mais significativement plus élevé que les récentes études basées sur HTS. analyses (10, 12). Il est intéressant de noter que l'application du rapport S/I de 4,7 rapporté pour le génome de Celera dans (16) aux dénombrements de SNP de ( 8) donnerait les 683 702 indels estimés pour le génome de Craig Venter alors que ( 8) rapporte 851 575 indels trouvés directement à partir Données de Sanger, correspondant à un rapport S/I de 3,8. Cependant, ces deux chiffres sont encore inférieurs à nos estimations totales ajustées pour le génome yoruba, dérivées des résultats PRISM, GATK et Dindel avec différents aligneurs de lecture. L'utilisation des données de deux plates-formes de séquençage complémentaires, des lectures Sanger plus longues mais à faible couverture et des lectures Illumina plus courtes mais à couverture plus élevée, a été essentielle pour révéler l'étendue beaucoup plus grande de la variation indel dans le génome alors que les estimations basées sur une seule de ces technologies aboutissent à des résultats significatifs. biais et sous-déclaration potentielle du montant total de la variation.

Nous démontrons également que la présence de régions répétées telles que les homopolymères, les dimères et les éléments Alu peut expliquer un nombre disproportionné d'indels non détectés. Par exemple, nos résultats montrent qu'au moins un tiers de tous les indels se produisent dans des homopolymères longs (>10 pb), qui sont les régions avec des taux élevés d'erreurs de séquençage et des difficultés connues pour l'analyse des indels (28, 30). Il semble que l'effet négatif de répétitions plus longues sur la détection d'indel ne peut pas être facilement atténué en améliorant la qualité ou la couverture du séquençage, mais est de nature plus fondamentale.

Nous présentons également des preuves que la sous-déclaration des indels dans les homopolymères plus longs est exacerbée par un processus évolutif, par lequel les effets de plusieurs indels individuels sont fusionnés et ne peuvent plus être distingués. Nos résultats soutiennent l'hypothèse que les mutations indel se produisent en fait à un taux plus élevé que ce qui peut être discerné à partir de l'alignement des séquences. Nous présentons des preuves que la distance évolutive ne semble pas affecter la longueur de l'indel dans les non-homopolymères et les homopolymères courts. D'autre part, il semble que dans les homopolymères plus longs, une période d'évolution plus longue (par exemple entre l'ancêtre commun de l'homme et un primate) est associée à une surreprésentation de grands indels, dissimulant potentiellement le véritable taux de variation des indels dans le génome.

Nous souhaitons remercier les membres du laboratoire Brudno et Shamil Sunyaev pour leurs précieuses critiques de ce travail.


Une amorce sur le séquençage du génome

Un génome est constitué de tout l'ADN contenu dans le noyau d'une cellule. L'ADN est composé de quatre blocs de construction chimiques ou « bases » (pour simplifier, abrégés G, A, T et C), les informations biologiques codées dans l'ADN étant déterminées par l'ordre de ces bases. Les organismes diploïdes, comme les humains et tous les autres mammifères, contiennent des copies en double de presque tout leur ADN (c'est-à-dire des paires de chromosomes avec un chromosome de chaque paire hérité de chaque parent). La taille du génome d'un organisme est généralement considérée comme le nombre total de bases dans une copie représentative de son ADN nucléaire. Dans le cas des organismes diploïdes (comme les humains), cela correspond à la somme des tailles d'une copie de chaque paire de chromosomes.

Les organismes diffèrent généralement par la taille de leur génome. Par exemple, le génome de E. coli (une bactérie qui vit dans votre intestin) est

5 millions de bases (appelées aussi mégabases), celle d'une mouche des fruits est

123 millions de bases, et celle d'un humain est

3 milliards de bases). Il y a aussi des extrêmes surprenants, comme avec le pin à encens - son génome est

23 milliards de bases, plus de sept fois plus grandes que les nôtres. Évidemment, le coût pour séquencer un génome dépend de sa taille. La discussion ci-dessous se concentre sur le génome humain, gardez à l'esprit qu'une seule copie « représentative » du génome humain est

3 milliards de bases, alors que le génome réel (diploïde) d'une personne donnée est

Les génomes sont volumineux et, du moins avec les méthodes actuelles, leurs bases ne peuvent pas être « lues » dans l'ordre (c'est-à-dire séquencées) de bout en bout en une seule étape. Au contraire, pour séquencer un génome, son ADN doit d'abord être décomposé en morceaux plus petits, chaque morceau résultant étant ensuite soumis à des réactions chimiques qui permettent de déduire l'identité et l'ordre de ses bases. L'ordre de base établi dérivé de chaque morceau d'ADN est souvent appelé une « lecture de séquence », et la collection de l'ensemble résultant de lectures de séquences (souvent en milliards) est ensuite assemblée par calcul pour déduire la séquence du génome de départ. . Le séquençage des génomes humains est aujourd'hui facilité par la disponibilité de séquences « de référence » disponibles du génome humain, qui jouent un rôle important dans le processus d'assemblage informatique. Historiquement, le processus de décomposition des génomes, de séquençage des morceaux individuels d'ADN, puis de réassemblage des lectures de séquences individuelles pour générer une séquence du génome de départ était appelé « séquençage shotgun » (bien que cette terminologie soit moins fréquemment utilisée aujourd'hui). Lorsqu'un génome entier est séquencé, le processus est appelé « séquençage du génome entier ». Voir la figure 2 pour une comparaison des méthodes de séquençage du génome humain à l'époque du projet du génome humain et circa

Une alternative au séquençage du génome entier est le séquençage ciblé d'une partie d'un génome. Le plus souvent, cela implique simplement le séquençage des régions codant pour les protéines d'un génome, qui résident dans des segments d'ADN appelés « exons » et reflètent la partie actuellement « la mieux comprise » de la plupart des génomes. Par exemple, tous les exons du génome humain (l'« exome » humain) correspondent à

1,5% du génome humain total. Des méthodes sont maintenant facilement disponibles pour « capturer » (ou isoler) expérimentalement uniquement les exons, qui peuvent ensuite être séquencés pour générer une « séquence de l'ensemble de l'exome » d'un génome. Le séquençage de l'exome entier nécessite des manipulations de laboratoire supplémentaires, donc une séquence de l'exome entier ne coûte pas

1,5% d'une séquence du génome entier. Mais comme beaucoup moins d'ADN est séquencé, le séquençage de l'exome entier est (au moins actuellement) moins cher que le séquençage du génome entier.

Un autre facteur important des coûts associés à la génération de séquences génomiques concerne la qualité des données. Cette qualité dépend fortement du nombre moyen de fois où chaque base du génome est réellement « lue » au cours du processus de séquençage. Au cours du projet du génome humain (HGP), les niveaux typiques de qualité considérés étaient : (1) « séquence de brouillon » (couvrant

99,9% de précision) et (2) « séquence finie » (couvrant >95% du génome à

99,99% de précision). La production d'une séquence « finie » vraiment de haute qualité selon cette définition est très coûteuse à noter, le processus de « finition de séquence » est très laborieux et est donc associé à des coûts élevés. En fait, la plupart des séquences du génome humain produites aujourd'hui sont des « ébauches de séquences » (parfois au-dessus et parfois en dessous de la précision définie ci-dessus).

Il y a donc un certain nombre de facteurs à considérer lors du calcul des coûts associés au séquençage du génome. Il existe plusieurs types et niveaux de qualité différents de séquences génomiques, et de nombreuses étapes et activités peuvent être impliquées dans le processus lui-même. Comprendre le coût réel d'une séquence du génome nécessite donc une connaissance de ce qui a été et n'a pas été inclus dans le calcul de ce coût (par exemple, la génération de données de séquence, la finition de séquence, les activités initiales telles que la cartographie, l'amortissement de l'équipement, les frais généraux, les services publics, les salaires, les analyses de données, etc.). En réalité, il existe souvent des différences dans ce qui est inclus lors de l'estimation des coûts de séquençage du génome dans différentes situations.

Vous trouverez ci-dessous des informations récapitulatives sur : (1) le coût estimé du séquençage du premier génome humain dans le cadre du PGH (2) le coût estimé du séquençage d'un génome humain en 2006 (c'est-à-dire il y a environ une décennie) et (3) le coût estimé coût du séquençage d'un génome humain en 2016 (c'est-à-dire à l'heure actuelle).

Un génome est constitué de tout l'ADN contenu dans le noyau d'une cellule. L'ADN est composé de quatre blocs de construction chimiques ou « bases » (pour simplifier, abrégés G, A, T et C), les informations biologiques codées dans l'ADN étant déterminées par l'ordre de ces bases. Les organismes diploïdes, comme les humains et tous les autres mammifères, contiennent des copies en double de presque tout leur ADN (c'est-à-dire des paires de chromosomes avec un chromosome de chaque paire hérité de chaque parent). La taille du génome d'un organisme est généralement considérée comme le nombre total de bases dans une copie représentative de son ADN nucléaire. Dans le cas des organismes diploïdes (comme les humains), cela correspond à la somme des tailles d'une copie de chaque paire de chromosomes.

Les organismes diffèrent généralement par la taille de leur génome. Par exemple, le génome de E. coli (une bactérie qui vit dans votre intestin) est

5 millions de bases (appelées aussi mégabases), celle d'une mouche des fruits est

123 millions de bases, et celle d'un humain est

3 milliards de bases). Il y a aussi des extrêmes surprenants, comme avec le pin à encens - son génome est

23 milliards de bases, plus de sept fois plus grandes que les nôtres. Évidemment, le coût pour séquencer un génome dépend de sa taille. La discussion ci-dessous se concentre sur le génome humain, gardez à l'esprit qu'une seule copie « représentative » du génome humain est

3 milliards de bases, alors que le génome réel (diploïde) d'une personne donnée est

Les génomes sont volumineux et, du moins avec les méthodes actuelles, leurs bases ne peuvent pas être « lues » dans l'ordre (c'est-à-dire séquencées) de bout en bout en une seule étape. Au contraire, pour séquencer un génome, son ADN doit d'abord être décomposé en morceaux plus petits, chaque morceau résultant étant ensuite soumis à des réactions chimiques qui permettent de déduire l'identité et l'ordre de ses bases. L'ordre de base établi dérivé de chaque morceau d'ADN est souvent appelé « lecture de séquence », et la collection de l'ensemble résultant de lectures de séquence (souvent numérotées par milliards) est ensuite assemblée par calcul pour déduire la séquence du génome de départ. . Le séquençage des génomes humains est aujourd'hui facilité par la disponibilité de séquences « de référence » disponibles du génome humain, qui jouent un rôle important dans le processus d'assemblage informatique. Historiquement, le processus de décomposition des génomes, de séquençage des morceaux individuels d'ADN, puis de réassemblage des lectures de séquences individuelles pour générer une séquence du génome de départ était appelé « séquençage shotgun » (bien que cette terminologie soit moins fréquemment utilisée aujourd'hui). Lorsqu'un génome entier est séquencé, le processus est appelé « séquençage du génome entier ». Voir la figure 2 pour une comparaison des méthodes de séquençage du génome humain à l'époque du projet du génome humain et circa

Une alternative au séquençage du génome entier est le séquençage ciblé d'une partie d'un génome. Le plus souvent, cela implique simplement le séquençage des régions codant pour les protéines d'un génome, qui résident dans des segments d'ADN appelés « exons » et reflètent la partie actuellement « la mieux comprise » de la plupart des génomes. Par exemple, tous les exons du génome humain (l'« exome » humain) correspondent à

1,5% du génome humain total. Des méthodes sont maintenant facilement disponibles pour « capturer » (ou isoler) expérimentalement uniquement les exons, qui peuvent ensuite être séquencés pour générer une « séquence de l'ensemble de l'exome » d'un génome. Le séquençage de l'exome entier nécessite des manipulations de laboratoire supplémentaires, donc une séquence de l'exome entier ne coûte pas

1,5% d'une séquence du génome entier. Mais comme beaucoup moins d'ADN est séquencé, le séquençage de l'exome entier est (au moins actuellement) moins cher que le séquençage du génome entier.

Un autre facteur important des coûts associés à la génération de séquences génomiques concerne la qualité des données. Cette qualité dépend fortement du nombre moyen de fois où chaque base du génome est réellement « lue » au cours du processus de séquençage. Au cours du projet du génome humain (HGP), les niveaux typiques de qualité considérés étaient : (1) « draft sequence » (couvrant

99,9% de précision) et (2) « séquence finie » (couvrant >95% du génome à

99,99% de précision). La production d'une séquence « finie » vraiment de haute qualité selon cette définition est très coûteuse à noter, le processus de « finition de séquence » est très laborieux et est donc associé à des coûts élevés. En fait, la plupart des séquences du génome humain produites aujourd'hui sont des « ébauches de séquences » (parfois supérieures et parfois inférieures à la précision définie ci-dessus).

There are thus a number of factors to consider when calculating the costs associated with genome sequencing. There are multiple different types and quality levels of genome sequences, and there can be many steps and activities involved in the process itself. Understanding the true cost of a genome sequence therefore requires knowledge about what was and was not included in calculating that cost (e.g., sequence data generation, sequence finishing, upfront activities such as mapping, equipment amortization, overhead, utilities, salaries, data analyses, etc.). In reality, there are often differences in what gets included when estimating genome-sequencing costs in different situations.

Below is summary information about: (1) the estimated cost of sequencing the first human genome as part of the HGP (2) the estimated cost of sequencing a human genome in 2006 (i.e., roughly a decade ago) and (3) the estimated cost of sequencing a human genome in 2016 (i.e., the present time).


What factors should I consider when selecting a reference genome for mapping? - La biologie

A principal obstacle to completing maps and analyses of the human genome involves the genome’s “inaccessible” regions: sequences (often euchromatic and containing genes) that are isolated from the rest of the euchromatic genome by heterochromatin and other repeat-rich sequence. We describe a way to localize these sequences by using ancestry linkage disequilibrium in populations that derive ancestry from at least three continents, as is the case for Latinos. We used this approach to map the genomic locations of almost 20 megabases of sequence unlocalized or missing from the current human genome reference (NCBI Genome GRCh37)—a substantial fraction of the human genome’s remaining unmapped sequence. We show that the genomic locations of most sequences that originated from fosmids and larger clones can be admixture mapped in this way, by using publicly available whole-genome sequence data. Genome assembly efforts and future builds of the human genome reference will be strongly informed by this localization of genes and other euchromatic sequences that are embedded within highly repetitive pericentromeric regions.


Current Call (OPEN)

The current call for proposals offers multiple capabilities, as described below:

1) Synthesis of genes and pathways for functional characterization. A single proposal can request a total of 100 to 500 kb of DNA synthesis capacity per proposal. A consortium (with co-PIs from at least 3 different institutions) can request up to 1,500 kb. All constructs are synthesized and assembled into user-defined plasmids, sequence validated, and transformed into an E. coli strain before shipment to users. The products are delivered to users as glycerol stocks. Projects requiring specific nucleotide sequences (such as those required for homology-based recombination) may experience lower successful assemblies due to difficulties in synthesizing precise DNA sequences in the absence of refactoring. Therefore, we may have to adjust the scope of the project depending on the complexity of the sequence constraints. Prospective users are encouraged to contact JGI staff to discuss.

2) Synthesis of combinatorial pathway libraries for fast-track metabolic engineering. Each proposal may request up to 500 kb of DNA de novo synthesis capacity to produce millions of basepairs of combinatorial variants. The JGI will also help identify a panel of each pathway component and design final constructs. All constructs are assembled using type II restriction-enzyme-based technologies (e.g., golden gate assembly) into user-defined plasmids and are transformed into E. coli strains before shipment to users no sequencing validations will be performed for the constructs. The products are delivered to users as glycerol stocks.

3) Synthesis of sgRNA libraries. Each proposal may request up to six libraries comprising up to 12,000 sgRNA sequences per library, or more than six libraries with less degree of variants per library. The JGI can help design sgRNA sequences based on the genome sequences of targeted microbes. All sgRNA constructs are synthesized, cloned into user-defined plasmids, and transformed into an E. coli strain as pools. The quality of these libraries is evaluated with sequencing-based analysis using MiSeq before shipment to users. The JGI will deliver the libraries to users as glycerol stocks. The subsequent transformation into the targeted microbes and functional screenings will be performed by users. The JGI can further evaluate enriched sgRNA libraries with sequencing-based analysis using MiSeq.

4) Strain Engineering: Genomic Integration of Synthetic Constructs into a Set of Bacterial Strains. JGI is offering a limited capacity of Chassis-independent recombinase-assisted genome engineering (CRAGE) to users. This technology enables integration of large, complex genetic constructs directly into the chromosomes of diverse gamma-proteobacteria with high accuracy and efficiency. Proposals may request up to 96 constructs to be cloned into a CRAGE compatible vector under the control of a T7 promoter and conjugated into a maximum of 5 gamma-proteobacteria hosts. We currently do not offer domestication of new strains to users.

The current list of preferred microbial species offered through this call include:

Pseudomonas putida KT2440

Yersinia aldovae ATCC 35236

It is recommended that you contact Yasuo Yoshikuni (DNA synthesis program head) to discuss the desired strains prior to submitting your proposal as there may be alternative strains that can be used.

Reference: CRAGE enables rapid activation of biosynthetic gene clusters in undomesticated bacteria https://www.nature.com/articles/s41564-019-0573-8

For additional information (literature citations, video), see this CRAGE blog post.

Applicants are also invited to request one or more other JGI functional genomics capabilities listed below.

5) Sequence data mining. The JGI’s genome portals IMG, Mycocosm and Phytozome contain a wealth of genomic data from microbes, fungi, plants and microbiomes. Proposals may request assistance with database searches for the selection of target genes and pathways for synthesis. However, capacity for analyzing search results and aiding in target selection is very limited users needing assistance with these tasks should contact JGI in advance to discuss feasibility.

6) Metabolomics based functional analyses. Metabolomic technologies at JGI enable users to examine diverse polar and non-polar metabolites from plants, microbes, and environments. In addition, users may request targeted analysis of stable isotope labeling for specific metabolites. Proposals should clearly indicate how the data obtained will be linked to gene function, and may request up to 50 polar metabolite sample analyses or 150 non-polar metabolite sample analyses.

7) Mapping of transcription factor binding sites. High-throughput mapping of putative transcription binding sites enables large-scale characterization of gene regulatory networks in a selected species. Proposals can request in vitro transcription factor binding site mapping by DNA affinity purification sequencing (DAP-seq) for up to 50 transcription factors. DNA/gene synthesis should also be requested for construction of affinity-tagged transcription factor clones used in the assay.

8) RNA-seq. Transcriptional profiling can aid in characterizing gene regulatory pathways activated in response to perturbations or environmental stimuli. Proposals may request RNA sequencing of up to 54 samples from plants, fungi or microbes for the purpose of testing gene function or elucidating regulatory networks.


ABSTRAIT

The separation of germ cell populations from the soma is part of the evolutionary transition to multicellularity. Only genetic information present in the germ cells will be inherited by future generations, and any molecular processes affecting the germline genome are therefore likely to be passed on. Despite its prevalence across taxonomic kingdoms, we are only starting to understand details of the underlying micro-evolutionary processes occurring at the germline genome level. These include segregation, recombination, mutation and selection and can occur at any stage during germline differentiation and mitotic germline proliferation to meiosis and post-meiotic gamete maturation. Selection acting on germ cells at any stage from the diploid germ cell to the haploid gametes may cause significant deviations from Mendelian inheritance and may be more widespread than previously assumed. The mechanisms that affect and potentially alter the genomic sequence and allele frequencies in the germline are pivotal to our understanding of heritability. With the rise of new sequencing technologies, we are now able to address some of these unanswered questions. In this review, we comment on the most recent developments in this field and identify current gaps in our knowledge.


Voir la vidéo: Modification ciblée du génome (Décembre 2022).