Informations

4.4 : Analyse du génome par séquençage à grande échelle - Biologie

4.4 : Analyse du génome par séquençage à grande échelle - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Des génomes entiers peuvent être séquencés à la fois par séquençage aléatoire et par une approche dirigée utilisant des clones cartographiés.

Une avancée majeure de J. Craig Venter et de ses collègues de l'Institute for Genome Research en 1995 a inauguré une nouvelle ère dans l'analyse du génome. Ils ont rapporté la séquence complète du génome de la bactérie Haemophilus influenza, tous 1 830 137 pb (Fleischmann et al., Science, vol. 269, pp. 496-512, 1995). Dans cette méthode, l'ADN génomique est cisaillé au hasard en petits fragments d'environ 1000 pb, cloné dans des plasmides, et en déterminant la séquence à partir des extrémités des clones choisis au hasard (figure 4.10). Ce processus est répété plusieurs fois, jusqu'à ce que chaque nucléotide du génome ait été séquencé plusieurs fois en moyenne. Si le génome est de 3 millions de paires de bases, alors la détermination de 9 millions de paires de bases de séquences à partir de clones aléatoires donne une couverture 3X du génome. Il s'agit de données suffisantes à partir desquelles une séquence presque complète d'un génome bactérien peut être assemblée en reliant des séquences qui se chevauchent, à l'aide d'outils informatiques. Certaines lacunes subsistent, et celles-ci sont comblées par le séquençage dirigé. De plus grands génomes peuvent être séquencés (ou au moins une grande partie d'entre eux) en allant vers une couverture plus élevée, par ex. 8X à 10X. Cette approche ne nécessite AUCUNE connaissance préalable des gènes ou de leurs positions sur le chromosome bactérien. Plusieurs génomes bactériens ont été séquencés de cette façon, et le Dr Venter et ses collègues ont utilisé la même approche pour séquencer presque tous les génomes de Drosophila melanogaster(dans une collaboration entre son entreprise Celera et un effort financé par l'État) et Homo sapiens(dans une compétition avec l'effort financé par l'État). Les variations sur ce thème améliorent l'efficacité, telles que le clonage et le séquençage des inserts petits (1 kb) et grands (10 kb) dans des plasmides, puis l'utilisation des séquences des extrémités des inserts plus longs pour aider à assembler la séquence globale. Une idée similaire utilise la séquence des extrémités des inserts BAC, qui ont une taille d'environ 100 kb, pour un assemblage à grande échelle.

Graphique 4.10. Séquençage et assemblage de fusils de chasse.

D'autres grands projets de séquençage du génome, comme ceux qui ont généré le Saccharomyces cerevisiaeet E. coliséquences, a commencé avec un grand ensemble de clones cartographiés, qui ont ensuite été séquencés de manière dirigée. Cela fonctionne bien, et on a une carte génétique et physique à haute résolution pendant des années avant que la séquence du génome ne soit terminée. Elle est plus lente que l'approche aléatoire, mais elle peut atteindre une plus grande complétude pour les grands génomes complexes. C'est essentiellement l'approche que la collaboration internationale financée par l'État, appelée Consortium international de séquençage du génome humain (IHGSC), a suivi.

La phase la plus récente de ce projet a largement utilisé des clones BAC, avec une taille moyenne d'insert d'environ 100 ko (Figure 4.11). Des bibliothèques de clones BAC contenant des inserts d'ADN humain ont été commandées par un effort de cartographie à haut débit. Les digestions par restriction de chaque clone de la banque ont été analysées et les clones chevauchants déterminés en trouvant des fragments en commun. Les clones BAC ont ensuite été organisés en matrices contiguës qui se chevauchent, ou contig. Un chemin de pavage minimal nécessaire pour déterminer la séquence de chaque chromosome a été établi, et les extrémités des clones BAC sur ce chemin ont été séquencées pour fournir un réseau dense de marqueurs à travers le chromosome. Les clones BAC dans les contigs ont ensuite été séquencés, à ce stade en utilisant le séquençage shotgun de l'insert BAC (100 kb), pas le génome entier (3,2 millions de kb). Les séquences de clones BAC avec une couverture d'environ 3X sont appelées séquences brouillon, et ceux à couverture plus élevée avec des lacunes comblées par séquençage dirigé sont considérés séquences terminées. Une combinaison de données de séquences provisoires et finies est en cours d'assemblage à l'aide des séquences finales BAC et d'autres informations. L'assemblage est accessible au public sur le navigateur du génome humain de l'Université de Californie à Santa Cruz (http://genome.ucsc.edu/goldenPath/hgTracks.html) et sur le site Ensembl du Sanger Center (http://www. ensembl.org/).

Graphique 4.11. Séquençage dirigé des contigs BAC.

Les résultats de la collaboration Celera et du public sur la séquence de la mouche ont été publiés au début de 2000, et les descriptions de la séquence du génome humain ont été publiées séparément par Celera et IHGSC en 2001. Aucun des deux génomes n'est complètement séquencé (à partir de 2001), mais les deux sont hautement séquencés et stimulent une révolution majeure dans les sciences de la vie.

La sagesse de l'approche à adopter fait encore l'objet de débats et dépend dans une certaine mesure de la précision avec laquelle il faut séquencer un génome complexe. Par exemple, une séquence accessible au public du génome de la souris avec une couverture 3X a récemment été générée par l'approche du fusil de chasse. D'autres génomes seront probablement « légèrement séquencés » avec une couverture similaire. Mais une séquence de souris complète et de haute qualité utilisera probablement des aspects de l'approche plus dirigée. En outre, l'assemblage Celera (principalement la séquence de fusil de chasse) a également utilisé les données publiques sur la séquence du génome humain. Ainsi, les efforts actuels utilisent à la fois les méthodes de séquençage rapide par fusil de chasse et le séquençage de clones cartographiés.

Enquête sur les génomes séquencés

Les séquences du génome sont maintenant disponibles pour de nombreuses espèces, couvrant une gamme phylogénétique impressionnante. Cela comprend plus de 28 eubactéries, au moins 6 archées, un champignon (la levure Saccharomyces cerevisiae), un protozoaire (Plasmodium falciparum), un ver (le nématode Caenorhabditis elegans), un insecte (la mouche des fruits Drosophila melanogaster), deux plantes (Arabadopsiset riz (bientôt)), et deux mammifères (humain Homo sapienset souris Mus domesticus). Certaines informations à ce sujet sont répertoriées dans le tableau 4.4.

Tableau 4.4.Génomes séquencés. Ce tableau est dérivé de la liste des « génomes complets cartographiés sur les voies du KEGG (Encyclopédie Kyoto des gènes et des génomes) » à l'adresse

www.genome.ad.jp/kegg/java/org_list.html

Des génomes supplémentaires ont été ajoutés, mais seuls des échantillons des séquences bactériennes sont répertoriés.

Gènes encodineg

Espèce

Taille du génome

(pb)

Protéine

ARN

Le total

Enzymes

Catégorie

Eubactéries

Escherichia coli

4,639,221

4,289

108

1,254

gramme négatif

Haemophilus influenzae

1,830,135

1,717

74

571

gramme négatif

Helicobacter pylori

1,667,867

1,566

43

394

gramme négatif

Bacillus subtilis

4,214,814

4,100

121

819

gramme positif

Mycoplasme génital

580,073

467

36

202

gramme positif

Mycoplasma pneumoniae

816,394

677

33

226

gramme positif

Mycobacterium tuberculosis

4,411,529

3,918

48

-

gramme positif

Aquifex aeolicus

1,551,335

1,522

50

-

bactérie hyperthermophile

Borrelia burgdorferi

1,230,663

1,256

23

176

maladie de lyme spirochète

Synechocystis sp.

3,573,470

3,166

49

702

cyanobactérie

Archaebactéries

Archaeoglobus fulgidus

2,178,400

2,407

49

439

Archaea métabolisant S

Methanococcus jannaschii

1,739,934

1,735

43

441

archée

Methanobacterium thermoautotrophicum

1,751,377

1,871

47

558

archée

Eucaryotes

Saccharomyces cerevisiae

12,069,313

6,064

262

861

champignons

Caenorhabditis elegans

97,000,000

18,424

-

nématode

Drosophila melanogaster

180,000,000

13,601

insecte, mouche, 120 Mo séquencés

Arabidopsis thaliana

115,500,000

25,706

plante, complète

Homo sapiens

3,200,000,000

30,000-40,000

humain, brouillon + fini

Mus domesticus

3,000,000,000

souris, brouillon

Taille du génome

Les génomes bactériens varient en taille de 0,58 à près de 5 millions de pb (Mb). E. coli et B. subtilis, deux des bactéries les plus étudiées, ont les plus grands génomes et le plus grand nombre de gènes. Le génome de la levure Saccharomyces cerevisiae n'est que 2,6 fois plus grande que celle de E. coli. Le génome humain est presque 700 fois plus gros que celui de E. Cependant, la taille du génome n'est pas une mesure directe du contenu génétique sur de longues distances phylogénétiques. Il faut examiner la fraction du génome qui code pour la protéine ou contient d'autres informations importantes. Examinons la taille et le nombre de gènes dans différents génomes.

Taille et nombre de gènes

La taille moyenne des gènes est similaire chez les bactéries, avec une moyenne d'environ 1100 pb. Très peu d'ADN sépare la plupart des gènes bactériens ; dans E. coliil n'y a en moyenne que 118 pb entre les gènes. Comme la taille des gènes varie peu, le nombre de gènes varie sur une plage aussi large que la taille du génome, de 467 gènes dans M. génitalà 4289 dans E. Ainsi, au sein des bactéries, qui ont peu d'ADN non codant, le nombre de gènes est proportionnel à la taille du génome.

Saccharomyces cerevisiaea un gène tous les 1900 pb en moyenne, ce qui pourrait refléter à la fois une augmentation de la taille du gène ainsi qu'une distance un peu plus grande entre les gènes. Les bactéries et les levures présentent un ensemble de gènes beaucoup plus dense que dans les génomes plus complexes.

Les données sur un large échantillon de gènes humains montrent qu'ils sont beaucoup plus gros que les gènes bactériens, la médiane étant environ 14 fois plus grande que les gènes bactériens de 1 kb. Ce n'est pas parce que la plupart des protéines humaines sont sensiblement plus grosses ; les deux protéines bactériennes ont en moyenne une longueur d'environ 350 acides aminés, ce qui est similaire à la taille médiane des protéines humaines. La principale différence est la grande quantité de séquence intronique dans les gènes humains.

Tableau 4.5.Taille moyenne des gènes humains et des parties de gènes. Ceci est basé sur les informations contenues dans l'article de l'IHGSC dans Nature et dérivé de l'analyse de 1804 gènes humains.

Médian

Moyenne

Exon interne

122 pb

145 pb

Nombre d'exons

7

8.8

Longueur de chaque intron

1023 pb

3365 pb

3' UTR

400 pb

770 pb

5'UTR

240 pb

300 pb

Séquence de codage

1100 pb

1340 pb

Longueur de la protéine codée

367 acides aminés

447 acides aminés

Étendue génomique

14 000 pb

27 000 pb

Résumé de la taille moyenne des gènes :

Bactéries : 1100 pb

Levure : ~1200 pb

Ver : ~ 5000 pb

Humain : ~27 000 pb

Une comparaison de la distribution des tailles des introns et des exons montre un chevauchement considérable pour les vers, les mouches et les humains. Cependant, les humains ont une plus petite fraction d'exons longs et une plus grande fraction d'introns longs (Figure 4.12).

Graphique 4.12.Distribution de la longueur de l'exon et de l'intron chez les vers, les mouches et les humains. Extrait de l'article de l'IHGSC sur l'analyse initiale du génome humain.

Distance entre les gènes

Résumé de la distance entre les gènes :

Bactéries : 118 pb

Levure : ~700 pb

Humain : peut être d'environ 10 000 pb

La distance entre les gènes diffère grandement entre les génomes plus grands et plus petits. Les gènes sont très proches les uns des autres chez les bactéries (environ 100 pb) et une grande partie de cet ADN intergénique semble être impliquée dans la régulation. Chez la levure, les gènes sont 6 fois plus éloignés les uns des autres. Chez les mammifères, une énorme expansion de la quantité d'ADN entre les gènes est observée. Des nombres précis attendent une annotation plus complète de la séquence humaine, mais de nombreux exemples sont connus de gènes adjacents qui sont séparés par 10 à 50 kb d'ADN non génique. Chez toutes ces espèces, certaines séquences d'ADN régulant l'expression des gènes se trouvent dans ces espaces intergéniques, mais il est peu probable que tout cela soit nécessaire à la régulation chez les mammifères. Déchiffrer l'important des séquences consommables dans les séquences intergéniques est un défi majeur actuel. Ceci s'applique à l'ADN non codant en général

Le nombre de gènes par longueur de chromosome est le reflet de la taille des gènes et des distances qui les séparent. Cette densité génétiquevarie peu dans les bactéries et les levures, mais il change sur une large gamme dans diverses régions du génome humain. Une densité de gènes plus élevée est en corrélation avec une teneur plus élevée en G+C d'une région (Figure 4.13)

Graphique 4.13. Une teneur plus élevée en G+C est en corrélation avec une densité de gènes plus élevée et des introns plus courts.

La taille du génome augmente de façon exponentielle, mais pas le nombre de gènes

Tableau 4.4. documente une augmentation de 5 500 fois de la taille du génome du plus petit génome bactérien à celui de l'homme. Cependant, cela ne s'accompagne que d'une augmentation d'environ 65 fois du nombre de gènes. Cette tendance est observée sur la gamme connue de séquences génomiques. La taille du génome augmente de façon exponentielle à mesure que l'on examine des espèces couvrant la gamme de complexité des bactéries aux humains (figure 4.14). Cependant, le nombre de gènes augmente linéairement. Le graphique de la figure 4.14 était basé sur des estimations antérieures plus élevées du nombre de gènes chez l'homme. L'effet est encore plus prononcé si l'on utilise 30 000 comme nombre de gènes humains.

Graphique 4.14. Taille du génome et nombre de gènes dans des espèces allant des bactéries aux humains.

L'épissage alternatif est courant dans les gènes humains

Une estimation inférieure précédente est que l'épissage alternatif se produit dans 35% des gènes humains. Cependant, des données récentes montrent que cette fraction est plus importante.

Pour le chromosome 22 :

  • 642 transcrits couvrent 245 gènes, 2,6 txpts/gène
  • 2 ou plusieurs transcrits pour 145 (59 %) des gènes

Pour le chromosome 19 :

  • 1859 transcrits couvrent 544 gènes, 3,2 txpts/gène

Cela contraste avec la situation du ver, dans laquelle l'épissage alternatif se produit dans 22% des gènes. La diversité génétique accrue de l'épissage alternatif peut contribuer considérablement à la plus grande complexité des humains, pas seulement l'augmentation du nombre de gènes.

Estimations du nombre de gènes humains

Le nombre estimé de gènes humains a considérablement varié au cours des dernières années. Certains de ces chiffres ont été largement cités, et il peut être utile d'énumérer certaines des sources de ces estimations.

  • Complexité des ARNm (cinétique d'association) : 40 000 gènes
  • Taille moyenne du gène 30 000 pb : 100 000 gènes
  • Nombre d'îlots CpG : 70 000 à 80 000
  • Clusters Unigene d'EST : 35 000 à 125 000
  • Clustering EST plus rigoureux : 35 000 gènes
  • Comparaison avec le poisson-globe : 30 000 gènes
  • Extrapoler à partir du nombre de gènes sur les chromosomes 21 et 22 (qui sont terminés) : 30 000 à 35 500 gènes

En utilisant le projet de séquence humaine de juillet 2000, l'IHGSC a construit un indice génétique initial pour l'homme. Ils utilisent le système Ensembl du Centre Sanger. Ils ont commencé par des prédictions ab initio de Genscan, puis confirmées par la similitude avec les protéines, les ARNm, les EST et les motifs protéiques (base de données Pfam) de n'importe quel organisme. Cela a conduit à un ensemble initial de 35 500 gènes et de 44 860 transcrits dans la base de données Ensemble. Après avoir réduit la fragmentation, fusionné avec des gènes connus et éliminé les séquences bactériennes contaminantes, il leur restait 31 778 gènes. Après avoir pris en compte la fragmentation résiduelle et la vitesse à laquelle les vrais gènes sont trouvés par une analyse similaire, l'estimation reste d'environ 32 000 gènes. Cependant, il s'agit d'une estimation et est sujette à changement au fur et à mesure que d'autres annotations sont complétées.

En partant de cette estimation selon laquelle le génome humain contient environ 32 000 gènes, on peut calculer quelle partie du génome code et quelle partie est transcrite. Si la longueur de codage moyenne est de 1400 pb, alors 1.5%du génome humain consiste en une séquence codante. Si l'étendue génomique moyenne par gène est de 30 kb, alors 33% du génome humain est « transcrit ».

Résumé du nombre de gènes chez les espèces eucaryotes :

  • Humain : 32 000 « encore incertains »
  • Vol : 13 338
  • Ver : 18 266
  • Levure : 6 144
  • Herbe de moutarde : 25 706
  • Humain : 2x le nombre de gènes chez la mouche et le ver
  • Humain : plus d'épissage alternatif, peut-être 5x le nombre de protéines comme chez la mouche ou le ver

Attribution de fonctions aux gènes

Les gènes codant pour les protéines et les ARN peuvent être détectés avec une précision considérable à l'aide d'outils informatiques. Notez que même pour un organisme largement étudié comme E. coli, le nombre de gènes trouvés par analyse de séquence (4289 protéines codant) est bien supérieur au nombre pouvant être attribué comme codant pour une enzyme particulière (1254). L'écart entre les gènes trouvés dans la séquence et ceux dont la fonction est connue (c'est-à-dire attribués comme codant pour une enzyme) est plus important pour certains organismes mal caractérisés tels que la maladie de Lyme causant Spirochete Borrelia burgdorferi.

Les nombreux gènes à fonction non assignée représentent un défi passionnant à la fois en bioinformatique et en biochimie/biologie cellulaire/génétique. De larges collaborations ont été initiées pour une analyse génétique et d'expression complète de certains organismes. Par exemple, des projets sont en cours pour effectuer des mutations dans tous les gènes détectés dans Saccharomyces cerevisiae et quantifier le niveau d'ARN stable de chaque gène dans diverses conditions de croissance, tout au long du cycle cellulaire et dans d'autres conditions. Des bases de données sont déjà établies qui enregistrent les changements dans les niveaux d'ARN pour tous les gènes de levure lorsque l'organisme passe du glucose au galactose comme source de carbone. Ces analyses d'expression à grande échelle utilisent des puces à haute densité qui contiennent des séquences caractéristiques pour tous les 6064 gènes de levure. Ces puces génétiques sont ensuite hybridées avec de l'ARN ou de l'ADNc marqué par fluorescence provenant de cellules cultivées dans les deux conditions différentes. Les signaux d'hybridation sont quantifiés et comparés automatiquement, analysés. Le plan est de stocker les résultats dans des bases de données publiques. Les sites Web utiles comprennent :

  • EUR
  • MIPS : une base de données de génomes et de séquences protéiques


Voir la vidéo: Séquençage ADN à grande échelle (Février 2023).