Informations

S2018_Lecture18_Reading - Biologie

S2018_Lecture18_Reading - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Acides nucléiques

Il existe deux types d'acides nucléiques en biologie : l'ADN et l'ARN. L'ADN porte l'information génétique héréditaire de la cellule et est composé de deux brins antiparallèles de nucléotides disposés en une structure hélicoïdale. Chaque sous-unité nucléotidique est composée d'un sucre pentose (désoxyribose), d'une base azotée et d'un groupe phosphate. Des interactions connues sous le nom d'interactions "d'empilement de bases" aident également à stabiliser la double hélice. Dans ce module, nous nous concentrons principalement sur les structures chimiques de l'ADN et de l'ARN et sur la façon dont ils peuvent être distingués les uns des autres.

Structure nucléotidique

Les deux principaux types d'acides nucléiques sont acide désoxyribonucléique (ADN) et acide ribonucléique (ARN). L'ADN et l'ARN sont constitués de monomères appelés nucléotides. Les nucléotides individuels se condensent les uns avec les autres pour former un acide nucléique polymère. Chaque nucléotide est composé de trois composants : une base azotée (pour laquelle il existe cinq types différents), un sucre pentose et un groupe phosphate. Ceux-ci sont représentés ci-dessous. La principale différence entre ces deux types d'acides nucléiques est la présence ou l'absence d'un groupe hydroxyle au C2 position, également appelée position 2' (lire "deux premiers"), du pentose (voir la légende de la figure 1 et la section sur le sucre pentose pour en savoir plus sur la numérotation des carbones). L'ARN a un groupe fonctionnel hydroxyle à cette position 2' du sucre pentose; le sucre est appelé ribose, d'où le nom riboacide nucléique. En revanche, l'ADN n'a pas le groupe hydroxyle à cette position, d'où le nom "désoxy" riboacide nucléique. L'ADN a un atome d'hydrogène en position 2'.

Figure 1. Un nucléotide est composé de trois composants : une base azotée, un sucre pentose et un ou plusieurs groupes phosphate. Les carbones dans le pentose sont numérotés de 1′ à 5′ (le nombre premier distingue ces résidus de ceux de la base, qui sont numérotés sans utiliser de notation nombre premier). La base est attachée à la position 1' du ribose, et le phosphate est attaché à la position 5'. Lorsqu'un polynucléotide est formé, le phosphate 5' du nucléotide entrant se fixe au groupe hydroxyle 3' à la fin de la chaîne en croissance. Deux types de pentose se trouvent dans les nucléotides, le désoxyribose (présent dans l'ADN) et le ribose (présent dans l'ARN). Le désoxyribose a une structure similaire au ribose, mais il a un -H au lieu d'un -OH en position 2'. Les bases peuvent être divisées en deux catégories : les purines et les pyrimidines. Les purines ont une structure à double cycle et les pyrimidines ont un seul cycle.
Attribution : Marc T. Facciotti (œuvre originale)

La base azotée

Les bases azotées des nucléotides sont des molécules organiques et sont ainsi nommées car elles contiennent du carbone et de l'azote. Ce sont des bases car elles contiennent un groupe amino qui a le potentiel de lier un hydrogène supplémentaire, et donc d'agir comme une base en diminuant la concentration en ions hydrogène dans l'environnement local. Chaque nucléotide de l'ADN contient l'une des quatre bases azotées possibles : l'adénine (A), la guanine (G), la cytosine (C) et la thymine (T). En revanche, l'ARN contient de l'adénine (A), de la guanine (G) de la cytosine (C) et de l'uracile (U) au lieu de la thymine (T).

L'adénine et la guanine sont classées comme purines. La principale caractéristique structurelle distinctive d'une purine est le double cycle carbone-azote. La cytosine, la thymine et l'uracile sont classées comme pyrimidines. Ceux-ci se distinguent structurellement par un seul cycle carbone-azote. On s'attendra à ce que vous reconnaissiez que chacune de ces structures cycliques est décorée par des groupes fonctionnels qui peuvent être impliqués dans une variété de chimies et d'interactions.

Remarque : pratiquez

Prenez un moment pour revoir les bases azotées de la figure 1. Identifiez les groupes fonctionnels tels que décrits en classe. Pour chaque groupe fonctionnel identifié, décrivez dans quel type de chimie vous vous attendez à ce qu'il soit impliqué. Essayez d'identifier si le groupe fonctionnel peut agir en tant que donneur de liaison hydrogène, accepteur ou les deux ?

Le sucre pentose

Le sucre pentose contient cinq atomes de carbone. Chaque atome de carbone de la molécule de sucre est numéroté comme 1′, 2′, 3′, 4′ et 5′ (1′ est lu comme « un premier »). Les deux principaux groupes fonctionnels qui sont attachés au sucre sont souvent nommés en référence au carbone auquel ils sont liés. Par exemple, le résidu phosphate est attaché au carbone 5' du sucre et le groupe hydroxyle est attaché au carbone 3' du sucre. Nous utiliserons souvent le nombre de carbones pour désigner les groupes fonctionnels sur les nucléotides, alors soyez très familier avec la structure du sucre pentose.

Le sucre pentose dans l'ADN est appelé désoxyribose, et dans l'ARN, le sucre est le ribose. La différence entre les sucres est la présence du groupe hydroxyle sur le carbone 2' du ribose et son absence sur le carbone 2' du désoxyribose. Vous pouvez donc déterminer si vous regardez un nucléotide d'ADN ou d'ARN par la présence ou l'absence du groupe hydroxyle sur l'atome de carbone 2' - on vous demandera probablement de le faire à de nombreuses occasions, y compris des examens.

Le groupe phosphate

Il peut y avoir n'importe où entre un et trois groupes phosphate liés au carbone 5' du sucre. Lorsqu'un phosphate est lié, le nucléotide est appelé un Nnucléotide MonoPphosphate (NMP). Si deux phosphates sont liés, le nucléotide est appelé Nnucléotide jePphosphate (NPD). Lorsque trois phosphates sont liés au nucléotide, on parle de Nnucléotide TriPphosphate (NTP). Les liaisons phosphoanhydride entre qui relient les groupes phosphate les uns aux autres ont des propriétés chimiques spécifiques qui les rendent bonnes pour diverses fonctions biologiques. L'hydrolyse des liaisons entre les groupements phosphate est thermodynamiquement exergonique dans des conditions biologiques ; la nature a développé de nombreux mécanismes pour coupler ce changement négatif d'énergie libre pour aider à conduire de nombreuses réactions dans la cellule. La figure 2 montre la structure du nucléotide triphosphate Adénosine Triphosphate, ATP, que nous aborderons plus en détail dans d'autres chapitres.

Remarque : obligations « à haute énergie »

Le terme "liaison à haute énergie" est BEAUCOUP utilisé en biologie. Ce terme est cependant un raccourci verbal qui peut prêter à confusion. Le terme fait référence à la quantité d'énergie libre négative associée à l'hydrolyse de la liaison en question. L'eau (ou un autre partenaire réactionnel équivalent) est un contributeur important au calcul de l'énergie. Dans l'ATP, par exemple, simplement « casser » une liaison phosphoanhydride - disons avec des pincettes moléculaires imaginaires - en retirant un phosphate ne serait pas énergétiquement favorable. Il faut donc faire attention de ne pas dire que la rupture des liaisons dans l'ATP est énergétiquement favorable ou que cela « libère de l'énergie ». Au contraire, nous devrions être plus précis, en notant que l'hydrolyse de la liaison est énergétiquement favorable. Une partie de cette idée fausse commune est liée, à notre avis, à l'utilisation du terme « obligations à haute énergie ». Alors que dans Bis2a, nous avons essayé de minimiser l'utilisation de la « haute énergie » vernaculaire en faisant référence aux liaisons, en essayant plutôt de décrire les réactions biochimiques en utilisant des termes plus spécifiques, en tant qu'étudiants en biologie, vous rencontrerez sans aucun doute le potentiel trompeur - bien qu'il soit certes utile - raccourci « lien haute énergie » au fur et à mesure que vous poursuivez vos études. Alors, gardez ce qui précède à l'esprit lorsque vous lisez ou écoutez diverses discussions en biologie. Heck, utilisez le terme vous-même. Assurez-vous simplement que vous comprenez vraiment à quoi cela fait référence.

Figure 2. L'ATP (adénosine triphosphate) possède trois groupes phosphate qui peuvent être éliminés par hydrolyse pour former l'ADP (adénosine diphosphate) ou l'AMP (adénosine monophosphate). Attribution : Marc T. Facciotti (œuvre originale)

Structure en double hélice de l'ADN

L'ADN a une structure en double hélice (illustrée ci-dessous) créée par deux brins de sous-unités nucléotidiques liées de manière covalente. Les groupes sucre et phosphate de chaque brin de nucléotides sont positionnés à l'extérieur de l'hélice, formant le squelette de l'ADN (mis en évidence par les rubans orange sur la figure 3). Les deux brins de l'hélice vont dans des directions opposées, ce qui signifie que l'extrémité carbone 5' d'un brin fera face à l'extrémité carbone 3' de son brin correspondant (voir les figures 4 et 5). Nous avons qualifié cette orientation des deux brins de antiparallèle. Notez également que les groupes phosphate sont représentés sur la figure 3 sous la forme de "bâtons" orange et rouges dépassant du ruban. Les phosphates sont chargés négativement aux pH physiologiques et confèrent donc au squelette de l'ADN un fort caractère local chargé négativement. En revanche, les bases azotées sont empilées à l'intérieur de l'hélice (elles sont représentées par des bâtons verts, bleus, rouges et blancs sur la figure 3). Des paires de nucléotides interagissent les unes avec les autres par des liaisons hydrogène spécifiques (illustrées à la figure 5). Chaque paire est séparée de la paire de bases suivante dans l'échelle de 0,34 nm et cet empilement étroit et cette orientation planaire donnent lieu à des interactions d'empilement de bases énergétiquement favorables. La chimie spécifique associée à ces interactions dépasse le contenu de Bis2a mais est décrite plus en détail ici pour les étudiants curieux ou plus avancés. Nous nous attendons cependant à ce que les étudiants soient conscients que l'empilement des bases azotées contribue à la stabilité de la double hélice et qu'ils s'en remettent à vos professeurs de génétique et de chimie organique de division supérieure pour remplir les détails chimiques.

figure 3. L'ADN natif est une double hélice antiparallèle. Le squelette phosphate (indiqué par les lignes courbes) est à l'extérieur et les bases sont à l'intérieur. Chaque base d'un brin interagit via une liaison hydrogène avec une base du brin opposé. Facciotti (œuvre originale)

Dans une double hélice, certaines combinaisons d'appariement de bases sont chimiquement plus favorisées que d'autres en fonction des types et des emplacements des groupes fonctionnels sur les bases azotées de chaque nucléotide. En biologie on trouve que :

L'adénine (A) est chimiquement complémentaire de la thymidine (T) (A s'apparie avec T)

et

La guanine (G) est chimiquement complémentaire de la cytosine (C) (G s'apparie avec C).

Nous appelons souvent ce modèle "complémentarité de base" et disons que les brins antiparallèles sont complémentaire l'un à l'autre. Par exemple, si la séquence d'un brin d'ADN est 5'-AATTGGCC-3', le brin complémentaire aurait la séquence 5'-GGCCAATT-3'.

Nous choisissons parfois de représenter des structures à double hélice complémentaires dans le texte en empilant les brins complémentaires les uns sur les autres comme suit :

5' - GGCCAATTCCATACTAGGT - 3'

3' - CCGGTTAAGGTATGATCCA - 5'

Notez que chaque brin a ses extrémités 5' et 3' étiquetées et que si l'on marchait le long de chaque brin en partant de l'extrémité 5' jusqu'à l'extrémité 3', le sens de déplacement serait opposé à l'autre pour chaque brin ; les brins sont antiparallèles. Nous disons couramment des choses comme « faire passer du 5-prime au 3-premier » ou « synthétiser le 5-premier au 3-premier » pour faire référence à la direction dans laquelle nous lisons une séquence ou la direction de la synthèse. Commencez à vous habituer à cette nomenclature.

Figure 4. Panneau A. Dans une molécule d'ADN double brin, les deux brins sont antiparallèles l'un par rapport à l'autre de sorte qu'un brin va de 5' à 3' et l'autre de 3' à 5'. Ici, les brins sont représentés par des lignes bleues et vertes pointant dans l'orientation 5' à 3'. L'appariement des bases complémentaires est représenté par une ligne horizontale entre les bases complémentaires. Panneau B. Les deux brins antiparallèles sont représentés sous forme de double hélice. A noter que l'orientation des brins est toujours représentée. De plus, notez que l'hélice est droitière - la "boucle" de l'hélice, représentée en violet, s'enroule dans la direction des doigts de la main si la main droite est utilisée et la direction de l'hélice pointe vers le pouce. Panneau C. Cette représentation montre deux caractéristiques structurelles qui résultent de l'assemblage des deux brins appelés les rainures majeures et mineures. Ces rainures sont également visibles sur la figure 3.
Attribution : Marc T. Facciotti (œuvre originale)

Figure 5. Une vue agrandie au niveau moléculaire des brins antiparallèles de l'ADN. Dans une molécule d'ADN double brin, les deux brins sont antiparallèles l'un par rapport à l'autre de sorte qu'un brin va de 5' à 3' et l'autre de 3' à 5'. Le squelette phosphate est situé à l'extérieur et les bases sont au milieu. L'adénine forme des liaisons hydrogène (ou paires de bases) avec la thymine et la guanine des paires de bases avec la cytosine.
Attribution : Marc T. Facciotti (œuvre originale)

Fonctions et rôles des nucléotides et acides nucléiques à rechercher dans Bis2a

En plus de leurs rôles structurels dans l'ADN et l'ARN, les nucléotides tels que l'ATP et le GTP servent également de vecteurs d'énergie mobiles pour la cellule. Certains étudiants sont surpris lorsqu'ils apprennent à comprendre que les molécules d'ATP et de GTP dont nous discutons dans le contexte de la bioénergétique sont les mêmes que celles impliquées dans la formation des acides nucléiques. Nous couvrirons cela plus en détail lorsque nous discuterons des réactions de synthèse d'ADN et d'ARN. Les nucléotides jouent également un rôle important en tant que co-facteurs dans de nombreuses réactions catalysées par voie enzymatique.

Les acides nucléiques, l'ARN en particulier, jouent divers rôles dans le processus cellulaire en plus d'être des molécules de stockage d'informations. Certains des rôles que vous devriez surveiller au fur et à mesure que nous progressons dans le cours incluent : (a) Riboprotéine complexes - complexes ARN-protéine dans lesquels l'ARN joue à la fois un rôle catalytique et structurel. Des exemples de tels complexes comprennent les ribosomes (ARNr), les RNases, les complexes splicesosomes et la télomérase. (b) Rôles de stockage et de transfert d'informations. Ces rôles incluent des molécules comme l'ADN, l'ARN messager (ARNm), l'ARN de transfert (ARNt). (c) Rôles réglementaires. Des exemples de ceux-ci incluent divers non-codants (ARNnc). Wikipedia propose un résumé complet des différents types de molécules d'ARN connues que nous vous recommandons de parcourir pour avoir une meilleure idée de la grande diversité fonctionnelle de ces molécules.

Les génomes comme modèles d'organismes

Un génome, à ne pas confondre avec un gnome, est la collection complète d'informations héréditaires d'un organisme stockées dans l'ADN. Les différences dans le contenu de l'information aident à expliquer la diversité de la vie que nous voyons tout autour de nous. Les modifications des informations codées dans le génome sont les principaux moteurs de la diversité phénotypique que nous voyons (et certaines que nous ne pouvons pas) autour de nous qui sont filtrées par la sélection naturelle, et elles sont donc les moteurs de l'évolution. Cela conduit à des questions. Si chaque cellule d'un organisme multicellulaire contient la même séquence d'ADN, comment peut-il y avoir différents types de cellules (par exemple, comment une cellule du foie peut-elle être si différente d'une cellule du cerveau si elles portent toutes les deux le même ADN) ? Comment lit-on les informations ? Comment interprétons-nous ce que nous lisons ? Comment comprenons-nous comment toutes les « parties » que nous identifions dans le génome sont fonctionnellement interdépendantes ? Comment tout cela est-il lié à l'expression des traits ? Comment les changements dans le génome entraînent-ils des changements dans les traits ?

Détermination d'une séquence génomique

Les informations codées dans les génomes fournissent des données importantes pour comprendre la vie, ses fonctions, sa diversité et son évolution. Par conséquent, il va de soi qu'un endroit raisonnable pour commencer des études en biologie serait de lire le contenu de l'information codée dans le(s) génome(s) en question. Un bon point de départ consiste à déterminer la séquence des nucléotides (A, G, C, T) et leur organisation en une ou plusieurs unités d'ADN se répliquant indépendamment (par exemple, pensez aux chromosomes et/ou aux plasmides). Pendant plus de 30 ans après la découverte que l'ADN est le matériel héréditaire, c'était une proposition intimidante. À la fin des années 1980, cependant, l'avènement d'outils semi-automatisés pour le séquençage de l'ADN a été mis au point, et cela a commencé une révolution qui a radicalement changé notre façon d'aborder l'étude de la vie. Vingt ans plus tard, au milieu des années 2000, nous sommes entrés dans une période de progrès technologiques accélérés où les avancées des sciences des matériaux (en particulier, les avancées dans notre capacité à fabriquer des choses à très petite échelle), l'optique, le génie électrique et informatique, la bio-ingénierie, et les sciences informatiques ont toutes convergé pour nous apporter des augmentations spectaculaires de notre capacité à séquencer l'ADN et, en conséquence, des diminutions spectaculaires du coût de nombreuses avancées dans notre capacité à séquencer l'ADN. Un exemple célèbre pour illustrer ce point est de comparer les changements de coût pour séquencer le génome humain. La première ébauche du génome humain a duré près de 15 ans et 3 milliards de dollars. Aujourd'hui, des dizaines de génomes humains peuvent être séquencés en une seule journée sur un seul instrument à un coût de moins de 1000 $ chacun (le coût et le temps continuent de diminuer). Aujourd'hui, des entreprises comme Illumina, Pacific Biosciences, Oxford Nanopore et d'autres proposent des technologies concurrentes qui réduisent les coûts et augmentent le volume, la qualité, la vitesse et la portabilité du séquençage de l'ADN.

L'un des éléments très excitants de la révolution du séquençage de l'ADN est qu'elle a nécessité et continue de nécessiter des contributions de biologistes, chimistes, scientifiques des matériaux, ingénieurs électriciens, ingénieurs en mécanique, informaticiens et programmeurs, mathématiciens et statisticiens, développeurs de produits et bien d'autres. experts techniques. Les applications potentielles et les implications du déblocage des obstacles au séquençage de l'ADN ont également incité les investisseurs, les hommes d'affaires, les développeurs de produits, les entrepreneurs, les éthiciens, les décideurs politiques et bien d'autres à rechercher de nouvelles opportunités et à réfléchir à la manière d'utiliser au mieux et de manière plus responsable cette technologie en pleine croissance. .

Les avancées technologiques dans le séquençage du génome ont entraîné la détermination et le dépôt d'un flot virtuel de séquences génomiques complètes dans des bases de données accessibles au public. Vous pouvez en trouver beaucoup au Centre national d'information sur la biotechnologie. Le nombre de génomes disponibles et complètement séquencés se compte par dizaines de milliers - plus de 2 000 génomes eucaryotes, plus de 600 génomes archéens et près de 12 000 génomes bactériens au moment de la rédaction de cet article. Des dizaines de milliers d'autres projets de séquençage du génome sont en cours. Avec autant de séquences de génomes disponibles ou bientôt disponibles, nous pouvons commencer à nous poser de nombreuses questions sur ce que nous voyons dans ces génomes. Quels modèles sont communs à tous les génomes ? Combien de gènes sont codés dans les génomes ? Comment sont-elles organisées ? Combien de types différents de fonctionnalités pouvons-nous trouver ? A quoi servent les fonctionnalités que nous trouvons ? À quel point les génomes sont-ils différents les uns des autres ? Existe-t-il des preuves qui peuvent nous dire comment les génomes évoluent ? Examinons brièvement quelques-unes de ces questions.

Diversité des génomes

Diversité des tailles, du nombre de gènes et des chromosomes

Commençons par examiner la gamme de tailles de génomes. Dans le tableau ci-dessous, nous voyons un échantillon de génomes de la base de données. Nous pouvons voir que les génomes des organismes vivants libres varient énormément en taille. Le plus petit génome connu est codé dans 580 000 paires de bases tandis que le plus grand est de 150 milliards de paires de bases - pour référence, rappelons que le génome humain est de 3,2 milliards de paires de bases. C'est une vaste gamme de tailles. Des disparités similaires dans le nombre de gènes existent également.

Tableau 1. Ce tableau montre quelques données génomiques pour divers organismes. 2n = nombre diploïde. Facciotti (propre travailreproduit à partir de http://book.bionumbers.org/how-big-are-genomes/)

L'examen du tableau 1 révèle également que certains organismes portent avec eux plus d'un chromosome. Certains génomes sont également polyploïde, ce qui signifie qu'ils conservent plusieurs copies de similaires mais pas identiques (homologue) copies de chaque chromosome. Un organisme diploïde porte dans son génome deux copies homologues (généralement une de maman et une de papa) de chaque chromosome. Les humains sont diploïdes. Nos cellules somatiques portent 2 copies homologues de 23 chromosomes. Nous avons reçu 23 copies de chromosomes individuels de notre mère et 23 copies de notre père, pour un total de 46. Certaines plantes ont une ploïdie plus élevée. Par exemple, une plante avec quatre copies homologues de chaque chromosome est appelée tétraploïde. Un organisme avec une seule copie de chaque chromosome est appelé haploïde.

Structure des génomes

Le tableau 1 fournit également des indices sur d'autres points d'intérêt. Par exemple, si nous comparons le génome du poisson-globe au génome du chimpanzé, nous notons qu'ils codent à peu près le même nombre de gènes (19 000), mais ils le font sur des génomes de tailles très différentes : 400 millions de paires de bases contre 3,3 milliards de paires de bases, respectivement. . Cela implique que le génome du poisson-globe doit avoir beaucoup moins d'espace entre ses gènes que ce que l'on pourrait s'attendre à trouver dans le génome du chimpanzé. En effet, c'est le cas, et la différence de densité de gènes n'est pas propre à ces deux génomes. Si nous regardons la figure 1, qui tente de représenter une partie de 50 kb du génome humain, nous remarquons qu'en plus des régions codant pour les protéines (indiquées en rouge et rose) que de nombreuses autres "caractéristiques" peuvent être lire à partir du génome. Beaucoup de ces éléments contiennent des séquences très répétitives.

Figure 1. Cette figure montre un segment de 50 kb du locus humain du récepteur des cellules T β sur le chromosome 7. Cette figure représente une petite région du génome humain et les types de « caractéristiques » qui peuvent être lues et décodées dans le génome, notamment : mais aussi en plus des séquences codant pour les protéines. Le rouge et le rose correspondent aux régions qui codent pour les protéines. D'autres couleurs représentent différents types d'éléments génomiques. Facciotti (propre travailreproduit à partir de www.ncbi.nlm.nih.gov/books/NBK21134/)

Si nous regardons maintenant quelle fraction de l'ensemble du génome humain constitue chacun de ces types d'éléments (voir Figure 2), nous voyons que les gènes codant pour les protéines ne représentent que 48 millions des 3,2 milliards de bases du génome haploïde.

Figure 2. Ce graphique montre comment les nombreuses paires de bases d'ADN dans le génome haploïde humain sont réparties entre diverses caractéristiques identifiables. Notez que seule une petite fraction du génome est associée directement aux régions codant pour les protéines. Facciotti (propre travailreproduit à partir des sources indiquées dans la figure)

Lorsque nous examinons la fréquence des régions répétées par rapport aux régions codant pour les protéines chez différentes espèces, nous notons de grandes différences dans les régions codant pour les protéines par rapport aux régions non codantes.

Figure 3. Cette figure montre Segments de 50 kb de différents génomes, illustrant la fréquence très variable de la répétition par rapport aux éléments codant pour les protéines chez différentes espèces.
Attribution : Marc T. Facciotti (propre travail
reproduit à partir de www.ncbi.nlm.nih.gov/books/NBK21134/)

Discussion suggérée

Proposez une hypothèse expliquant pourquoi vous pensez que certains génomes pourraient avoir plus ou moins de séquences non codantes.

Dynamique de la structure du génome

Les génomes changent avec le temps et de nombreux types d'événements différents peuvent modifier leur séquence.

1. Mutation sont accumulés pendant la réplication de l'ADN ou par exposition environnementale à des agents mutagènes chimiques ou à des radiations. Ces changements se produisent généralement au niveau des nucléotides simples.
2. Réarrangements du génome décrivent une classe de changements à grande échelle qui peuvent se produire, et ils incluent ce qui suit : (a) les délétions—où des segments du chromosome sont perdus ; (b) duplication—où des régions du chromosome sont dupliquées par inadvertance; (c) insertions—l'insertion de matériel génétique (notez qu'il est parfois acquis à partir de virus ou de l'environnement, et que des paires délétion/insertion peuvent se produire entre les chromosomes) ; (d) inversions—où des régions du génome sont retournées dans le même chromosome; et (e) translocations—où des segments du chromosome sont transloqués (déplacés ailleurs dans le chromosome).

Ces changements se produisent à des rythmes différents, et certains sont facilités par l'activité des catalyseurs enzymatiques (par exemple, les transposases).

L'étude des génomes

Génomique comparée

L'une des choses les plus courantes à faire avec une collection de séquences de génomes est de comparer les séquences de plusieurs génomes les unes aux autres. De manière générale, ces types d'activités relèvent d'un domaine appelé génomique comparative.

Comparer les génomes des personnes qui souffrent d'une maladie héréditaire aux génomes des personnes qui ne sont pas atteintes peut nous aider à découvrir la base génétique de la maladie. La comparaison du contenu génétique, de l'ordre et de la séquence des microbes apparentés peut nous aider à trouver la base génétique expliquant pourquoi certains microbes causent des maladies alors que leurs proches cousins ​​sont pratiquement inoffensifs. Nous pouvons comparer les génomes pour comprendre comment une nouvelle espèce a pu évoluer. Il y a beaucoup d'analyses possibles ! La base de ces analyses est similaire : recherchez les différences entre plusieurs génomes et essayez d'associer ces différences à différents traits ou comportements de ces organismes.

Enfin, certains comparent des séquences de génomes pour tenter de comprendre l'histoire évolutive des organismes. Typiquement, ces types de comparaisons aboutissent à un graphique connu sous le nom d'arbre phylogénétique, qui est un modèle graphique de la relation évolutive entre les différentes espèces comparées. Ce champ, sans surprise, est appelé phylogénomique.

Métagénomique : qui vit quelque part et que fait-il ?

En plus d'étudier les génomes d'espèces individuelles, les technologies de plus en plus puissantes de séquençage de l'ADN permettent de séquencer simultanément les génomes d'échantillons environnementaux habités par de nombreuses espèces différentes. Ce champ s'appelle métagénomique. Ces études visent généralement à essayer de comprendre quelles espèces microbiennes habitent différents environnements. Il y a un grand intérêt à utiliser le séquençage de l'ADN pour étudier les populations de microbes dans l'intestin et pour observer comment la population change en réponse à différents régimes, pour voir s'il existe une association entre l'abondance de différents microbes et diverses maladies, ou pour regarder pour la présence d'agents pathogènes. Les gens utilisent le séquençage de l'ADN d'échantillons métagénomiques environnementaux pour explorer quels microbes habitent différents environnements sur Terre (de la mer profonde, au sol, à l'air, aux étangs hypersalins, aux excréments de chat, à certaines des surfaces communes que nous touchons tous les jours).

En plus de découvrir « qui vit où », le séquençage de populations microbiennes dans différents environnements peut également révéler quels gènes codant pour les protéines sont présents dans un environnement. Cela peut donner aux enquêteurs des indices sur les activités métaboliques qui pourraient se produire dans cet environnement. En plus de fournir des informations importantes sur le type de chimie qui pourrait se produire dans un environnement spécifique, le catalogue de gènes accumulé peut également servir de ressource importante pour la découverte de nouvelles enzymes pour des applications en biotechnologie.


Matériel de classe

Les sujets:
Introduction au cours, objectifs d'apprentissage et attentes, la biologie est une science de l'information, histoire de la bioinformatique, types de données, domaines d'application et introduction aux segments de cours à venir, introductions de 30 secondes aux étudiants, introduction aux ressources NCBI et EBI pour le domaine moléculaire de la bioinformatique, Session pratique utilisant les outils et bases de données bioinformatiques NCBI-BLAST, Entrez, GENE, UniProt, Muscle et PDB.

  • Comprendre la nécessité croissante du calcul dans la recherche moderne en sciences de la vie.
  • Découvrez comment la bioinformatique est pratiquée.
  • Comprendre la portée du cours, les attentes, la logistique et le code d'éthique.
  • Les objectifs de la session pratique sont de présenter une gamme de bases de données bioinformatiques de base et de services en ligne associés tout en étudiant activement la base moléculaire de plusieurs maladies humaines courantes.
  • Remplissez le sondage préalable au cours.
  • Configurez votre ordinateur portable pour ce cours.
  • Obtenez une copie du plan de cours,
  • Remplissez la feuille d'inscription aux heures de bureau.

Projections d'écran:

1 Bienvenue sur BGGN-213 : Présentation du cours et logistique.


2 Qu'est-ce que la bioinformatique ? La bioinformatique peut signifier différentes choses pour différentes personnes. Qu'allons-nous réellement apprendre dans cette classe?


3 Comment faisons-nous de la bioinformatique? Certaines bases de la bioinformatique peuvent être effectuées en ligne ou avec des outils téléchargés. Cependant, le plus souvent, nous aurons besoin d'une configuration de calcul spécialisée.


2: Principes, algorithmes et applications de l'alignement de séquences

Les sujets:
Couverture supplémentaire de principales ressources NCBI et EBI pour le domaine moléculaire de la bioinformatique avec un accent sur GenBank, UniProt, Entrez et Gene Ontology. Il existe de nombreuses bases de données bioinformatiques (voir polycopié) et il est important de pouvoir juger de leur utilité et de leur qualité. Alignement de séquences et recherche dans la base de données: Homologie, Similitude de séquence, Alignement local et global, Approches heuristiques, Recherche de base de données avec BLAST, Valeurs E et évaluation des scores et statistiques d'alignement.

  • Être capable d'interroger, rechercher, comparer et contraster les données contenues dans les principales bases de données bioinformatiques (GenBank, GENE, UniProt, PFAM, OMIM, PDB) et décrire comment ces bases de données se recoupent.
  • Être capable de décrire comment les données de séquence et de structure de nucléotides et de protéines sont représentées (FASTA, FASTQ, GenBank, UniProt, PDB).
  • Être capable de décrire le fonctionnement de la programmation dynamique pour l'alignement de séquences par paires
  • Appréciez les différences entre l'alignement global et local ainsi que leurs principaux domaines d'application.
  • Comprenez comment l'alignement de nouvelles séquences avec des gènes ou des protéines précédemment caractérisés fournit des informations importantes sur leurs attributs communs et leurs origines évolutives.
  • Les objectifs de la session pratique sont d'explorer les principes sous-jacents aux outils de calcul qui peuvent être utilisés pour calculer et évaluer les alignements de séquences.

Section 2. Le package GenomicDataCommons R

Le package GenomicDataCommons Bioconductor fournit des fonctions pour interroger, accéder et extraire le NCI-GDC dans R. L'utilisation de ce package nous permet de coupler de grands ensembles de données génomiques du cancer (par exemple les données réelles RNA-Seq, WXS ou SNP) directement à la pléthore des méthodes bioinformatiques de pointe disponibles dans R. Ceci est important car cela facilite grandement l'analyse ciblée et exploratoire des données moléculaires sur le cancer bien au-delà de celles accessibles via un portail Web.

Cette section met en évidence comment on peut coupler les packages de bioconducteurs GenomicDataCommons et maftools pour obtenir rapidement un aperçu des ensembles de données publiques sur la génomique du cancer.

Nous utiliserons d'abord les fonctions du package GenomicDataCommons pour identifier, puis récupérer les résultats des variantes somatiques du NCI-GDC, puis fournir une évaluation de haut niveau de ces variantes à l'aide du package maftools. Le dernier package fonctionne avec Mutation Annotation Format ou CRG fichiers de format utilisés par GDC et d'autres pour stocker des variantes somatiques.