Informations

14 : Séquençage d'ARNm pour l'analyse de l'expression et la découverte de transcriptions - Biologie

14 : Séquençage d'ARNm pour l'analyse de l'expression et la découverte de transcriptions - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

14 : Séquençage de l'ARNm pour l'analyse de l'expression et la découverte de transcriptions

Séquençage d'ARNm

MRNA-Seq détecte les transcrits connus et nouveaux et mesure l'abondance des transcrits pour une analyse précise et complète

Introduction au séquençage d'ARNm

Le séquençage de l'ARNm (mRNA-Seq) est rapidement devenu la méthode de choix pour analyser les transcriptomes des états pathologiques, des processus biologiques et dans un large éventail de conceptions d'études. En plus d'être un moyen très sensible et précis de quantifier l'expression des gènes, l'ARNm-Seq peut identifier les isoformes de transcrits connus et nouveaux, les fusions de gènes et d'autres caractéristiques ainsi que l'expression spécifique d'un allèle. mRNA-Seq offre une vue complète du transcriptome codant qui n'est pas restreinte par le filtre des connaissances antérieures.

ARNm-Seq en 3 étapes simples

Analysez le transcriptome codant dans des échantillons d'ARNm standard avec cette solution de flux de travail transparente.

Avantages du séquençage d'ARNm

L'ARNm-Seq offre un certain nombre d'avantages par rapport aux puces d'expression génique dans l'analyse du transcriptome.

  • Offre une plage dynamique plus large, permettant une mesure plus sensible et précise des changements de pli dans l'expression des gènes
  • Capture à la fois les caractéristiques connues et nouvelles
  • Peut être appliqué sur un large éventail d'espèces
Transition des tableaux à l'ARNm-Seq

Expression Analysis a développé des outils pour faciliter la comparaison des résultats de l'ARNm-Seq avec les données de la matrice précédente.

Vue précise et haute résolution du transcriptome

La compression de rapport est une limitation technique établie des matrices d'expression génique qui réduit la plage dynamique et peut masquer ou altérer les changements transcriptionnels mesurés. 1–3 En revanche, l'ARNm-Seq n'est pas sujet à ce biais et fournit des mesures plus complètes et plus précises des changements d'expression génique.

De plus, l'ARNm-Seq peut fournir des informations sur les brins, ce qui permet la détection de l'expression antisens, permet une quantification plus précise des transcrits qui se chevauchent et augmente le pourcentage de lectures alignables.

Autisme et ARNm-Seq

Stanley Lapidus, président, PDG et fondateur de SynapDx, explique comment la société utilise l'ARNm-Seq pour étudier l'autisme.

Faucibus ornare suspendisse sed nisi
Explorez les systèmes NextSeq 1000 et 2000

Avec plus de 75 innovations révolutionnaires, ces systèmes de séquençage offrent une instrumentation sèche, une configuration d'analyse plus facile et une analyse secondaire rapide avec le logiciel DRAGEN intégré. Découvrez nos workflows les plus simples à ce jour et exécutez une large gamme d'applications de séquençage émergentes et à débit moyen.

Flux de travail ARNm-Seq recommandé pour les échantillons standard

Préparation de la bibliothèque
Préparation de l'ARNm échoué Illumina

Une solution simple, évolutive, rentable et rapide d'une journée pour analyser le transcriptome codant en exploitant aussi peu que 25 ng d'entrée d'ARN standard (non dégradé).

Séquençage
Systèmes NextSeq 1000 et amp 2000

Ces séquenceurs de paillasse économiques, conviviaux et à débit moyen prennent en charge l'ARNm-Seq ainsi qu'une grande variété d'autres applications actuelles et émergentes.

L'analyse des données
Pipeline d'ARN DRAGEN

Effectue l'alignement, la quantification et la détection de fusion.

Expression différentielle d'ARN-Seq

Permet l'analyse différentielle de l'expression génique.

Articles en vedette sur le séquençage de l'ARNm

Cartographier la diversité neuronale

Les chercheurs de l'Allen Institute utilisent l'ARNm-Seq pour analyser l'expression des gènes dans les neurones individuels et classer les cellules neurales V1.

Analyse unicellulaire en biologie du développement

Le Dr Colin Trapnell discute de l'expérience de son laboratoire avec l'ARNm-Seq unicellulaire et de ses efforts pour rendre les outils bioinformatiques accessibles à tous.

Considérations sur le séquençage de l'ARN

En savoir plus sur les exigences de longueur et de profondeur de lecture pour RNA-Seq et trouver des ressources pour aider à la conception expérimentale.

Préparation de la bibliothèque de séquençage d'ARNm

Quantifiez l'expression des gènes, identifiez les isoformes connues et nouvelles dans le transcriptome codant, détectez les fusions de gènes et mesurez l'expression spécifique des allèles avec nos solutions de préparation de bibliothèque RNA-Seq améliorées.

Flux de travail complet d'ARNm-Seq

La chimie du séquençage par synthèse Illumina (SBS) est la technologie NGS la plus largement adoptée, produisant environ 90 % des données de séquençage mondiales.*

En plus de notre qualité de données de pointe, Illumina propose des flux de travail ARNm-Seq intégrés qui simplifient l'ensemble du processus, de la préparation de la bibliothèque à l'analyse des données et à l'interprétation biologique.

Préparation de l'ARNm échoué Illumina

Une solution simple, évolutive, rentable et rapide d'une journée pour analyser le transcriptome codant en exploitant aussi peu que 25 ng d'entrée d'ARN standard (non dégradé).

Préparation d'ARN Illumina avec enrichissement

Réalisez une interrogation rapide et ciblée d'un grand nombre de gènes cibles avec une efficacité de capture et une uniformité de couverture exceptionnelles.

Trouvez le bon kit de préparation de bibliothèque

Utilisez cet outil pour déterminer le meilleur kit pour vos besoins.

Système MiSeq

Vitesse et simplicité pour des applications ciblées, séquençage d'un échantillon d'ARNm par cycle.

Système NextSeq 550

Séquenceur de bureau flexible prenant en charge plusieurs applications, permettant de séquencer 5 à 16 échantillons d'ARNm en une seule analyse.

Systèmes NextSeq 1000 et amp 2000

Ces séquenceurs de paillasse économiques et conviviaux à débit moyen offrent une flexibilité extrême pour prendre en charge les applications nouvelles et émergentes.

Système NovaSeq 6000

Débit évolutif et flexibilité pour pratiquement n'importe quel génome, méthode de séquençage et échelle de projet.

Outil de comparaison de plate-forme

Comparez les plateformes de séquençage et identifiez le meilleur système pour votre laboratoire et vos applications.

Réactifs de séquençage

Trouvez des kits comprenant des réactifs de séquençage, des Flow Cells et/ou des tampons adaptés à chaque système de séquençage Illumina.

Pipeline d'ARN DRAGEN

Effectue l'alignement, la quantification et la détection de fusion.

Expression différentielle d'ARN-Seq

Permet l'analyse différentielle de l'expression génique.

Application d'alignement RNA-Seq

Aligne les lectures RNA-Seq. Quantifie l'expression des gènes, appelle les petites variantes et les fusions de gènes, et fournit des données pour les applications d'expression différentielle.

Plateforme Bio-IT Illumina DRAGEN

La plate-forme bio-IT Illumina DRAGEN (analyse de lecture dynamique pour la génomique) fournit une analyse secondaire ultra-rapide des données NGS. Une variété d'applications sont disponibles, dont une conçue pour permettre des études de fusion de gènes.

Système de voie Genomatix (GePS)

Associe un seul gène ou une liste de gènes à des données d'annotation pour les voies, les maladies, les tissus et les petites molécules.

Guide iPathway

Expression différentielle des gènes, interaction médicamenteuse et analyse de la maladie.

Hub de séquences BaseSpace

L'environnement informatique génomique Illumina pour l'analyse et la gestion des données NGS.

Moteur de corrélation BaseSpace

Une bibliothèque croissante de données génomiques organisées pour aider les chercheurs à identifier les mécanismes de la maladie, les cibles médicamenteuses et les biomarqueurs.

Solutions associées

RNA-Seq dans la recherche sur le cancer

La surveillance des changements d'expression génique avec l'ARNm-Seq peut aider les chercheurs à identifier des biomarqueurs prédictifs du pronostic de la maladie ou de la réponse au traitement. En savoir plus sur l'ARN-Seq du cancer.

Analyse de l'expression génique pour les études sur les maladies

Les études de profilage d'expression génique basées sur l'ARN-Seq peuvent fournir une visibilité sur la façon dont les facteurs génétiques et environnementaux contribuent à un large éventail de maladies. En savoir plus sur le profilage de l'expression génique.

Découverte de biomarqueurs de réponse aux médicaments à ARN

Découvrez comment utiliser RNA-Seq pour identifier de nouveaux biomarqueurs de réponse aux médicaments basés sur l'ARN. Accédez à des ressources conçues pour aider les nouveaux utilisateurs à adopter cette application. En savoir plus sur l'analyse des biomarqueurs d'ARN de réponse aux médicaments.

Vous souhaitez recevoir des newsletters, des études de cas et des informations sur les méthodes de séquençage ?

Ressources additionnelles

Guide des méthodes

Toutes les informations dont vous avez besoin, des puces BeadChips à la préparation de la bibliothèque en passant par la sélection et l'analyse du séquenceur. Utilisez ce guide pour sélectionner les meilleurs outils pour votre laboratoire.

ARNm unicellulaire-Seq

Le Dr Norma Neff explique comment les chercheurs de l'Université de Stanford utilisent l'ARNm-Seq unicellulaire pour comprendre le développement précoce.

Analyse des données RNA-Seq

Des outils logiciels conviviaux simplifient l'analyse des données RNA-Seq pour les biologistes, quelle que soit leur expérience en bioinformatique.

RNA-Seq pour les études d'expression génique

Illumina propose un flux de travail ARNm-Seq intégré pour une compréhension plus approfondie de la biologie.

RNA-Seq des échantillons de basse qualité et FFPE

L'ARN-Seq d'échantillons fixés au formol, inclus en paraffine (FFPE) et d'autres échantillons de faible qualité offre des informations précieuses pour la recherche sur les maladies.

ARN-Seq à extrémité appariée

Tous les systèmes de séquençage Illumina sont capables de séquençage par paires, ce qui facilite la détection de nouveaux transcrits d'ARN, de fusions de gènes, etc.

Les références
  1. Shi L, Tong W, Su Z et al. Courbes d'étalonnage du scanner de puces à ADN : caractéristiques et implications.BMC Bioinformatique. 20056 Suppl 2:S11.
  2. Naef F, Socci ND, Magnasco M. Une étude de l'exactitude et de la précision des puces à oligonucléotides : extraire plus de signal à de grandes concentrations.Bioinformatique. 200319:178-184.
  3. Yuen T, Wurmbach E, Pfeffer RL, Ebersole BJ, Sealfon SC. Précision et étalonnage d'oligonucléotides commerciaux et de puces à ADNc personnalisées.Acides nucléiques Res. 200230 : e48.

*Calculs de données sur dossier. Illumina, Inc., 2015

Pour la recherche uniquement

Ne pas utiliser dans les procédures de diagnostic, sauf indication contraire.

Technologies innovantes

Chez Illumina, notre objectif est d'appliquer des technologies innovantes à l'analyse de la variation et de la fonction génétiques, rendant possibles des études qui n'étaient même pas imaginables il y a quelques années à peine. Il est essentiel pour nous de fournir des solutions innovantes, flexibles et évolutives pour répondre aux besoins de nos clients. En tant qu'entreprise mondiale qui accorde une grande valeur aux interactions collaboratives, à la livraison rapide de solutions et au plus haut niveau de qualité, nous nous efforçons de relever ce défi. Les technologies innovantes de séquençage et de matrice d'Illumina alimentent des avancées révolutionnaires dans la recherche en sciences de la vie, la génomique translationnelle et grand public et le diagnostic moléculaire.


Analyse à haut débit de l'expression différentielle des gènes

L'élucidation des changements dans l'expression des gènes associés aux processus biologiques est un problème central en biologie. Les progrès de la biologie moléculaire et informatique ont conduit au développement de méthodes puissantes et à haut débit pour l'analyse de l'expression différentielle des gènes. Ces outils ont ouvert de nouvelles opportunités dans des disciplines allant de la biologie cellulaire et du développement au développement de médicaments et à la pharmacogénomique. Dans cette revue, les attributs de cinq méthodes d'expression génique différentielle couramment utilisées sont discutés : le séquençage de l'étiquette de séquence exprimée (EST), l'hybridation de puces à ADNc, le clonage soustractif, l'affichage différentiel et l'analyse en série de l'expression génique (SAGE). L'application du séquençage EST et de l'hybridation de puces à ADN est illustrée par la découverte de nouveaux gènes associés à la différenciation des ostéoblastes. L'application du clonage soustractif est présentée comme un outil pour identifier les gènes régulés in vivo par le facteur de transcription pax-6. Ces exemples et d'autres illustrent le pouvoir de la génomique pour découvrir de nouveaux gènes importants en biologie et qui représentent également de nouvelles cibles pour le développement de médicaments. Le thème central de la revue est que chacune des approches pour identifier les gènes différentiellement exprimés est utile, et que le contexte expérimental et l'évaluation subséquente des gènes différentiellement exprimés sont les caractéristiques essentielles qui déterminent le succès.


Résultats et discussion

Ensembles de données RNA-seq

Six ensembles de données de référence RNA-seq disponibles au public ont été utilisés pour l'analyse de concordance. Trois d'entre eux ont été utilisés comme ensembles de données sources pour générer des données simulées non paramétriques. La description des ensembles de données peut être trouvée dans la section « Méthodes », un résumé est présenté dans le Tableau 2.

Le degré d'homogénéité entre les échantillons, tel que mesuré par le coefficient de corrélation de Pearson, était le plus faible pour l'ensemble de données Zhang suivi par GTEx (voir également les coefficients biologiques estimés de variation dans le fichier supplémentaire 1 : Figure S2). Comme prévu, les autres ensembles de données avaient des réplicats plus homogènes car ils ont été obtenus à partir d'animaux consanguins ou de lignées cellulaires cultivées, contrairement aux ensembles de données GTEx ou Zhang contenant des tissus pour différents individus humains. Pour les ensembles de données nutlin Zhang et NGP, les lncRNA ont montré une hétérogénéité relativement plus élevée entre les échantillons que les ARNm. De plus, les lncRNA ont montré, en moyenne, une expression inférieure à celle des ARNm (Fichier supplémentaire 1 : Figure S3).

Comparaison des méthodes de normalisation

La comparaison des outils DE nécessite une attention particulière aux méthodes de normalisation. Des études antérieures [13, 16, 20, 21] ont souligné que la procédure de normalisation peut affecter les résultats de l'ED. Le but de notre étude n'est pas d'effectuer une comparaison exhaustive de toutes les méthodes de normalisation. Au lieu de cela, nous avons comparé cinq méthodes de normalisation qui sont utilisées en conjonction avec les méthodes DE évaluées dans cette étude. Cela nous permettra de mieux comprendre le comportement général des outils DE tel qu'évalué dans les sections suivantes. Les méthodes de normalisation ont été comparées à l'aide des métriques de Dillies et al. [20], tels que leur capacité à réduire la variabilité technique et à éliminer les biais dus aux différences de taille des bibliothèques, et leur effet sur l'analyse DGE.

Les boîtes à moustaches des expressions du journal relatif montrent que pour les six ensembles de données, toutes les méthodes de normalisation réussissent à aligner les distributions spécifiques à l'échantillon et qu'aucun effet sur la taille de la bibliothèque n'a donc été perceptible après la normalisation (Fichier supplémentaire 2 : Section 2.2). De plus, le coefficient de variation (CV) spécifique au gène, qui est une approximation de la variabilité intra-groupe, était plus faible pour tous les ensembles de données lors de la normalisation (Fig. 2b et Fichier supplémentaire 2 : Section 2.3). Des niveaux presque égaux de variabilité biologique entre les méthodes ont été observés, même avec une normalisation quantile qui s'est avérée entraîner un CV élevé dans d'autres études [20, 22]. Le chevauchement des gènes DE avec différentes méthodes de normalisation était élevé (Fig. 2a et fichier supplémentaire 2 : Section 2.4). En ignorant la normalisation quantile (QN), en moyenne (sur les six ensembles de données), un minimum de 86% de similarité a été observé. L'analyse DE basée sur QN donne des résultats divergents, en particulier pour les conceptions avec un petit nombre de répétitions (< 5), la proportion minimale moyenne de similarité était de 70,1% (les minimums moyens sont calculés sur les ensembles de données). Dans l'ensemble, les résultats suggèrent que toutes les méthodes de normalisation fonctionnent presque également, à l'exception de QN. Néanmoins, pour l'analyse de concordance des outils DE (voir la section suivante), nous incluons un pipeline limma qui utilise QN (nommé limmaQN) pour étudier plus avant son effet sur d'autres métriques de performance des outils DE.

Effet des méthodes de normalisation sur l'analyse DGE. une Le diagramme UpSet montre la taille de l'intersection entre les analyses DGE (à 5% FDR), chacune utilisant des méthodes de normalisation différentes mais le même test statistique (modéré t-test du paquet limma). Ce résultat est particulièrement valable pour les données CRC AZA. Toutes les méthodes de normalisation considérées présentent généralement une forte concordance, à l'exception de la normalisation quantile (QN). Analyse DGE avec toutes les méthodes de normalisation communément identifiées 2820 exprimées de manière significativement différentielle (SDE), tandis que QN a abouti à 629 gènes SDE qui ne sont pas partagés avec d'autres méthodes de normalisation. b Distribution des coefficients de variation au niveau des gènes (CV) à partir des données Bottomly. Chaque tracé de violon indique les quartiles de la distribution (lignes horizontales continues). Les résultats basés sur les six ensembles de données peuvent être trouvés dans le fichier supplémentaire 2

Analyse de concordance

Vingt-cinq pipelines DE ont été exécutés sur six ensembles de données RNA-seq, et les (dis) similitudes entre les résultats ont été examinées. L'analyse de concordance s'est concentrée sur cinq métriques quantitatives et une métrique qualitative : (1) le nombre de gènes identifiés comme significativement exprimés de manière différentielle (SDE) (2) la similarité en termes d'ensemble de gènes SDE (3) le degré d'accord sur le classement des gènes (4 ) la similitude des estimations de changement de facteur (5) la manipulation des gènes avec des caractéristiques spéciales (lncRNAs, les gènes avec de faibles nombres, les gènes avec des valeurs aberrantes) et (6) le temps de calcul. Les résultats pour les ensembles de données individuels sont présentés dans le fichier supplémentaire 3.

Les résultats montrent que les pipelines montrent une variabilité substantielle du nombre de gènes SDE. Le résumé marginal de tous les ensembles de données indique que DESeq, NOISeq, baySeq et limmaQN ont détecté le plus petit nombre de gènes SDE, tandis que QuasiSeq et SAMSeq ont renvoyé les plus grands nombres (Fig. 3). La variabilité entre les pipelines DE en ce qui concerne le nombre de gènes SDE semble être liée à la variabilité biologique de l'ensemble de données. Pour les ensembles de données Zhang et GTEx RNA-seq, caractérisés par la plus grande variabilité biologique intra-groupe, le nombre de gènes SDE était assez différent parmi les pipelines DE. En revanche, le nombre de gènes SDE des ensembles de données NGP nutlin et CRC AZA, tous affichant une faible variabilité biologique, était relativement similaire entre les pipelines. Les lncRNA et les gènes de faible abondance en général étaient sous-représentés parmi les gènes SDE (Fichier supplémentaire 3). Par exemple, 25 % des gènes SDE étaient des lncRNA, alors que les données contiennent 40 % de lncRNA.

Résumé des résultats de l'analyse de concordance. Regroupement hiérarchique de 25 pipelines DE sur la base des scores standard de quatre métriques de concordance (une fraction de gènes significativement exprimés différentiellement (SDE) détectés à 5 % de FDR, b chevauchement entre les pipelines dans la détection des gènes SDE à 5% FDR, c accord de classement des gènes, et similitude des estimations du facteur de variation logarithmique (LFC)). Les scores sont moyennés sur les six ensembles de données. Premièrement, les valeurs observées (laissons ouije, je = 1,2. 25) des métriques de concordance (proportions et corrélations) pour chaque pipeline d'un ensemble de données donné sont converties en scores standard (zje = (ouije??)/soui, où ?? et soui sont la moyenne et l'écart type de ouije, respectivement). Ensuite, la moyenne des scores standard de chaque pipeline à travers les ensembles de données est présentée. Une valeur négative, par exemple, pour la fraction de gènes SDE indique que le nombre de gènes SDE détectés par le pipeline est inférieur à la moyenne sur l'ensemble des 25 pipelines. Par la suite, la distance euclidienne entre les scores marginaux standardisés des quatre métriques de comparaison est calculée et la méthode de couplage complète du clustering agglomératif est appliquée, ce qui donne quatre clusters. Les diagrammes à barres à droite de la grappe montrent les scores marginaux individuels de chaque outil DE pour les quatre mesures de concordance. Étant donné que l'estimation du facteur de changement de SAMSeq est en termes de somme de rang, elle a été exclue de la comparaison des estimations LFC

De nombreux pipelines DE ont montré une concordance entre eux en termes d'ensemble de gènes SDE (Fig. 3). En moyenne, NOISeq, limmaQN, DESeq, baySeq et SAMSeq ont montré la plus petite concordance avec tous les autres pipelines testés. Il a également été observé que le chevauchement de SDE est plus faible pour les lncRNA que pour les ARNm (Fichier supplémentaire 1 : Figure S4). Dans l'ensemble de données Zhang, il y a moins de 70 et 60% de chevauchement SDE dans tous les outils DE pour les ARNm et les lncRNA, respectivement.

Un classement précis des gènes est une étape essentielle pour l'analyse en aval telle que l'analyse d'enrichissement de l'ensemble de gènes (GSEA) [23]. Le degré de concordance entre le classement des gènes des 25 pipelines DE est étudié en utilisant le rang de ?? scores prenant en compte à la fois la signification et l'ampleur de l'expression différentielle [24]. Les résultats résumés des ensembles de données (Fig. 3) indiquent que tous les pipelines sont fortement d'accord, à l'exception de baySeq, NOISeq, SAMSeq et limmaQN. En dehors de baySeq, cela contraste quelque peu avec les résultats de Soneson et Delorenzi [14]. Cela pourrait être dû à la différence dans le score utilisé pour classer les gènes, car seuls les p les valeurs ont été utilisées pour classer les gènes dans Soneson et Delorenzi [14]. À l'exception de limmaQN, l'accord de classement des gènes entre tous les pipelines était presque le même pour les lncRNA et les ARNm d'après l'analyse des données NGP nutlin. Un accord légèrement inférieur pour les lncRNAs a été observé lorsque l'ensemble de données le plus variable (Zhang) a été utilisé (Fichier supplémentaire 1 : Figure S4).

De plus, les estimations du log fold-change (LFC) de tous les outils DE étaient fortement corrélées, avec un coefficient de corrélation de Pearson d'au moins 0,8 (en moyenne) pour les pipelines limmaVst, limmaQN et limmaTrended (Fig. 3 et fichier supplémentaire 3). Cependant, les corrélations deviennent relativement plus fortes pour les ensembles de données avec un plus grand nombre d'échantillons par groupe. De plus, les corrélations pour les lncRNAs étaient plus faibles que pour les ARNm (Fichier supplémentaire 1 : Figure S4 et Fichier supplémentaire 3 : Sections 5.4 et 6.4).

De plus, nous avons examiné qualitativement la manipulation des gènes avec une expression aberrante (Fichier supplémentaire 1 : Section 3.1). Un ensemble de gènes avec un nombre de valeurs aberrantes dans un seul des échantillons (à partir des données de Zhang) a été choisi (Fichier supplémentaire 1 : Figure S5). Le ajusté p les valeurs de ces gènes aberrants montrent que edgeR exact, edgeR GLM, edgeR QL, PoissonSeq, QuasiSeq (les deux paramètres) et baySeq ont déclaré la plupart d'entre eux SDE à 5% nominal FDR (Fichier supplémentaire 1 : Tableau S2), suggérant qu'ils peuvent être affecté par l'expression aberrante.

Pour arriver à une conclusion globale, les résultats ont été combinés dans une analyse de clustering hiérarchique des pipelines DE, résultant en 4 clusters (Fig. 3). DESeq, baySeq, limmaQN et NOISeq se regroupent, montrant généralement le plus petit nombre de gènes SDE, un chevauchement plus faible et un accord de classement des gènes inférieur avec tous les autres pipelines DE. Le deuxième groupe comprend edgeR exact, edgeR GLM, edgeR QL, DESeq2 (les deux paramètres) et limmaVoom (robuste et non robuste), montrant la concordance la plus élevée en ce qui concerne l'appel SDE, le classement des gènes et les estimations LFC. Les pipelines de ce cluster identifient généralement plus de gènes SDE que les méthodes du premier cluster. LimmaTrended (robuste et non robuste) et limmaVst apparaissent dans un cluster séparé en raison de leurs estimations LFC relativement faiblement corrélées avec celles d'autres pipelines, mais ces pipelines ressemblent fortement au deuxième cluster en ce qui concerne les autres métriques de concordance. Le dernier groupe comprend QuasiSeq (les deux paramètres), edgeR robuste (avec les deux degrés de liberté précédents testés), limmaVoom+QW, PoissonSeq et SAMSeq. Ils détectent la plupart des gènes SDE et montrent une proportion modeste de chevauchement, d'accord de classement des gènes et de similarité LFC.

De plus, en ce qui concerne l'identification des gènes DE parmi les gènes détectés uniquement dans un groupe d'échantillons, DESeq, baySeq et PoissonSeq ne parviennent pas à estimer un changement de pli significatif. D'autre part, le test exact edgeR, DESeq et SAMSeq ne renvoient aucun p valeur pour de tels gènes avec un faible rapport signal sur bruit (STN) (Fichier supplémentaire 1 : Section 3.2). Le STN est défini comme le rapport de la moyenne à l'écart type des comptes normalisés dans le groupe avec une expression génique détectée [13]. En général, et ce n'est pas surprenant, tous les pipelines attribuent des p valeurs pour de tels gènes avec un rapport STN élevé (Fichier supplémentaire 1 : Figure S6). Cela suggère que les chercheurs doivent être prudents lorsqu'ils interprètent les résultats de l'ED, en particulier lorsque le nombre de lectures 0 dans l'un des groupes est probablement causé par des artefacts techniques. De plus, pour les lncRNA (également pour les ARNm à faible abondance), le rapport STN est généralement faible et, par conséquent, tous les pipelines DE ne parviennent pas à détecter le véritable DE parmi ces gènes. Cependant, à partir de la relation entre le STN et le p valeurs, on peut apprendre que les outils limma et QuasiSeq (et edgeR robust et DESeq2 dans une moindre mesure) détectent des gènes tels que SDE même à faible STN (Fichier supplémentaire 1 : Figure S6).

Les résultats obtenus avec les trois paramètres de DESeq2 n'étaient pas très différents, sauf que le filtrage indépendant excluait plus d'ARNnc (29 % à partir des données de Zhang) que d'ARNm (Fichier supplémentaire 1 : Figure S7). Parmi les sept pipelines limma, voom et trended (avec et sans estimation robuste des degrés de liberté antérieurs) ont montré une concordance relativement meilleure. De plus, voom avec un poids de qualité d'échantillon (limmaVoom+QW) a tendance à identifier plus de gènes SDE. De même, les pipelines edgeR ont atteint une concordance similaire, sauf que edgeR robust détecte légèrement plus de gènes SDE que la moyenne. Bien que les trois pipelines QuasiSeq se regroupent, la méthode de quasi-vraisemblance (QL) avec une estimation indépendante de la dispersion QL au niveau des gènes a montré une plus mauvaise concordance en termes d'ensemble de gènes SDE.

Le temps de calcul pour exécuter l'analyse DGE présenté dans le fichier supplémentaire 1 : la figure S8 montre que baySeq et DESeq nécessitent le temps le plus long, alors que les outils limma et PoissonSeq s'exécutent rapidement. Pour les données RNA-seq avec dix réplicats par groupe et 19 150 ARNm, les outils les plus lents, baySeq et DESeq, étaient respectivement environ 8 000 et 2 000 fois plus lents que le pipeline le plus rapide, limmaQN.

Retrouver la vérité biologique

En plus de l'analyse de concordance, nous avons également évalué la capacité des outils DE à récupérer des gènes avec des preuves biologiques connues de DE dans les ensembles de données de référence. À cette fin, les résultats de trois études publiées ont été utilisés pour définir la vérité : les gènes avec une expression biaisée en fonction du sexe [25], les gènes régulés par MYCN [26] et les gènes de la voie TP53 [27] (voir « Méthodes » pour la description). La capacité à récupérer la vérité est évaluée à l'aide de quatre mesures : nombre de gènes récupérés, similitude entre les pipelines DE en termes d'ensemble de gènes récupérés, accord de classification des gènes avec la vérité et GSEA. Les résultats détaillés peuvent être trouvés dans le fichier supplémentaire 4.

Malgré le défi de définir la vérité biologique, plusieurs pipelines montrent des performances relativement bonnes dans la récupération de la vérité connue, certainement en considérant que les conditions expérimentales ne sont pas identiques dans les études de référence et les études de vérité. Cependant, en termes de nombre de gènes récupérés et de degré de similitude les uns avec les autres, les pipelines présentent des variations substantielles. Conformément à l'analyse de concordance, des outils conservateurs (DESeq, baySeq et NOISeq) ont récupéré un nombre relativement inférieur de gènes avec une faible similitude avec d'autres outils (Fichier supplémentaire 4 : Figure S8). En revanche, les outils tels que SAMSeq et PoissonSeq qui étaient classés comme libéraux (nombre le plus élevé de gènes SDE) selon l'analyse de concordance se classaient désormais généralement faiblement dans la récupération de la vérité biologique dans les trois études de contrôle et présentaient le moins de concordance avec les autres pipelines. Sur les quatre métriques évaluant la vérité biologique, DESeq2 (les deux paramètres), edgeR (robuste) et limma (voom+QW, voom et tendance) ont surpassé tous les autres outils, tandis que PoissonSeq, SAMSeq, NOISeq, DESeq et QuasiSeq (les deux paramètres ) a montré une capacité inférieure.

Résultats de la simulation

La procédure non paramétrique SimSeq [28] a été appliquée pour simuler de manière réaliste les données d'expression de l'ARN-seq. La technique de simulation implique un sous-échantillonnage de réplicats à partir d'un ensemble de données RNA-seq réel avec un nombre suffisamment grand de réplicats. De cette façon, les caractéristiques sous-jacentes de l'ensemble de données source sont préservées, y compris les distributions et la variabilité des nombres. La représentativité des données simulées a été examinée à l'aide de différentes métriques de qualité, dont celles proposées par Soneson et Robinson [29] (voir la section « Méthodes »). Trois séries de simulations ont été effectuées, chacune à partir d'un ensemble de données source différent d'ARN-seq : données Zhang, NGP nutlin et GTEx. Le degré d'homogénéité parmi les réplicats de ces ensembles de données varie, reflétant différents niveaux de variabilité biologique intra-groupe (tableau 2 et fichier supplémentaire 1 : figure S2). Les ensembles de données Zhang et NGP nutlin incluent des lncRNA annotés ainsi que des ARNm, tandis que l'ensemble de données GTEx RNA-seq ne contient que des gènes d'ARNm annotés. Par conséquent, les comptes simulés pour l'ARNm et l'ARNlnc sont échantillonnés à partir des comptes d'ARNm et d'ARNlnc de l'ensemble de données source, respectivement.

Les expressions géniques ont été simulées dans un large éventail de scénarios pouvant affecter les performances des outils DE : différents nombres de réplicats allant de 2 à 40, différentes proportions de vrais gènes DE (0 à 30%), deux biotypes de gènes (ARNm et lncRNA) , et différents niveaux de variabilité biologique intragroupe (telle qu'elle est présente dans les trois ensembles de données sources). À partir des résultats de la simulation, le FDR réel, le taux de vrais positifs (TPR) et le taux de faux positifs (FPR) ont été calculés pour chaque pipeline DE. La comparaison entre les deux biotypes de gènes a été effectuée de deux manières : en simulant uniquement les données d'ARNlnc ou en simulant conjointement l'ARNlnc et l'ARNm, mais en analysant séparément.

Taux de fausses découvertes et taux de vrais positifs

FDR fait référence à la proportion moyenne de découvertes incorrectes parmi les gènes SDE (gènes identifiés comme DE à un seuil nominal FDR particulier). Un bon outil DE a un FDR réel proche du niveau nominal et un TPR élevé. Le TPR, également connu sous le nom de sensibilité, est la proportion moyenne de gènes SDE parmi les vrais gènes DE. Le TPR doit être suffisamment grand, sinon on ne peut pas s'attendre à trouver beaucoup de vrais gènes DE. Par conséquent, il est d'usage de rechercher un pipeline DE qui a le TPR le plus élevé parmi ceux qui contrôlent le FDR (c'est-à-dire que le FDR réel est proche du FDR nominal). La courbe FDR versus TPR est utilisée pour comparer les performances des pipelines DE à divers seuils FDR nominaux (allant de 0 à 100 %).

Les résultats de la première simulation (à partir des données de Zhang) indiquent généralement que le FDR n'est pas bien contrôlé par de nombreux pipelines DE (Fig. 4). Parmi les pipelines qui contrôlent relativement bien le FDR, beaucoup ont un petit TPR. Outre le biotype du gène (ARNm versus ARNnc), la performance est corrélée au niveau de variabilité intra-groupe, au nombre d'échantillons répliqués et à la fraction de gènes DE. De nombreux outils DE montrent une inflation FDR sévère et un TPR légèrement inférieur lorsque seule une petite fraction des gènes est DE (Fichier supplémentaire 1 : Figures S9 et S10). Le FDR réel peut même dépasser 50 %, ce qui signifie que plus de la moitié des gènes SDE appelés peuvent être de fausses découvertes. Pour la plupart des outils DE, un meilleur contrôle du FDR et une sensibilité plus élevée ont été obtenus avec un nombre croissant de réplicats (Fig. 4 et Fichier supplémentaire 1 : Figures S11 et S12). Les performances de tous les pipelines DE sont considérablement plus faibles pour les ARNnc que pour les ARNm (Figs. 4 et 5). Cependant, des résultats très similaires (mauvaises performances en termes de contrôle FDR et TPR) ont été obtenus pour des ARNm de faible abondance sur la base d'une simulation à partir des données GTEx (Fichier complémentaire 1 : Figure S13).

Taux de fausses découvertes et taux de vrais positifs des outils DE utilisant des données simulées de l'ensemble de données Zhang RNA-seq. Le FDR et le TPR réels (à divers FDR nominaux) de huit outils DE à partir de la simulation conjointe et de l'analyse DGE de l'ARNm et de l'ARNlnc. Ces résultats particuliers proviennent de simulations avec 25 % de vrais gènes DE parmi 10 000 gènes (constituant environ 30 % d'ARNnc et 70 % d'ARNm) pour des conceptions avec n = 20 et 40 répétitions par groupe. Les courbes représentent le compromis entre le TPR moyen et le FDR réel moyen à différents FDR nominaux (allant de 0 à 100 %). Les points sur la courbe indiquent les valeurs réelles du FDR et du TPR au seuil nominal du FDR de 5 %. Bien que les modèles binomiaux négatifs (edgeR, DESeq2 et QuasiSeq) aient montré une sensibilité plus élevée, en général, ils ont tendance à perdre le contrôle du FDR pour les données simulées avec un nombre inférieur de répétitions. En revanche, DESeq, NOISeq et PoissonSeq ont montré une meilleure capacité de contrôle du FDR, avec un FDR réel inférieur au niveau seuil (5%), mais ces outils ont une sensibilité inférieure à tous les autres outils DE. Pour les données simulées avec au moins dix répétitions par groupe, les outils SAMSeq et limma ont systématiquement montré un meilleur contrôle FDR et un TPR comparable aux modèles binomiaux négatifs (d'autres résultats peuvent être trouvés dans le fichier supplémentaire 1). Les pipelines DE présentaient généralement des performances inférieures aux normes (FDR élevé et TPR faible) pour les lncRNA que pour les ARNm

False discovery rate and true positive rate of DE tools using simulated data from the NGP nutlin datasets. The actual FDR and TPR (at various nominal FDR) of eight DE tools from joint simulation and DGE analysis of mRNA and lncRNA. These particular results are from simulations with 25% true DE genes among 10,000 genes (constituting approximately 35% lncRNAs and 65% mRNAs) for designs with replicates per group. The curves represent the trade-off between the actual FDR and TPR at different nominal FDR (ranging from 0 to 100%). The points on the curve indicate the actual FDR and TPR values at 5% nominal FDR threshold. In general, DE tools’ performance for gene expression data simulated from the NGP nutlin dataset is better (low FDR and high TPR) than the performance observed from the Zhang based simulation, which can be explained by the difference in the intra-group biological variability. In line with the first simulation, DE tools’ performance appeared to be relatively lower for lncRNAs than for mRNAs

For the simulation that started from the (homogeneous) NGP nutlin data, the results were better (Fig. 5), with good FDR control and high TPR for all DE tools, even for small numbers of replicates. Only for simulations with 5% of true DE genes was the FDR control lost (Additional file 1: Figure S10). The difference in performance between the Zhang and NGP nutlin simulations can be explained by their intra-group variability (Table 2 and Additional file 1: Figure S2): the NGP nutlin data come from cell line replicates that are characterized by low biological variability. For the simulations starting from the GTEx dataset, which has intermediate biological variability, the performance of the DE tools is somewhere in between those for the Zhang and NGP nutlin datasets (Additional file 1: Figure S14).

Because of the trade-off between FDR and TPR, a high TPR is expected for DE tools with a high actual FDR. This was observed for edgeR, DESeq2, and QuasiSeq pipelines, particularly for small numbers of replicates (Fig. 4). limma and SAMSeq showed better FDR control, while retaining a high TPR. Their better performance is true for both biotypes with at least ten and four samples per group for the Zhang and NGP nutlin simulations, respectively (Additional file 1: Figures S11 and S12). DESeq, PoissonSeq, and NOISeq showed better FDR control, but at a cost of severe TPR loss.

Among the seven edgeR pipelines, edgeR robust showed generally better performance for the Zhang data simulations (Additional file 1: Figure S15). However, only a small difference was observed in the simulation that starts with the less variable NGP nutlin data. edgeR robust with data-specific prior degrees of freedom seems more beneficial in maximizing the TPR. Only small performance variation was observed among the limma pipelines, except limmaQN, which deviated substantially (lower performance) in the second simulation (Additional file 1: Figure S16). This deviation may be due to the number of replicates, as only five samples were used in each group. Among all limma pipelines except limmaQN, voom with sample quality weight (limmaVoom+QW) lost control of FDR. Similarly, minor differences were observed among the DESeq2 pipelines (Additional file 1: Figure S17). However, as indicated in the concordance analysis, the independent filtering should be used carefully for lncRNAs. Similarly, among the QuasiSeq pipelines, the one with QL dispersion estimated independently for each gene, appeared to have worse performance (Additional file 1: Figure S18).

The simulation study demonstrated that large heterogeneity among samples has a potential to negatively affect the performance of DE tools, particularly leading to a failure to detect biological signals. The heterogeneity can result from both biological and technical factors. The technical artefacts can be alleviated by filtering low quality or aberrant samples that substantially contribute to the intra-group variability [30]. Such samples can be recognized by the sample-to-sample distances projected into a two-dimensional space using, for example, principal component analysis [10, 32]. This is confirmed by an extra simulation that starts from the Zhang data whereby the most distant (outlying) samples were excluded beforehand (Additional file 1: Section 4.2.3). The results generally indicate that DE tools perform better with respect to FDR control and sensitivity if outlying samples are excluded (Additional file 1: Figures S19 and S20).

Methods for controlling the FDR, for example, Benjamin and Hochberg (BH) [31], rely on the assumption that the raw p values have a flat distribution near p = 1. This assumption, however, might not always hold, especially for low-abundance genes such as lncRNAs and for small numbers of replicates. This concern is demonstrated by (1) a simulation with no DE genes, so that all p values correspond to the null hypothesis, and (2) using the p values from the DE results from the six benchmark RNA-seq datasets. For comparison purposes, the p value distributions from the analysis of a simulated dataset with 30% DE genes is also included. Les p values associated with the null hypotheses are supposed to be uniformly distributed between 0 and 1. For datasets with a fraction of SDE genes, a spike near p = 0 and a flat distribution near p = 1 is expected if the DE tool works fine. For many DE pipelines, the observed p value distribution looks as expected (Additional file 1: Figures S21–S27 and Additional file 2). When the number of replicates is small, a slightly conservative p value distribution (a spike near p = 1) is noticeable for lncRNAs, and to a lesser extent for mRNAs. The underlining cause may be the high variability of lncRNAs. This may result in loss of power to detect true DE lncRNAs, as confirmed by our simulation study. Correct calibration of p values under the null hypothesis and a large sample size can overcome this issue. Overall, QuasiSeq, DESeq, edgeR (exact test), and limma tools (for small numbers of replicates) return p values that do not well satisfy the assumption of p value uniformity.

False positive rate

The FPR refers to the probability of calling a gene SDE in a scenario with no DE genes at all. FPR of DE tools was evaluated using a simulated RNAseq data with 0% DE genes (also known as mock comparison). Results shown in Additional file 1: Figure S28 demonstrate that all DE pipelines resulted in a FPR of less than 1%. The results were similar for both gene biotypes (mRNAs and lncRNAs), except for a slightly higher FPR for lncRNAs than for mRNAs. The FPR was generally larger for methods relying on the negative binomial distribution. This finding is in line with conclusions from a previous comparative study [13] in which it was concluded that the number of false predictions of differential expression from DE tools (most of these DE tools are also the part of our study) is sufficiently low even for genes with low counts (the lowest 25% expressed genes).

Simulation of lncRNA expression data only

Results presented up to this point came from simulating, normalizing, and analyzing lncRNAs and mRNAs together. Of note, joint analysis of the two gene biotypes may affect results. For example, estimates of gene-specific dispersion parameters for negative binomial models are often done by sharing information across all genes using empirical Bays strategy [32,33,34], and hence the results for lncRNAs depend on mRNA read counts and vice versa. In addition, adjusted p values aimed at controlling FDR are calculated taking into account the total number of genes included in the analysis [31]. Therefore, we also evaluated the performance of the DE tools with only lncRNA data, using the same simulation procedures. Our conclusions remain the same. The results are shown in Additional file 1: Figure S29. The FDR control is generally worse when analyzing lncRNA separately, particularly for small replicate sizes. Only a small reduction in TPR is observed.

Web application

All simulation results can be consulted and visualized with a web application [35].


Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks

Recent advances in high-throughput cDNA sequencing (RNA-seq) can reveal new genes and splice variants and quantify expression genome-wide in a single assay. The volume and complexity of data from RNA-seq experiments necessitate scalable, fast and mathematically principled analysis software. TopHat and Cufflinks are free, open-source software tools for gene discovery and comprehensive expression analysis of high-throughput mRNA sequencing (RNA-seq) data. Together, they allow biologists to identify new genes and new splice variants of known ones, as well as compare gene and transcript expression under two or more conditions. This protocol describes in detail how to use TopHat and Cufflinks to perform such analyses. It also covers several accessory tools and utilities that aid in managing data, including CummeRbund, a tool for visualizing RNA-seq analysis results. Although the procedure assumes basic informatics skills, these tools assume little to no background with RNA-seq analysis and are meant for novices and experts alike. The protocol begins with raw sequencing reads and produces a transcriptome assembly, lists of differentially expressed and regulated genes and transcripts, and publication-quality visualizations of analysis results. The protocol's execution time depends on the volume of transcriptome sequencing data and available computing resources but takes less than 1 d of computer time for typical experiments and ∼1 h of hands-on time.

Les figures

Software components used in this…

Software components used in this protocol. Bowtie forms the algorithmic core of TopHat,…

An overview of the Tuxedo…

An overview of the Tuxedo protocol. In an experiment involving two conditions, reads…

Merging sample assemblies with a…

Merging sample assemblies with a reference transcriptome annotation. Genes with low expression may…

Analyzing groups of transcripts identifies…

Analyzing groups of transcripts identifies differentially regulated genes. ( une ) Genes may…

CummeRbund helps users rapidly explore…

CummeRbund helps users rapidly explore their expression data and create publication-ready plots of…

CummeRbund plots of the expression…

CummeRbund plots of the expression level distribution for all genes in simulated experimental…

CummeRbund scatter plots highlight general…

CummeRbund scatter plots highlight general similarities and specific outliers between conditions C1 and…

CummeRbund volcano plots reveal genes,…

CummeRbund volcano plots reveal genes, transcripts, TSS groups or CDS groups that differ…

Differential analysis results for regucalcin…

Differential analysis results for regucalcin . ( une ) Expression plot shows clear…

Differential analysis results for Rala…

Differential analysis results for Rala . ( une ) This gene has four…


Les références

Mardis, E.R. The impact of next-generation sequencing technology on genetics. Tendances Genet. 24, 133–141 (2008).

Wold, B. & Myers, R.M. Sequence census methods for functional genomics. Nat. Méthodes 5, 19–21 (2008).

Schuster, S.C. Next-generation sequencing transforms today's biology. Nat. Méthodes 5, 16–18 (2008).

Cloonan, N. & Grimmond, S.M. Transcriptome content and dynamics at single-nucleotide resolution. Génome Biol. 9, 234 (2008).

Wang, Z., Gerstein, M. & Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nat. le révérend Genet. 10, 57–63 (2009).

Mortazavi, A., Williams, B.A., McCue, K., Schaeffer, L. & Wold, B. Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat. Méthodes 5, 621–628 (2008).

Cloonan, N. et al. Stem cell transcriptome profiling via massive-scale mRNA sequencing. Nat. Méthodes 5, 613–619 (2008).

Sultan, M. et al. A global view of gene activity and alternative splicing by deep sequencing of the human transcriptome. Science 321, 956–960 (2008).

Wang, E.T. et al. Alternative isoform regulation in human tissue transcriptomes. La nature 456, 470–476 (2008).

Marioni, J.C., Mason, C.E., Mane, S.M., Stephens, M. & Gilad, Y. RNA-seq: an assessment of technical reproducibility and comparison with gene expression arrays. Génome Res. 18, 1509–1517 (2008).

Pan, Q., Shai, O., Lee, L.J., Frey, B.J. & Blencowe, B.J. Deep surveying of alternative splicing complexity in the human transcriptome by high-throughput sequencing. Nat. Genet. 40, 1413–1415 (2008).

Li, H. et al. Determination of tag density required for digital transcriptome analysis: application to an androgen-sensitive prostate cancer model. Proc. Natl. Acad. Sci. Etats-Unis 105, 20179–20184 (2008).

Saitou, M., Barton, S.C. & Surani, M.A. A molecular programme for the specification of germ cell fate in mice. La nature 418, 293–300 (2002).

Chambers, I. et al. Nanog safeguards pluripotency and mediates germline development. La nature 450, 1230–1234 (2007).

Toyooka, Y., Shimosato, D., Murakami, K., Takahashi, K. & Niwa, H. Identification and characterization of subpopulations in undifferentiated ES cell culture. Développement 135, 909–918 (2008).

Kurimoto, K. et al. An improved single-cell cDNA amplification method for efficient high-density oligonucleotide microarray analysis. Acides nucléiques Res. 34, e42 (2006).

Kurimoto, K., Yabuta, Y., Ohinata, Y. & Saitou, M. Global single-cell cDNA amplification to provide a template for representative high-density oligonucleotide microarray analysis. Nat. Protoc. 2, 739–752 (2007).

Maekawa, M., Yamamoto, T., Kohno, M., Takeichi, M. & Nishida, E. Requirement for ERK MAP kinase in mouse preimplantation development. Développement 134, 2751–2759 (2007).

Blake, W.J., Kærn, M., Cantor, C.R. & Collins, J.J. Noise in eukaryotic gene expression. La nature 422, 633–637 (2003).

Raser, J.M. & O'Shea, E.K. Noise in gene expression: origins, consequences, and control. Science 309, 2010–2013 (2005).

Hamatani, T., Carter, M.G., Sharov, A.A. & Ko, M.S. Dynamics of global gene expression changes during mouse preimplantation development. Dév. Cellule 6, 117–131 (2004).

Tang, F. et al. Maternal microRNAs are essential for mouse zygotic development. Gènes Dev. 21, 644–648 (2007).

Murchison, E.P. et al. Critical roles for Dicer in the female germline. Gènes Dev. 21, 682–693 (2007).

O'Carroll, D. et al. A Slicer-independent role for Argonaute 2 in hematopoiesis and the microRNA pathway. Gènes Dev. 21, 1999–2004 (2007).

de Vries, W.N. et al. Expression of Cre recombinase in mouse oocytes: A means to study maternal effect genes. Genèse 26, 110–112 (2000).

Tam, O.H. et al. Pseudogene-derived small interfering RNAs regulate gene expression in mouse oocytes. La nature 453, 534–538 (2008).

Rambhatla, L., Patel, B., Dhanasekaran, N. & Latham, K.E. Analysis of G protein alpha subunit mRNA abundance in preimplantation mouse embryos using a rapid, quantitative RT-PCR approach. Mol. Reprod. Dév. 41, 314–324 (1995).

Marzluff, W.F., Wagner, E.J. & Duronio, R.J. Metabolism and regulation of canonical histone mRNAs: life without a poly(A) tail. Nat. le révérend Genet. 9, 843–854 (2008).

Nagy, A., Gertsenstein, M., Vintersten, K. & Behringer, R. Recovery and in vitro culture of preimplantation stage embryos. dans Manipulating the Mouse Embryo 3rd edn. 194–200 (Cold Spring Harbor Laboratory Press, Cold Spring Harbor, New York, 2003).

Gordon, D.M., Patashnik, O. & Kuperberg, G. New constructions for covering designs. J. Comb. Designs 3, 269–284 (1995).


Les références

Jemal, A. et al. Global cancer statistics. CA Cancer J Clin 61, 69–90 (2011).

Vargo-Gogola, T. & Rosen, J. M. Modelling breast cancer: one size does not fit all. Nat Rev Cancer 7, 659–672 (2007).

Reis-Filho, J. S. & Lakhani, S. R. Breast cancer special types: why bother? J Pathol 216, 394–398 (2008).

Geyer, F. C., Marchio, C. & Reis-Filho, J. S. The role of molecular analysis in breast cancer. Pathology 41, 77–88 (2009).

Weigelt, B. & Reis-Filho, J. S. Histological and molecular types of breast cancer: is there a unifying taxonomy? Nat Rev Clin Oncol 6, 718–730 (2009).

Geyer, F. C., Lopez-Garcia, M. A., Lambros, M. B. & Reis-Filho, J. S. Genetic characterization of breast cancer and implications for clinical management. J Cell Mol Med 13, 4090–4103 (2009).

Buerger, H. et al. Different genetic pathways in the evolution of invasive breast cancer are associated with distinct morphological subtypes. J Pathol 189, 521–526 (1999).

Buerger, H. et al. Ductal invasive G2 and G3 carcinomas of the breast are the end stages of at least two different lines of genetic evolution. J Pathol 194, 165–170 (2001).

Stingl, J. & Caldas, C. Molecular heterogeneity of breast carcinomas and the cancer stem cell hypothesis. Nat Rev Cancer 7, 791–799 (2007).

Brenton, J. D., Carey, L. A., Ahmed, A. A. & Caldas, C. Molecular classification and molecular forecasting of breast cancer: ready for clinical application? J Clin Oncol 23, 7350–7360 (2005).

Sjoblom, T. et al. The consensus coding sequences of human breast and colorectal cancers. Science 314, 268–274 (2006).

Oakman, C., Santarpia, L. & Di Leo, A. Breast cancer assessment tools and optimizing adjuvant therapy. Nat Rev Clin Oncol 7, 725–732 (2010).

Andre, F. & Pusztai, L. Heterogeneity of breast cancer among patients and implications for patient selection for adjuvant chemotherapy. Pharm Res 23, 1951–1958 (2006).

Elston, C. W., Ellis, I. O. & Pinder, S. E. Pathological prognostic factors in breast cancer. Crit Rev Oncol Hematol 31, 209–223 (1999).

Soerjomataram, I., Louwman, M. W., Ribot, J. G., Roukema, J. A. & Coebergh, J. W. An overview of prognostic factors for long-term survivors of breast cancer. Breast Cancer Res Treat 107, 309–330 (2008).

Dawson, S. J., Provenzano, E. & Caldas, C. Triple negative breast cancers: clinical and prognostic implications. Eur J Cancer 45 Suppl 1, 27–40 (2009).

Rakha, E. A. et al. Prognostic significance of Nottingham histologic grade in invasive breast carcinoma. J Clin Oncol 26, 3153–3158 (2008).

Weigelt, B., Geyer, F. C. & Reis-Filho, J. S. Histological types of breast cancer: how special are they? Mol Oncol 4, 192–208 (2010).

Perou, C. M. et al. Molecular portraits of human breast tumours. Nature 406, 747–752 (2000).

Sorlie, T. et al. Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications. Proc Natl Acad Sci U S A 98, 10869–10874 (2001).

Sorlie, T. et al. Repeated observation of breast tumor subtypes in independent gene expression data sets. Proc Natl Acad Sci U S A 100, 8418–8423 (2003).

Rakha, E. A., Reis-Filho, J. S. & Ellis, I. O. Basal-like breast cancer: a critical review. J Clin Oncol 26, 2568–2581 (2008).

van de Vijver, M. J. et al. A gene-expression signature as a predictor of survival in breast cancer. N Engl J Med 347, 1999–2009 (2002).

van 't Veer, L. J. et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature 415, 530–536 (2002).

van 't Veer, L. J. et al. Expression profiling predicts outcome in breast cancer. Breast Cancer Res 5, 57–58 (2003).

Parker, J. S. et al. Supervised risk predictor of breast cancer based on intrinsic subtypes. J Clin Oncol 27, 1160–1167 (2009).

Wang, Y. et al. Gene-expression profiles to predict distant metastasis of lymph-node-negative primary breast cancer. Lancet 365, 671–679 (2005).

Naderi, A. et al. A gene-expression signature to predict survival in breast cancer across independent data sets. Oncogene 26, 1507–1516 (2007).

Sgroi, D. C. Preinvasive breast cancer. Annu Rev Pathol 5, 193–221 (2010).

Weigelt, B., Baehner, F. L. & Reis-Filho, J. S. The contribution of gene expression profiling to breast cancer classification, prognostication and prediction: a retrospective of the last decade. J Pathol 220, 263–280 (2010).

Pusztai, L., Mazouni, C., Anderson, K., Wu, Y. & Symmans, W. F. Molecular classification of breast cancer: limitations and potential. Oncologist 11, 868–877 (2006).

Bauer, K. R., Brown, M., Cress, R. D., Parise, C. A. & Caggiano, V. Descriptive analysis of estrogen receptor (ER)-negative, progesterone receptor (PR)-negative and HER2-negative invasive breast cancer, the so-called triple-negative phenotype: a population-based study from the California cancer Registry. Cancer 109, 1721–1728 (2007).

Carey, L. A. et al. The triple negative paradox: primary tumor chemosensitivity of breast cancer subtypes. Clin Cancer Res 13, 2329–2334 (2007).

Foulkes, W. D., Smith, I. E. & Reis-Filho, J. S. Triple-negative breast cancer. N Engl J Med 363, 1938–1948 (2010).

Finnegan, T. J. & Carey, L. A. Gene-expression analysis and the basal-like breast cancer subtype. Future Oncol 3, 55–63 (2007).

Dent, R. et al. Triple-negative breast cancer: clinical features and patterns of recurrence. Clin Cancer Res 13, 4429–4434 (2007).

Gusterson, B. A. Identification and interpretation of epidermal growth factor and c-erbB-2 overexpression. Eur J Cancer 28, 263–267 (1992).

Gusterson, B. A. et al. Prognostic importance of c-erbB-2 expression in breast cancer. International (Ludwig) Breast Cancer Study Group. J Clin Oncol 10, 1049–1056 (1992).

Badve, S. et al. Basal-like and triple-negative breast cancers: a critical review with an emphasis on the implications for pathologists and oncologists. Mod Pathol 24, 157–167 (2011).

Mortazavi, A., Williams, B. A., McCue, K., Schaeffer, L. & Wold, B. Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods 5, 621–628 (2008).

Haas, B. J. & Zody, M. C. Advancing RNA-Seq analysis. Nat Biotechnol 28, 421–423 (2010).

Trapnell, C., Pachter, L. & Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics 25, 1105–1111 (2009).

Trapnell, C. et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol 28, 511–515 (2010).

Santos, G. C., Zielenska, M., Prasad, M. & Squire, J. A. Chromosome 6p amplification and cancer progression. J Clin Pathol 60, 1–7 (2007).

Richard, F. et al. Patterns of chromosomal imbalances in invasive breast cancer. Int J Cancer 89, 305–310 (2000).

Seute, A. et al. Clinical relevance of genomic aberrations in homogeneously treated high-risk stage II/III breast cancer patients. Int J Cancer 93, 80–84 (2001).

Anders, S. & Huber, W. Differential expression analysis for sequence count data. Genome Biol 11, R106 (2010).

Krzywinski, M. et al. Circos : une esthétique de l'information pour la génomique comparative. Genome Res 19, 1639–1645 (2009).

Licatalosi, D. D. & Darnell, R. B. RNA processing and its regulation: global insights into biological networks. Nat Rev Genet 11, 75–87 (2010).

Watkins, G., Douglas-Jones, A., Bryce, R., Mansel, R. E. & Jiang, W. G. Increased levels of SPARC (osteonectin) in human breast cancer tissues and its association with clinical outcomes. Prostaglandins Leukot Essent Fatty Acids 72, 267–272 (2005).

Morabito, A. et al. Analysis and clinical relevance of human leukocyte antigen class I, heavy chain and beta2-microglobulin downregulation in breast cancer. Hum Immunol 70, 492–495 (2009).

Ricolleau, G. et al. Surface-enhanced laser desorption/ionization time of flight mass spectrometry protein profiling identifies ubiquitin and ferritin light chain as prognostic biomarkers in node-negative breast cancer tumors. Proteomics 6, 1963–1975 (2006).

Cao, X. X. et al. RACK1: A superior independent predictor for poor clinical outcome in breast cancer. Int J Cancer 127, 1172–1179 (2010).

Moore, L. E. et al. Proteomic biomarkers in combination with CA 125 for detection of epithelial ovarian cancer using prediagnostic serum samples from the prostate, lung, colorectal and ovarian (PLCO) cancer screening trial. Cancer (2011).

Williams, D. B. Beyond lectins: the calnexin/calreticulin chaperone system of the endoplasmic reticulum. J Cell Sci 119, 615–623 (2006).

Sorlie, T. et al. Distinct molecular mechanisms underlying clinically relevant subtypes of breast cancer: gene expression analyses across three different platforms. BMC Genomics 7, 127 (2006).

Hu, Z. et al. The molecular portraits of breast tumors are conserved across microarray platforms. BMC Genomics 7, 96 (2006).

Garber, M., Grabherr, M. G., Guttman, M. & Trapnell, C. Computational methods for transcriptome annotation and quantification using RNA-seq. Nat Methods 8, 469–477 (2011).

Ozsolak, F. & Milos, P. M. RNA sequencing: advances, challenges and opportunities. Nat Rev Genet 12, 87–98 (2011).

Watkins, G., Martin, T. A., Bryce, R., Mansel, R. E. & Jiang, W. G. Gamma-Linolenic acid regulates the expression and secretion of SPARC in human cancer cells. Prostaglandins Leukot Essent Fatty Acids 72, 273–278 (2005).

Cao, X. X. et al. RACK1 promotes breast carcinoma migration/metastasis via activation of the RhoA/Rho kinase pathway. Breast Cancer Res Treat 126, 555–563 (2011).

Cao, X. X. et al. RACK1 promotes breast carcinoma proliferation and invasion/metastasis in vitro and in vivo. Breast Cancer Res Treat 123, 375–386 (2010).

Li, H. et al. Le format Sequence Alignment/Map et SAMtools. Bioinformatics 25, 2078–2079 (2009).


MRNA Sequencing (mRNA-seq)

RNA sequencing (RNA-seq) has been transforming the study of cellular functionality, which provides researchers with an unprecedented insight into the transcriptional landscape of cells. Employing the high-throughput and accurate next-generation sequencing technique (NGS), RNA-seq reveals l'expression du gène profiles and describes the continuous variations in the transcriptome. In the RNA-seq technique, the single-stranded messenger RNAs (mRNAs) are selectively captured or enriched, and converted to complementary DNA (cDNA) for library preparation.

At Novogene, the state-of-the-art Illumina NovaSeq platforms are used for a paired-end 150 bp sequencing strategy (short-reads) to sequence the cDNA libraries. With strong sequencing capacity and rich experience, Novogene offers multiple services to meet various needs, including the access to not only eukaryotic mRNA sequencing (mRNA-seq) services, but also the studies on prokaryotic transcripts, non-coding RNAs, full-length isoforms (long-reads), whole transcriptomes, and meta-transcriptomes.


Box 1: Comparisons of microarrays and sequencing for gene expression analysis

Several comparisons of RNA-seq and microarray data have now been made. These include proof-of-principle demonstrations of the sequencing platform [2, 31, 32], dedicated comparison studies [34, 75–77] and analysis methodology development [10]. The results are unanimous: sequencing has higher sensitivity and dynamic range, coupled with lower technical variation. Furthermore, comparisons have highlighted strong concordance between microarrays and sequencing in measures of both absolute and differential expression. Nevertheless, microarrays have been, and continue to be, highly successful in interrogating the transcriptome in many biological settings. Examples include defining the cell of origin for breast cancer subtypes [78] and investigating the effect of evolution on gene expression in Drosophile [79].

Microarrays and sequencing each have their own specific biases that can affect the ability of a platform to measure DE. It is well known that cross-hybridization of microarray probes affects expression measures in a non-uniform way [80, 81] and sequence content influences measured probe intensities [82]. Meanwhile, several studies have observed a GC bias in RNA-seq data [45] and RNA-seq can suffer from mapping ambiguity for paralogous sequences. Furthermore, there is a higher statistical power to detect changes at higher counts (for example, a twofold difference of 200 reads to 100 reads is more statistically significant than 20 reads to 10, under the null hypothesis of no difference) this bias typically manifests in RNA-seq as an association between DE and gene length, an effect not present in microarray data [66, 68]. Other studies indicate that specific sequencing protocols produce biases in the generated reads, which can be related to the sequence composition and distance along the transcript [49, 50, 83, 84]. For example, library preparation for small RNAs has been found to strongly affect the set of observed sequences [85]. Furthermore, transcriptome assembly approaches are necessarily biased by expression level because less information is available for genes expressed at a low level [11, 14]. Many of these biases are still being explored and clever statistical methods that harness this knowledge may be able to provide improvements on existing methods.

In addition to the larger dynamic range and sensitivity of RNA-seq, several additional factors have contributed to the rapid uptake of sequencing for differential expression analysis. First, microarrays are simply not available for many non-model organisms (for example, Affymetrix offers microarrays for approximately 30 species [86]). By contrast, genomes and sequence information are readily available for thousands of species [87]. Moreover, even when genomes are not available, RNA-seq can still be performed and the transcriptome can still be interrogated (for instance, a recent study used RNA-seq to investigate the cell origin of the Tasmanian Devil facial tumor [88]). Second, sequencing gives unprecedented detail about transcriptional features that arrays cannot, such as novel transcribed regions, allele-specific expression, RNA editing and a comprehensive capability to capture alternative splicing. For example, a recent RNA-seq study [11] was able to show several examples of isoform switching during cell differentiation, and RNA-seq was used to show parent-of-origin expression in mouse brain [5].

Sequencing is not without its challenges, of course. The cost of the platform may be limiting for some studies. However, with the expansion in total sequencing capacity and the ability to multiplex, the cost per sample to generate sufficient sequence depth will soon be comparable to that of microarrays. However, the cost of informatics to house, process and analyze the data is substantial [89]. Researchers with limited access to computing staff and resources may elect to use microarrays because data analysis procedures are relatively mature. Finally, it is clear that data analysis methodologies for sequencing data will continue to evolve for some time yet.


Informations sur l'auteur

Affiliations

Broad Institute of MIT and Harvard, Cambridge, Massachusetts, USA

Cole Trapnell, Loyal Goff, David R Kelley & John L Rinn

Department of Stem Cell and Regenerative Biology, Harvard University, Cambridge, Massachusetts, USA

Cole Trapnell, Loyal Goff, David R Kelley & John L Rinn

Department of Computer Science, University of California, Berkeley, California, USA

Adam Roberts, Harold Pimentel & Lior Pachter

Department of Electrical Engineering and Computer Science, Computer Science and Artificial Intelligence Lab, Massachusetts Institute of Technology, Cambridge, Massachusetts, USA

Department of Medicine, McKusick-Nathans Institute of Genetic Medicine, Johns Hopkins University School of Medicine, Baltimore, Maryland, USA

Geo Pertea, Daehwan Kim & Steven L Salzberg

Department of Biostatistics, Johns Hopkins University, Baltimore, Maryland, USA

Geo Pertea & Steven L Salzberg

Center for Bioinformatics and Computational Biology, University of Maryland, College Park, Maryland, USA

Department of Mathematics, University of California, Berkeley, California, USA

Department of Molecular and Cell Biology, University of California, Berkeley, California, USA


Voir la vidéo: UE7 TRANSCRIPTION: pose de la coiffequeue, épissage, édition (Mai 2022).


Commentaires:

  1. Buadhachan

    Je confirme. Je suis d'accord avec dit tout ci-dessus. Discutons de cette question. Ici ou dans PM.

  2. Tazshura

    Oui vraiment. Alors ça arrive. Entrez, nous discuterons de cette question.

  3. Gorvenal

    Bonne réponse



Écrire un message