Informations

NCBI EUtils. Obtenez des informations sur l'homologue à l'aide de Gene ID

NCBI EUtils. Obtenez des informations sur l'homologue à l'aide de Gene ID


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Comment récupérer les informations d'homologues au format xml ou json à partir de NCBI à l'aide d'un identifiant de gène ?

J'ai essayé une URL :

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=homologene&geneid=9&WebEnv=???&query_key=???

Je ne sais pas quoi ajouter dans les régions de point d'interrogation


Depuis l'aide des utilitaires de programmation Entrez [Internet] :

Entrée : toute requête de texte Entrez (&term) ; Base de données Entrez (&db); &usehistory=y; Environnement Web existant (&WebEnv) à partir d'un précédent appel E-utility

Pour éviter les messages d'erreur, web1 et key1 peuvent être utilisés comme termes (ceux-ci sont généralement utilisés pour s'associer à d'autres recherches), mais cela ne renvoie aucune donnée, probablement parce que l'ID que vous avez fourni était simplement "9", et cela reste flou exactement ce que vous recherchez dans le contexte d'autres requêtes.

Par exemple:

esearch.fcgi?db=&terme=&usehistory=y # esearch produit la valeur WebEnv ($web1) et la valeur QueryKey ($key1) esummary.fcgi?db=&query_key=$key1&WebEnv=$web1

Alors tandis queview-source:eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=homologene&geneid=9&WebEnv=web1&query_key=key1est une requête valide, elle ne pointe vers rien.


Un protocole pour ajouter des connaissances à Wikidata : aligner les ressources sur les coronavirus humains

Les pandémies, plus encore que d'autres problèmes médicaux, nécessitent une intégration rapide des connaissances. Lorsqu'il est causé par un nouveau virus, la compréhension de la biologie sous-jacente peut aider à trouver des solutions. Dans un contexte où il existe un grand nombre de projets et d'initiatives vaguement liés, nous avons besoin d'un terrain d'entente, également connu sous le nom de « communs ». Wikidata, un graphe de connaissances publiques aligné sur Wikipédia, est un tel bien commun et utilise des identifiants uniques pour relier les connaissances dans d'autres bases de connaissances. Cependant, Wikidata peut ne pas toujours avoir le bon schéma pour les questions urgentes. Dans cet article, nous abordons ce problème en montrant comment un schéma de données requis pour l'intégration peut être modélisé avec des schémas d'entité représentés par des expressions de forme.

Résultats

À titre d'exemple révélateur, nous décrivons le processus d'alignement des ressources sur les génomes et les protéomes du virus du SRAS-CoV-2 et des virus apparentés, ainsi que la manière dont les expressions de forme peuvent être définies pour que Wikidata modélise les connaissances, aidant les autres à étudier le SRAS. Pandémie de CoV-2. La façon dont ce modèle peut être utilisé pour rendre les données entre diverses ressources interopérables est démontrée en intégrant les données de la taxonomie NCBI (National Center for Biotechnology Information), NCBI Genes, UniProt et WikiPathways. Sur la base de ce modèle, un ensemble d'applications ou de robots automatisés a été écrit pour les mises à jour régulières de ces sources dans Wikidata et ajouté à une plate-forme pour exécuter automatiquement ces mises à jour.

Conclusion

Bien que ce flux de travail soit développé et appliqué dans le contexte de la pandémie de COVID-19, pour démontrer son applicabilité plus large, il a également été appliqué à d'autres coronavirus humains (MERS, SRAS, coronavirus humain NL63, coronavirus humain 229E, coronavirus humain HKU1, coronavirus humain OC4 ).


Les GEOmetadb package est une tentative de rendre l'interrogation des métadonnées décrivant les expériences, les plates-formes et les ensembles de données de puces à ADN à la fois plus facile et plus puissante. Au coeur de GEOmetadb est une base de données SQLite qui stocke presque toutes les métadonnées associées à tous les types de données GEO, y compris les échantillons GEO (GSM), les plates-formes GEO (GPL), les séries de données GEO (GSE) et les ensembles de données GEO organisés (GDS), ainsi que les relations entre ces types de données. Cette base de données est générée par notre serveur en analysant tous les enregistrements dans GEO et doit être téléchargée via une simple fonction d'assistance sur la machine locale de l'utilisateur avant GEOmetadb est utile. Une fois cela fait, toute la base de données GEO est accessible avec de simples requêtes basées sur SQL. Avec la base de données GEOmetadb, les requêtes qui ne sont tout simplement pas possibles avec les outils NCBI ou les pages Web sont souvent assez simples.

Les relations entre les tables de la base de données GEOmetadb SQLite peuvent être vues dans ce qui suit diagramme entité-relation.


Le meilleur moyen d'obtenir la liste des SNP par identifiant de gène ?

J'ai une longue base de données de gènes et diverses formes d'identifiants pour eux (par exemple OMIM, Ensembl, Genatlas). Je veux obtenir la liste de tous les SNP associés à chaque gène. (C'est l'inverse de cette question.)

Jusqu'à présent, la meilleure solution que j'ai trouvée est d'utiliser le biomart paquet (bioconducteur). Il y a un exemple du type de recherche que je dois faire ici. Adapté à mes besoins, voici mon code :

Cela génère une trame de données qui commence comme ceci :

Le code fonctionne, mais le temps d'exécution est extrêmement long. Pour ce qui précède, cela prend environ 45 secondes. Je pensais que cela était peut-être lié aux fréquences alléliques, que le serveur avait peut-être calculées à la volée. Mais rechercher le strict minimum des identifiants rs SNP prend environ 25 secondes. J'ai quelques milliers de gènes, donc cela prendrait une journée entière (en supposant qu'il n'y ait pas de délais d'attente ou d'autres erreurs). Cela ne peut pas être juste. Ma connexion Internet n'est pas lente (20-30 mbit).

J'ai essayé de rechercher plus de gènes par requête. Cela n'a pas aidé. Rechercher 10 gènes à la fois est environ 10 fois plus lent que de rechercher un seul gène.

Quelle est la meilleure façon d'obtenir un vecteur de SNP associé à un vecteur d'identifiants de gènes ?


Enregistrer les versions

La gestion des versions d'accession se fait en ajoutant un point suivi d'un numéro de version, par ex. Q12345.1 ou Q12345.2 seraient deux versions différentes du même enregistrement. La gestion des versions représente les mises à jour apportées aux enregistrements, généralement à mesure que de nouvelles informations deviennent disponibles.

Une source potentielle de problèmes est que les enregistrements NCBI obtenus directement via l'interface eUtils (par opposition au site Web) ne contiennent aucune information sur les versions associées. Cela signifie que geeneus n'est pas non plus en mesure de donner cette information.

L'interrogation d'une accession non versionnée (par exemple, Q12345 ou NP_1234567) donnera l'enregistrement le plus à jour associé à cette accession, tandis que l'interrogation d'une valeur versionnée (Q12345,3 ou NP_1234567.5) donnera cette version spécifique. Cependant, il n'y a aucun moyen de savoir si un enregistrement versionné spécifique est l'enregistrement le plus à jour ou d'accéder aux enregistrements précédents. Ce n'est pas nécessairement un problème, il faut juste savoir que si vous interrogez avec des numéros de version explicites, cela peut ne pas donner la version la plus à jour.

Notez que les numéros GI sont uniques pour chaque version différente, alors traitez la gestion des versions d'une manière différente. Le numéro de version renvoyé ici fait référence à la version d'adhésion non IG, lorsqu'elle est disponible. Si aucune version explicite n'est disponible, nous supposons que la version est 1.


1. Introduction

La disponibilité croissante des données biologiques a non seulement entraîné une multitude de données de séquences génomiques, mais également des augmentations substantielles de la quantité de métadonnées d'accompagnement, y compris les phylogénies, les conditions et les emplacements d'échantillonnage et les ontologies génétiques. Pour utiliser de telles données dans un pipeline d'analyse biologique, une approche programmatique est nécessaire pour interroger et récupérer les données de ces bases de données. Le National Center for Biotechnology Information (NCBI) est l'un des plus grands référentiels de ce type et a à la fois développé et maintenu les bases de données Entrez qui comprennent actuellement 37 bases de données individuelles stockant 2,1 milliards d'enregistrements liés aux sciences de la vie ( NCBI Resource Coordinators, 2016).

NCBI propose deux approches pour interagir par programmation avec ses bases de données Entrez : (i) Les utilitaires électroniques (http://eutils.ncbi.nlm.nih.gov/) sont un ensemble d'outils qui permettent à l'utilisateur d'interroger et de récupérer des données NCBI en utilisant des identificateurs de ressources uniformes (URI) spécifiques. Les bases de données Entrez sont accessibles à l'aide d'un URI décrivant la fonction et son paramètre, comme la recherche d'une base de données avec un terme spécifique et (ii) Entrez Direct—un puissant programme Perl qui permet ad hoc accès aux bases de données NCBI via une interface de ligne de commande ( Kans, 2016, https://www.ncbi.nlm.nih.gov/books/NBK179288). E-Utilities offre une interface de bas niveau vers les bases de données Entrez via Entrez Direct. Cependant, Entrez Direct est conçu comme un outil de ligne de commande et est donc principalement incorporé dans les pipelines d'analyse via un shell, tel que Bash, mais pas conçu comme une bibliothèque. Bien que Python soit de plus en plus utilisé par les biologistes, l'incorporation de Entrez Direct dans les pipelines Python nécessite l'utilisation de nouveaux processus en dehors de Python, ajoutant une couche supplémentaire de complexité.

Ici, nous présentons Entrezpy. A notre connaissance, c'est la première bibliothèque Python à offrir les mêmes fonctionnalités que Entrez Direct, mais en tant que bibliothèque Python. Les bibliothèques existantes, telles que Biopython ( Cock et al., 2009) ou ETE 3 ( Huerta-Cepas et al., 2016), offrent une interaction basique ou très étroite avec les e-utilities. Biopython ne gère pas les requêtes entières, laissant l'utilisateur implémenter la logique pour récupérer les requêtes volumineuses, tandis que ETE représente une bibliothèque se concentrant uniquement sur la phylogénétique. En revanche, Entrezpy est spécifiquement conçu pour interagir avec E-Utilities. Il offre un contrôle précis sur la façon de télécharger les données et peut mettre en cache les résultats localement pour une récupération rapide. Cela permet d'interroger et de télécharger des données à partir des bases de données Entrez en tant que partie intégrante d'un pipeline d'analyse. Entrezpy se configure automatiquement pour récupérer de grands ensembles de données selon la fonction E-Utility implémentée et les limites imposées par NCBI.

Entrezpy inclut une classe d'assistance, appelée Conduit, qui facilite la création et l'exécution de pipelines de requêtes, c'est-à-dire plusieurs requêtes consécutives pouvant dépendre de requêtes précédentes avec des dépendances possibles, et la possibilité de réutiliser les résultats obtenus précédemment. Entrezpy est sous licence GNU Lesser General Public License et est conditionné dans PyPi (https://pypi.org/project/entrezpy/) ou peut être obtenu à partir de https://gitlab.com/ncbipy/entrezpy. Le code source Entrezpy est documenté à l'aide de Sphinx (http://www.sphinx-doc.org/en/stable/index.html) et la documentation, y compris des exemples d'utilisation, est disponible sur https://entrezpy.readthedocs.io/ .


DIRECTIONS FUTURES

Le nombre d'enregistrements dans Entrez Gene continuera d'augmenter à mesure que de nouvelles espèces sont séquencées et que des gènes sont identifiés. Au cours de l'année 2011, des sections seront ajoutées à l'interface Web et/ou le contenu sera amélioré afin que les utilisateurs aient accès à plus d'informations dans le rapport complet avant de naviguer vers les sites connexes de NCBI. Cette transition a débuté en 2010 avec l'ajout de la section phénotype. Enfin, au fur et à mesure que de nouvelles bases de données avec un contenu spécifique aux gènes sont mises en œuvre au NCBI, du contenu et/ou des liens seront ajoutés à Entrez Gene.


Évaluation du séquençage tumoral en remplacement du dépistage du syndrome de Lynch et des tests moléculaires actuels chez les patients atteints de cancer colorectal

Importance: Le dépistage universel des tumeurs pour le syndrome de Lynch (LS) dans le cancer colorectal (CCR) est recommandé et implique jusqu'à 6 tests séquentiels. Des tests génétiques somatiques sont effectués sur des CRC de stade IV pour la détermination du traitement. Le bilan diagnostique pour les patients atteints de CCR pourrait être simplifié et amélioré à l'aide d'un seul test de séquençage tumoral initial de nouvelle génération s'il présente une sensibilité et une spécificité supérieures à celles du protocole de dépistage actuel.

Objectif: Déterminer si le séquençage initial des tumeurs (TS) pourrait remplacer l'approche actuelle de tests séquentiels multiples pour le dépistage universel des tumeurs pour le LS.

Conception, cadre et participants : ADN tumoral de 419 cas consécutifs de CCR soumis à un dépistage universel standard des tumeurs et à des tests génétiques germinaux lorsque cela est indiqué dans le cadre de l'Initiative de prévention du cancer colorectal multicentrique de l'Ohio d'octobre 2015 à février 2016 (la cohorte prospective) et 46 patients atteints de CCR connus pour ont LS en raison d'une mutation de la lignée germinale dans un gène de réparation des mésappariements de janvier 2013 à septembre 2015 (la cohorte de validation) ont subi un TS en aveugle.

Principaux résultats et mesures : Sensibilité du TS par rapport aux tests d'instabilité des microsatellites (MSI) et à la coloration immunohistochimique (IHC) pour la détection du LS.

Résultats: Chez les 465 patients, l'âge moyen au moment du diagnostic était de 59,9 ans (extrêmes, 20-96 ans) et 241 (51,8 %) étaient des femmes. Le séquençage tumoral a identifié les 46 cas de LS connus de la cohorte de validation et 12 autres cas de LS de la cohorte prospective de 419 membres. Le test avec MSI ou IHC, suivi du test BRAF p.V600E a manqué 5 et 6 cas de LS, respectivement. Le séquençage tumoral seul avait une meilleure sensibilité (100 % IC 95 %, 93,8 %-100 %) que IHC plus BRAF (89,7 % IC 95 %, 78,8 %-96,1 % P = 0,04) et MSI plus BRAF (91,4 % IC 95 % , 81,0 %-97,1 % P = 0,07). Le séquençage tumoral avait une spécificité égale (95,3 % IC à 95 %, 92,6 % à 97,2 %) à IHC plus BRAF (94,6% IC à 95 %, 91,9% à 96,6 % P > .99) et MSI plus BRAF (94,8% IC à 95 %, 92,2 % à 96,8 % P = 0,88). Le séquençage tumoral a identifié 284 cas avec des mutations KRAS, NRAS ou BRAF qui pourraient affecter le traitement du CCR de stade IV, évitant un autre test. Enfin, TS a identifié 8 patients présentant des mutations germinales DPYD qui confèrent une toxicité à la chimiothérapie au fluorouracile, ce qui pourrait également être utile pour la sélection du traitement.

Conclusions et pertinence : Le TS initial dans le CCR est plus simple et présente une sensibilité supérieure aux approches multitests actuelles du dépistage du LS, tout en fournissant simultanément des informations essentielles pour la sélection du traitement.

Déclaration de conflit d'intérêts

Divulgations de conflits d'intérêts : Mme Hampel divulgue un rôle de conseil ou de conseil auprès d'Invitae et de Genome Medical, et d'actions dans Genome Medical. Le Dr Paskett a une subvention de recherche (à l'institution) de la Fondation Merck et des actions de Pfizer. Le Dr de la Chapelle divulgue un brevet ou un intérêt de propriété intellectuelle avec Genzyme et Ipsogen. Aucune autre divulgation n'est signalée.

Les figures

Figure 1. Paradigme actuel de la tumeur universelle…

Figure 1. Paradigme actuel pour le dépistage universel des tumeurs du syndrome de Lynch chez les patients atteints de cancer colorectal…

Figure 2.. Voie de dépistage universelle proposée pour les tumeurs…

Figure 2.. Voie de dépistage universelle proposée des tumeurs utilisant le séquençage des tumeurs pour tous les patients atteints de…


Les mutations CCDC151 provoquent une dyskinésie ciliaire primaire par perturbation de la formation du complexe d'amarrage du bras externe en dynéine

Une famille diversifiée de moteurs de dynéine cytosquelettique alimente divers systèmes de transport cellulaire, y compris les dynéines axonémiques générant la force de battement ciliaire et flagellaire essentielle au mouvement des fluides extracellulaires et des cellules à travers le fluide. Les complexes moteurs multi-sous-unités du bras de dynéine externe (ODA), produits et préassemblés dans le cytosol, sont transportés vers le compartiment ciliaire ou flagellaire et ancrés dans l'échafaudage microtubulaire axonémal via le système de complexe d'amarrage ODA (ODA-DC). Chez l'homme, les défauts d'assemblage de l'ODA sont la principale cause de la dyskinésie ciliaire primaire (DCP), un trouble héréditaire de la dysmotilité ciliaire et flagellaire caractérisé par des infections chroniques des voies respiratoires supérieures et inférieures et des défauts de latéralité. Ici, par cartographie et séquençage à haut débit combinés, nous avons identifié des mutations de perte de fonction CCDC151 chez cinq individus affectés de trois familles indépendantes dont les cils ont montré une perte complète d'APD et des battements ciliaires gravement altérés. Conformément aux défauts de latéralité observés chez ces individus, nous avons trouvé Ccdc151 exprimé dans les organisateurs gauche-droite des vertébrés. Les mutants homozygotes du poisson zèbre ccdc151(ts272a) et de la souris Ccdc151(Snbl) présentent un spectre de défauts du site associés à des malformations cardiaques complexes. Nous démontrons que CCDC151 code pour une protéine enroulée axonémale, des mutations dans lesquelles abolissent l'assemblage de CCDC151 dans les cils respiratoires et provoquent une défaillance de l'assemblage axonémal du composant ODA DNAH5 et des composants CCDC114 et ARMC4 associés à l'ODA-DC. Les poissons zèbres, planaires et souris déficients en CCDC151 présentent également une dysmotilité ciliaire accompagnée d'une perte d'APD. En outre, CCDC151 co-immunoprécipite CCDC114 et semble donc être une protéine liée à l'ODA-DC hautement conservée au cours de l'évolution, impliquée dans la médiation de l'assemblage des ODA et de leur machinerie d'amarrage axonémale sur les microtubules ciliaires.

Copyright © 2014 Les auteurs. Publié par Elsevier Inc. Tous droits réservés.

Les figures

Poisson zèbre ccdc151 S'exprime en…

Poisson zèbre ccdc151 Est exprimé dans les tissus ciliés et requis pour les processus dépendants de la motilité ciliaire…

Le CCDC151 est localisé sur les voies respiratoires…

Le CCDC151 est localisé dans les axonèmes ciliaires respiratoires (A) Analyse par immunoempreinte (voie de droite) de…

mutations dans CCDC151 Affecter le…

mutations dans CCDC151 Affecter la localisation des composants associés au complexe d'amarrage ODA-Microtubule CCDC114 et ARMC4…


Un homologue de la cétosynthase utilise des unités malonyle pour former des esters dans la biosynthèse de la cervimycine

Les cétosynthases produisent les squelettes carbonés d'un grand nombre de polycétides biologiquement actifs en catalysant les condensations de Claisen de blocs de construction acyle et malonyle activés. Nous rapportons ici qu'un homologue de la cétosynthase de Streptomyces tendae, CerJ, forme de façon inattendue des esters malonyliques lors de la biosynthèse de la cervimycine, un antibiotique glycoside contre la résistance à la méthicilline Staphylococcus aureus (SARM). Suppression de cerJ a donné un variant de cervimycine sensiblement plus actif dépourvu de la chaîne latérale malonyle, et in vitro les biotransformations ont révélé que CerJ est capable de transférer des unités malonyle, méthylmalonyle et diméthylmalonyle sur le glycoside. Selon les analyses phylogénétiques et l'élucidation de la structure cristalline, CerJ est fonctionnellement et structurellement positionné entre les condensations de Claisen catalysant la cétosynthase et les navettes acyl-ACP, et il présente une triade catalytique non canonique. La mutagenèse dirigée et les structures de CerJ en complexe avec des substrats nous ont non seulement permis d'établir un modèle pour le mécanisme de réaction, mais ont également fourni des informations sur l'évolution de cette sous-classe importante de la superfamille des thiolases.