Informations

Les données originales de diffraction des rayons X sont-elles disponibles

Les données originales de diffraction des rayons X sont-elles disponibles



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Les chercheurs ont-ils l'habitude de publier les données originales de diffraction des rayons X utilisées dans la détermination de la structure macromoléculaire ? Si non, pourquoi pas ; et si oui, existe-t-il une base de données en ligne où ces données peuvent être téléchargées ?


Dans de nombreux cas, ils sont disponibles. L'un des principes fondateurs de la Protein Data Bank (PDB) était de stocker non seulement les modèles (positions et identités atomiques) des macromolécules et des protéines, mais aussi les données radiographiques d'origine, plus récemment dans des facteurs de structure.

Si la question est « pourquoi ne donnent-ils que les facteurs de structure et non les données d'origine qu'ils ont prises », une telle tâche nécessiterait beaucoup d'efforts de conservation pour très peu d'avantages scientifiques. La mise à l'échelle des ensembles de données individuels du détecteur était autrefois une tâche fastidieuse. La structure originale de la myoglobine impliquerait des films numérisés dans un format ancien des années 50. Personne ne pourrait l'utiliser maintenant sans pirater le format de l'image, si ce n'était sur du papier ou des cartes. En fait, dans ce cas, les facteurs de structure ne sont pas disponibles. La mise à l'échelle de plusieurs ou plusieurs collections de données ensemble était souvent effectuée avec des ajustements personnalisés dans les années 70, puis dans les années 90, la collecte de données est devenue plus routinière, mais plusieurs générations de détecteurs de rayons X sont devenues populaires puis ont disparu du marché. Chacun avait ses propres excentricités et exigences pour combiner des ensembles de données provenant de plusieurs lectures.

Le but de disposer de facteurs de structure est de permettre à quiconque de reconstruire la densité électronique et d'évaluer l'acte d'interprétation qui trace un peptide à travers la densité électronique. Étant donné que ce format est principalement indépendant du détecteur et qu'il a été assez cohérent au fil des ans, il offre un excellent rapport qualité-prix scientifique.

Si vous voulez des données d'image brutes ou des données propriétaires du détecteur avant que plusieurs ensembles de données provenant de différents cristaux avant qu'ils ne soient combinés, vous devrez contacter les auteurs, qui devraient probablement passer au crible une mer de DVD pour y accéder. Dans les cas plus anciens, il peut s'agir de bandes.

En ce qui concerne les facteurs de structure, qui sont essentiellement la valeur de la racine carrée des données d'intensité combinées et mises à l'échelle, ils sont disponibles et font partie de chaque soumission à la pdb :

Regardez sur n'importe quelle page de structure à rayons X au RCSB. Par exemple celui-ci.

Il y a une boîte appelée "Détails expérimentaux" et vous pouvez y télécharger les facteurs de structure en cliquant sur un lien.

Si vous en recherchez plusieurs à la fois, des téléchargements en masse sont disponibles via leur page de téléchargement. Cochez la case "Facteurs de structure". Les données d'intensité brutes devraient être disponibles si vous les recherchez également.

Autres suggestions: Je pensais que si vous regardez le logiciel de mise à l'échelle fourni avec les détecteurs de rayons X, vous pourriez trouver des tutoriels avec des données brutes non mises à l'échelle. J'ai trouvé un exemple chez Marresearch - le lysozyme de blanc d'œuf de poule.


Une base de données publique d'expériences de diffraction macromoléculaire

Chaque point se forme à partir de l'interférence constructive des rayons X traversant un cristal. Les données peuvent être utilisées pour examiner la structure du cristal. Crédit : M. Grabowski et al.

La reproductibilité des résultats expérimentaux publiés a récemment attiré l'attention dans de nombreux domaines scientifiques différents. Le manque de disponibilité de données scientifiques primaires originales représente un facteur majeur contribuant aux problèmes de reproductibilité, cependant, la communauté de la biologie structurale a pris des mesures importantes pour rendre les données expérimentales disponibles.

La cristallographie macromoléculaire aux rayons X a ouvert la voie en exigeant la diffusion publique de coordonnées atomiques et d'une multitude de données expérimentales via la Protein Data Bank (PDB) et des projets similaires, faisant du domaine l'un des plus reproductibles des sciences biologiques.

L'IUCr a chargé le Diffraction Data Deposition Working Group (DDDWG) en 2011 d'examiner les avantages et la faisabilité de l'archivage des images de diffraction brutes en cristallographie. Le rapport triennal 2011-2014 du DDDWG a fait plusieurs recommandations clés concernant la préservation des données de diffraction brutes. Cependant, il ne reste aucun mandat pour la divulgation publique des données de diffraction originales.

La ressource intégrée pour la reproductibilité en cristallographie macromoléculaire (IRRMC) fait partie du programme Big Data to Knowledge des National Institutes of Health et a été développée pour archiver les données brutes des expériences de diffraction et, tout aussi important, pour fournir des métadonnées associées. La base de données [Grabowski et al. (2016). Acta Cristal. D72, 1181-1193, DOI: 10.1107/S2059798316014716], contient au moment de la rédaction 3070 expériences de diffraction macromoléculaire (5983 ensembles de données) et leurs métadonnées partiellement conservées correspondantes, représentant environ 3% de tous les dépôts dans la Protein Data Bank. La ressource est accessible à l'adresse http://www.proteindiffraction.org et peut être recherchée à l'aide de divers critères via une interface simple et rationalisée. Toutes les données sont disponibles pour un accès et un téléchargement illimités. La ressource sert de preuve de concept et démontre la faisabilité de l'archivage des données de diffraction brutes et des métadonnées associées à partir d'études cristallographiques aux rayons X de macromolécules biologiques.

S'adressant à un journaliste à propos du projet, le chef d'équipe Wladek Minor a déclaré : « Il y a tellement de recherches en cours qu'elles ne peuvent pas toutes être publiées, et souvent les résultats d'études infructueuses n'apparaissent pas dans la littérature. Je pense que la clé de le succès, c'est de connaître les expériences infructueuses, nous voulons savoir pourquoi elles échouent".

L'objectif du projet est d'étendre l'IRRMC et d'inclure des ensembles de données qui n'ont pas réussi à produire des structures à rayons X. Cela pourrait faciliter les efforts de collaboration pour améliorer les méthodes de détermination de la structure des protéines et également garantir la disponibilité des données « orphelines » laissées par des chercheurs individuels et/ou des projets de génomique structurelle disparus.


Instrumentation de diffraction des rayons X sur poudre (XRD) - Comment ça marche ?

La géométrie d'un diffractomètre à rayons X est telle que l'échantillon tourne dans le trajet du faisceau de rayons X collimaté à un angle θ tandis que le détecteur de rayons X est monté sur un bras pour collecter les rayons X diffractés et tourne à un angle de 2 θ . L'instrument utilisé pour maintenir l'angle et faire pivoter l'échantillon est appelé un goniomètre. Pour les modèles de poudre typiques, les données sont collectées à 2 θ à partir de

5 ° à 70 ° , angles préréglés dans la radiographie.


Les données originales de diffraction des rayons X sont-elles disponibles - Biologie

Ces dernières années ont vu un intérêt croissant pour la conservation des ensembles de données de diffraction brutes collectées pour la détermination des structures cristallines et moléculaires. Cet intérêt est apparu spontanément au sein de la communauté cristallographique sur plusieurs fronts. Par exemple, les ensembles de données brutes sont précieux pour développer de nouvelles méthodes de détermination de la structure et pour l'étalonnage des algorithmes logiciels (Terwilliger & Bricogne, 2014) ils sont parfois importants pour valider l'interprétation des caractéristiques structurelles et de plus en plus ils rapportent une étude plus approfondie, que ce soit pour permettre l'analyse des données à une résolution plus élevée que celle utilisée dans le travail original, comprendre la présence de plusieurs réseaux présents dans un cristal, ou déduire les détails des mouvements ou des désordres corrélés à partir de la diffusion diffuse qui est largement ignorée dans la détermination des positions et des caractéristiques des pics de Bragg.

Parallèlement, l'évolution de la politique scientifique dans le monde incite à examiner de plus près l'ensemble de la pratique de la gestion des données de recherche, et il existe un nombre croissant de mandats pour conserver les données brutes qui sous-tendent toute étude expérimentale et les mettre à la disposition d'autres chercheurs. . Début 2016, tous les conseils de recherche scientifique britanniques avaient pris position sur la gestion, l'accès et la conservation à long terme des données (Digital Curation Centre, 2016 Research Councils UK, 2015). Un résumé utile des exigences de l'Agence fédérale de financement des États-Unis pour la gestion des données scientifiques est hébergé par la Northwestern University Library (2016). Une proposition récente digne de mention appelle à un European Open Science Cloud for Research (Jones, 2015 ).

Différentes communautés ont des idées différentes sur les données qu'elles apprécient le plus et, en fait, sur ce qui constitue des « données ». La National Science Foundation (NSF) des États-Unis le rend explicite dans ses « Questions fréquemment posées » (National Science Foundation, 2010) :

1. Que constituent les « données » couvertes par un plan de gestion des données ?

Ce qui constitue de telles données sera déterminé par la communauté d'intérêt à travers le processus d'examen par les pairs et de gestion de programme. Cela peut inclure, sans s'y limiter : des données, des publications, des échantillons, des collections physiques, des logiciels et des modèles.

En conséquence, il existe une grande variété entre les différentes disciplines scientifiques dans leurs approches de la gestion et de la conservation des données, et donc dans la disponibilité des référentiels publics et dans les outils logiciels pour gérer le dépôt, l'accès et la réutilisation. Néanmoins, deux thèmes reviennent dans les différents mandats et guides de bonnes pratiques publiés : l'importance des identifiants persistants pour les ensembles de données, et le besoin vital de les caractériser le plus complètement possible par des métadonnées appropriées.

La cristallographie est généralement considérée comme une science qui a sa maison en bon ordre en ce qui concerne la gestion, la validation, l'accès et la réutilisation des données. Ceci est largement vrai en ce qui concerne les données « dérivées » (par lesquelles nous entendons les coordonnées de position atomiques et les paramètres de déplacement résultant des déterminations de structure) et les publications associées. Il est plus discutable en ce qui concerne les données de diffraction traitées - les données traitées après l'expérience (généralement des facteurs de structure) qui constituent la base de la détermination de la structure atomique et moléculaire et du raffinement ultérieur menant à un modèle structurel. Certaines revues exigent le dépôt de facteurs de structure à l'appui de toute publication, et la Protein Data Bank (PDB Berman et al. , 2000) nécessite le dépôt de facteurs de structure avec les coordonnées atomiques. Cependant, il s'agit généralement de l'ensemble final de facteurs de structure utilisés dans le raffinement et peuvent manquer d'informations rejetées lors de la fusion des pics de diffraction liés à la symétrie, ou exclues pour d'autres raisons des premiers cycles de raffinement. L'APB volonté acceptent les données d'intensité traitées non fusionnées, et il existe des recommandations communautaires encourageant leur dépôt (International Structural Genomics Organization, 2001 ), mais la pratique n'est pas encore universelle en cristallographie macromoléculaire. Pour les structures cristallines à petites cellules, même les journaux qui acceptent les facteurs de structure n'ont pas jusqu'à présent exigé d'intensités non fusionnées. Cependant, il est de plus en plus reconnu qu'ils sont importants, à la fois pour le développement vérifierCIF validation effectuée au cours du processus d'examen par les pairs, et en effet pour encourager les futurs chercheurs à revoir et réévaluer les résultats publiés, peut-être lorsque de nouvelles idées ou de nouveaux outils deviennent disponibles (A. Linden, communication personnelle).

Cependant, historiquement, il n'y a pas eu de tradition de conserver les images brutes de diffraction des rayons X collectées par les détecteurs électroniques, bien que les installations neutroniques centralisées aient une longue tradition de conservation des données brutes. Ces dernières années, les pratiques nourries par les installations neutroniques se sont généralisées. Chaque type d'installation instrumentale centralisée à grande échelle (synchrotrons et dernièrement lasers à électrons libres, ainsi que réacteurs à neutrons) a commencé à évoluer vers la conservation des données brutes. Cette tendance a été encouragée par l'amélioration rapide des procédures de traitement électronique des données.

En 2011, l'Union internationale de cristallographie (IUCr) a créé un groupe de travail pour explorer les mérites et les défis de la conservation des données expérimentales initiales. Ce groupe, le Diffraction Data Deposition Working Group (DDDWG), a mené un certain nombre de consultations, de réunions de discussion et d'ateliers pour explorer le sujet. Une série d'articles publiés dans Acta Crystallographica Section D (Terwilliger, 2014 ) a donné un aperçu des raisons de l'archivage des données brutes dans le domaine de la cristallographie macromoléculaire, des modèles pour le faire en routine ou à grande échelle, des initiatives pratiques actuelles et des avantages potentiels pour l'amélioration des modèles de structure macromoléculaire.

Ces articles ont également souligné l'importance d'attribuer des identifiants persistants aux ensembles de données pour faciliter leur gestion et leur conservation à long terme, et pour garantir que chaque ensemble de données soit caractérisé par des métadonnées riches, à la fois pour faciliter la découverte et pour permettre une réutilisation scientifique efficace (Guss &# 38 McMahon, 2014 Kroon-Batenburg & Helliwell, 2014 ).

Dans le reste de ce introduction , nous présentons un atelier récent qui s'est concentré sur les métadonnées dans les expériences cristallographiques et connexes, nous passons en revue les arguments en faveur du dépôt de données brutes en tant que pratique courante et nous plaçons ces activités dans le contexte des initiatives de politique scientifique mondiale. L'article examine ensuite plus en détail les mécanismes actuels et évolutifs de dépôt de données expérimentales brutes (en particulier les images de diffraction des rayons X) et les exigences détaillées pour les métadonnées décrivant les ensembles de données archivés, afin d'assurer la reproductibilité des résultats scientifiques dérivés. et aux prochaines étapes.

1.2. Améliorer les métadonnées

Pour se concentrer sur les problèmes de métadonnées, le DDDWG a organisé un atelier de deux jours à Rovinj, en Croatie, en août 2015. Un compte rendu complet de l'atelier est conservé en ligne à l'adresse http://www.iucr.org/resources/data/dddwg/ rovinj-workshop et un certain nombre d'articles issus de la réunion sont en préparation. Nous détaillons ici quelques résultats spécifiques de l'atelier.

1.2.1. Efforts des Commissions de l'IUCr

L'IUCr gère sa mission scientifique à travers un certain nombre de commissions, chacune responsable d'un domaine particulier au sein de la cristallographie. Le DDDWG a demandé à chaque Commission d'examiner ses propres besoins pour définir des métadonnées pour les données expérimentales brutes dans son domaine. Parmi celles qui ont été les plus actives pour répondre à cette demande figurent la Commission sur XAFS (Ravel et al. , 2012 ) la Commission sur la diffusion aux petits angles (Jacques et al. , 2012 ) la Commission des hautes pressions (Fig. 1 ) et la Commission des macromolécules biologiques ( par exemple. Gutmanas et al. , 2013 ).


Figure 1
Montage de diapositives de la présentation de Kamil Dziubek à l'atelier de Rovinj, illustrant les aspects des expériences de diffraction sous haute pression et d'autres conditions non ambiantes qui doivent être bien caractérisées et enregistrées. (Graphiques avec l'aimable autorisation de Ronald Miletich-Pawliczek, Université de Vienne.)

Le Centre international de données de diffraction (ICDD, Pennsylvanie, États-Unis http://www.icdd.com) est actif dans l'exploitation d'ensembles de données de diffraction de poudre brute depuis un certain temps et nous a signalé à l'ECM29 à Rovinj (août 2015) que ils ont maintenant incorporé plus de 10 ensembles de données de diffraction de poudre brute dans le fichier de diffraction de poudre. Ils notent que les ensembles de données unidimensionnels sont généralement assez bien caractérisés en termes de métadonnées expérimentales cataloguées dans le dictionnaire Powder CIF (pdCIF) (Toby, 2005), mais que l'interprétation des images de diffraction bidimensionnelles est entravée par un manque de cohérence. en rapportant des caractéristiques telles que les axes du goniomètre, le courant d'obscurité du détecteur, la distorsion et d'autres corrections (T. Fawcett, communication personnelle, voir également la section 1.2.2 ). La Commission sur la diffraction des poudres prévoit de poursuivre les travaux sur les données brutes de diffraction des neutrons sur poudre et assurera la liaison avec la Commission sur la diffusion des neutrons, le cas échéant. La Commission sur la chimie structurale a eu des participants enthousiastes aux événements organisés par le DDDWG à Madrid, Bergen et Rovinj.

1.2.2. Caractérisation des images de diffraction des rayons X

La classe d'ensembles de données expérimentales qui correspond le mieux à la mission initiale du DDDWG est celle des images de diffraction des rayons X collectées à partir de détecteurs CCD ou de pixels. Un bon catalogue des métadonnées nécessaires, en général, pour interpréter un fichier de données d'images brutes a été fourni par Kroon-Batenburg & Helliwell (2014). De nombreux éléments individuels requis sont définis dans le dictionnaire imgCIF (Bernstein, 2005), et il y a eu des implémentations partielles de certains d'entre eux dans des en-têtes dits « mini-CBF » de fichiers d'images écrits par un certain nombre de systèmes de détection commerciaux. Cependant, cela n'a pas été fait de manière cohérente entre les fournisseurs ni même à travers l'ensemble de la gamme de produits des fournisseurs individuels. (CBF, le fichier binaire cristallographique, et imgCIF, son homologue ASCII pur, sont des implémentations équivalentes de l'ontologie CIF pour les images de diffraction.)

De plus en plus, les images sont stockées en utilisant le format de données HDF5/NeXus (Könnecke et al. , 2015 ), et bien que le format physique du fichier de données ne doive pas affecter sa capacité à stocker des informations structurées spécifiques (Hester, 2016 ), des efforts seront nécessaires pour s'assurer que les représentations de données CIF et NeXus sont également capables de stocker les métadonnées expérimentales. Des efforts importants pour y parvenir au niveau technique ont déjà été investis suite à la participation à un atelier précédent de représentants du COMCIFS (Comité pour le maintien de la norme CIF) et du NIAC (Comité consultatif international NeXus), les organismes chargés de gérer le CIF et Formats de données NeXus, respectivement (Bernstein et al. , 2013 ). Néanmoins, les présentations à l'atelier de Rovinj par Kroon-Batenburg (https://youtu.be/XXFDlNn21SY) et par Minor (https://youtu.be/eQbs9sB_pOM) ont souligné qu'il reste encore un long chemin à parcourir avant la myriade de Les formats générés par les détecteurs électroniques commerciaux sensibles à la position contiennent les métadonnées communes nécessaires pour permettre une interprétation et une gestion faciles (voir la discussion plus approfondie à la section 3.2 ).

L'arrivée du nouveau détecteur de pixels Dectris Eiger, avec son augmentation colossale des débits de données d'images de diffraction, a mis en évidence l'importance d'un format de données et d'un enregistrement de métadonnées efficaces, non seulement pour le traitement des données de diffraction sur un synchrotron ou une ligne de faisceau laser à rayons X, mais aussi pour un traitement ultérieur à l'extérieur de l'installation, et finalement pour un retraitement/réanalyse à partir d'une archive de données brutes si nécessaire. Les différents enjeux ont été détaillés dans un fil de discussion sur la liste de diffusion CCP4bb début mars 2016 (impliquant, entre autres, G. Winter, A. Förster, H. J. Bernstein, C. Vonrhein et G. Bricogne).

1.3. Le cas du dépôt de données brutes

Nous résumons les arguments en faveur du stockage et de la récupération de routine des données brutes pour souligner leur valeur potentielle pour la communauté. Dans le même temps, nous reconnaissons le coût et les autres contraintes pratiques du stockage indéfini de tous les ensembles de données collectées, et nous ne sommes pas en mesure de donner une indication définitive de l'équilibre qui pourrait se trouver entre l'archivage et la suppression des données brutes. Cependant, nous montrons dans la section 1.4 qu'il existe des tendances perceptibles vers le stockage de plus d'ensembles de données que ce à quoi nous aurions pu nous attendre dans les premiers travaux du DDDWG.

Il existe une vision philosophique large de l'importance de l'accès aux données de diffraction brutes, à savoir que la science nécessite la capacité de mener une analyse complète à travers ses propres yeux et non l'objectif de quelqu'un d'autre. Les images de diffraction brutes offrent plusieurs opportunités pour une science améliorée ou nouvelle. Ils permettent l'analyse des données à une résolution plus élevée que celle utilisée dans le travail original [permettant des comparaisons non seulement entre les logiciels de traitement de données (Tanley et al. , 2013 ), mais aussi dans l'efficacité de la détermination et du raffinement de la structure avec des données de plus en plus faibles au-delà des limites normales]. Les ensembles de données brutes peuvent servir de points de référence pour l'élaboration de méthodes d'analyse améliorées. Ils permettent de vérifier l'interprétation des symétries des cristaux et d'analyser en détail la diffraction des multiples réseaux présents dans les cristaux. Plus généralement, ils favorisent l'étude de la diffusion diffuse qui reflète les mouvements ou désordres corrélés des atomes dans les cristaux, à savoir la « dynamique structurelle ».

La conservation des données brutes peut être considérée comme un complément aux vastes archives de données dérivées ( c'est à dire. paramètres cellulaires, coordonnées moléculaires, paramètres de déplacement anisotrope) et des données traitées (facteurs de structure, profils de raffinement de Rietveld) dans les bases de données cristallographiques. Les apports des premiers sont très bien compris : ils font partie du dossier scientifique, ils conduisent à des découvertes basées sur des bases de données, par exemple. dans la compréhension des interactions protéine-ligand, ils conduisent à de nouvelles voies de synthèse, à des améliorations de la fabrication et à une meilleure compréhension de l'énergétique, et ils sont utilisés dans des applications d'identification et d'indexation ( par exemple. en médecine légale).

Jusqu'à l'avènement du CIF et des contrôles automatisés de validation des structures avec le vérifierCIF suite (Strickland et al. , 2005 ) qu'elle a permis, de nombreuses structures ont été publiées qui ont nécessité une correction ultérieure. Souvent, l'interprétation des résultats produisait des structures moléculaires qui étaient globalement correctes, mais négligeaient les symétries de réseau plus élevées. De tels exemples ont été mieux détectés et corrigés par l'accès aux facteurs de structure déposés (bien illustrés par Marsh et al. , 2002 ).

Ainsi, d'une manière générale, la validation de la structure (la crédibilité d'un modèle structurel, à la fois dans son adhésion aux normes de configuration géométrique et sa dérivation à partir d'images de diffraction des rayons X) peut être effectuée en référence aux ensembles de données dérivés (les coordonnées structurelles) et les facteurs de structure seuls, et cela a été la pratique dans diverses revues de cristallographie pendant une période de temps considérable. Cependant, la disponibilité des données brutes ( c'est à dire. images de diffraction originales) peuvent améliorer la validation de la structure des manières suivantes :

(i) La structure peut être affinée, en utilisant peut-être des pics de diffraction qui ont été exclus car les données de diffraction traitées ont été tronquées à une limite de résolution arbitraire. La conservation des données originales permet également la réévaluation de la symétrie du groupe espace, qui est normalement réglée au cours d'une étape précoce du raffinement conventionnel.

(ii) La réduction des données est souvent effectuée selon des protocoles établis, mais la conservation des images originales permet de tester ces protocoles, en particulier s'il existe un soupçon de biais systématique. En effet, l'analyse statistique d'une collection d'images brutes stockées peut permettre la détection de biais systématiques qui ne sont pas du tout apparents dans les expériences individuelles. En outre, la disponibilité de grandes collections d'ensembles de données brutes permet un réétalonnage périodique des méthodes de résolution et le développement de nouvelles méthodes pour s'attaquer aux ensembles de données qui étaient auparavant résistants aux solutions conventionnelles.

(iii) L'attention portée à la diffusion diffuse entre les points de diffraction permet de mieux comprendre les mouvements corrélés ou le désordre des atomes dans les cristaux. Cela peut impliquer un comportement quasicristallin, la détermination d'une modulation incommensurable ou une représentation multiphasique, des mouvements macromoléculaires ou des changements de conformation etc .

Notez que ces avantages peuvent ne pas être apparents pour chaque structure, et le calcul des coûts et des avantages informant les politiques de dépôt de routine doit encore être déterminé par la communauté et les organismes de financement (Guss & McMahon, 2014). Il se peut qu'il existe différents points d'entrée où les avantages potentiels peuvent être plus facilement réalisés, par exemple. en mettant à disposition les données expérimentales des "structures difficiles" qui se sont avérées impossibles à affiner de manière satisfaisante.

Cependant, le dépôt plus ou moins systématique de données primaires contribuerait à améliorer la qualité et la fiabilité du dossier scientifique (Minor et al. , 2016 ). Cela permettrait un examen plus approfondi des déductions scientifiques par les pairs examinateurs avant la publication, cela permettrait de revoir et de réviser les modèles structurels déjà dans les bases de données, à mesure que de nouvelles techniques sont développées – par exemple. la notion d'« amélioration continue des modèles de structure macromoléculaire » (Terwilliger, 2012 ) elle permet la réanalyse d'une structure ou d'une série de structures indépendamment du biais d'interprétation d'un auteur (BD Bax, communication personnelle) et elle fournit les preuves expérimentales nécessaires pour étayer toute affirmation faite par l'auteur de l'édition. Dans ce dernier rôle, il aide à se prémunir contre l'utilisation du mauvais ensemble de données, que ce soit par erreur ou intentionnellement.

1.4. Impératifs et opportunités de dépôt

Comme mentionné précédemment, il y a eu des développements depuis la création du DDDWG dans le climat de dépôt et de partage de données, à la fois dans le monde scientifique au sens large et dans le domaine de la cristallographie et des sciences structurelles connexes. Les avantages des données ouvertes ( c'est à dire. collecter des données de recherche issues de la recherche scientifique financée par des fonds publics et les mettre à disposition pour une réutilisation sans frais pour l'utilisateur final) ont été réitérées ces dernières années dans les discussions politiques internationales, gouvernementales et scientifiques et les initiatives pratiques. Parmi les quelques portails Web dignes de mention figurent le portail de données des Nations Unies (UNdata : http://data.un.org), le site de données ouvertes du gouvernement des États-Unis (https://www.data.gov) et le `Global Science Gateway' http://worldwidescience.org. Les appels à la mise en œuvre incluent « The Good Growth Plan », une collaboration pour le développement agricole impliquant le UK Open Data Institute (ODI https://theodi.org) et Syngenta le European Open Science Cloud (EOSC), une stratégie de l'Union européenne pour relier la recherche les réseaux, les installations de stockage de données et les ressources informatiques à travers le continent (Jones, 2015 Fig. 2 ) et un Accord sur les données ouvertes (Science International, 2015 ) lancé par le Conseil international pour la science (ICSU), l'InterAcademy Partnership (IAP), The World l'Académie des sciences (TWAS) et le Conseil international des sciences sociales (ISSC).


Figure 2
Un graphique reliant le flux de publication et de gestion des données aux composants de l'infrastructure de recherche de l'UE. Partie d'une présentation présentant le European Open Science Cloud for Research (illustration avec l'aimable autorisation de Natalia Manova pour le projet européen OpenAIRE).

Bien que ces diverses initiatives soient très diverses dans leurs objectifs, collectivement, elles accroissent l'importance perçue des référentiels de données pour les bailleurs de fonds de la recherche, pour les chercheurs qui sont encouragés ou, dans certains cas, mandatés pour déposer leurs données dans des référentiels solides et durables, et à d'autres chercheurs qui sont de plus en plus conscients de la disponibilité d'autres ensembles de données et de leur utilité potentielle pour leur propre travail. Un changement progressif des attitudes culturelles à l'égard des données de recherche est en train de se produire.

Depuis la création du DDDWG en 2011, il y a eu un certain nombre de développements, certains catalysés par ces initiatives de haut niveau, qui ont augmenté les options de dépôt d'images de diffraction :

(i) Le nombre et la portée des dépôts de données universitaires se sont accrus.

(ii) L'installation européenne de rayonnement synchrotron (ESRF Grenoble, France) a lancé une archive de données, dans laquelle chaque ensemble de données brutes mesurées peut être associé à un DOI enregistré.

(iii) Les archives de données scientifiques de Zenodo, hébergées sur le système de stockage de très haute capacité du CERN, ont pris de l'ampleur.

(iv) Un référentiel pour les expériences de diffraction utilisées pour déterminer les structures des protéines a été établi dans le cadre du programme BD2K (Big Data to Knowledge) de l'Institut national de la santé des États-Unis (Grabowski et al. , 2016 ), il est dirigé par le groupe de Wladek Minor à l'Université de Virginie, États-Unis (http://www.proteindiffraction.org/).

(v) La Grille de données de biologie structurale (SBDG) a été établie en tant que système de publication et de diffusion de données de diffraction pour la biologie structurale (Meyer et al. , 2016 ).

(vi) La Protein Data Bank (PDB) demande maintenant le DOI (digital object identifier) ​​pour les données brutes et les métadonnées pour les données brutes lors d'un dépôt (Fig. 3).


figure 3
Formulaire en ligne permettant aux déposants de PDB de lier des ensembles de données expérimentales et leurs métadonnées associées à une structure macromoléculaire déposée.

(vii) IUCrDonnées (un service de données IUCr, traitant initialement des ensembles de données dérivées) a été lancé.

Certains d'entre eux sont décrits plus en détail dans la section 2.2.

2. Mécanismes de conservation des données brutes de diffraction

Nous passons en revue certains des de facto des référentiels qui hébergent actuellement, et dans de nombreux cas, donnent accès à des ensembles de données expérimentaux dans notre domaine.

2.1. Dépôts de données institutionnels. Étude de cas : Université de Manchester

L'approche méticuleuse de l'Université de Manchester fait que l'un d'entre nous (JRH) se sent très chanceux de travailler dans cet environnement de recherche. En recherchant la liaison de l'agent anticancéreux cisplatine à l'histidine [qui a suscité un vif intérêt, voir, par exemple, Messori & Merlino (2016 )], le groupe de recherche de JRH a rendu les données de diffraction brutes en libre accès à l'Université de Manchester institutionnel Dépôt de données. La figure 4 illustre l'enregistrement d'accès aux données au sein du système de bibliothèque, tandis que la figure 5 illustre les métadonnées de niveau de classification requises par un tel référentiel. Ce type de catalogage et d'archivage institutionnel est de plus en plus caractéristique des initiatives modernes d'archivage de données. De plus, nous avons suivi les exigences standard de dépôt de données communautaires de dépôt de coordonnées et de données de diffraction traitées à la Protein Data Bank. Pour permettre l'accès le plus large possible à nos travaux, nous avons également pu, passant par le financement EPSRC que nous avons eu, pour publier la majeure partie de nos articles rapportant nos résultats en libre accès « or » ( c'est à dire. les articles complets évalués par des pairs sont accessibles sans abonnement à une revue) dans Acta Crystallographica Sections D et F .


Figure 4
Enregistrement d'accès à la bibliothèque de l'Université de Manchester pour les ensembles de données expérimentales associés à un article de recherche publié. Des liens sont fournis vers l'article publié dans la colonne « Ressources connexes ».

Figure 5
Métadonnées de niveau classification associées à des ensembles de données expérimentales archivés à la bibliothèque de données de l'Université de Manchester. Ceux-ci identifient les ensembles de données archivés et fournissent des liens vers des ressources connexes.

En devenant des pionniers de l'ouverture complète de nos données de diffraction brutes et de nos interprétations de données et de modèles (tableau 1601), atteignant ainsi une largeur et une profondeur d'ouverture rares au sein d'un thème de recherche ciblé, notre recherche a suscité un intérêt détaillé gratifiant. Il y a eu de nombreux téléchargements de ces données brutes, à la fois depuis leur site Web d'origine à l'Université d'Utrecht et par la suite depuis l'Université de Manchester. Les totaux de téléchargement pour chaque année depuis Utrecht étaient les suivants : 2012 17 & 8197 Go, 2013 47 & 8197 Go, 2014 57,69 & 8197 Go et 2015 31,47 & 8197 Go. Les informations de téléchargement équivalentes ne sont pas disponibles auprès de l'Université de Manchester. Un tel téléchargement de données brutes présenté dans une nouvelle publication (Shabalin et al. , 2015 ), une critique de grande envergure de l'ensemble du domaine de la liaison du cisplatine à diverses protéines. Cet article a suggéré des améliorations à trois de nos modèles de cisplatine–lysozyme dans l'APB passant par trois de leurs propres interprétations alternatives, deux d'entre elles impliquaient l'utilisation de nos données de diffraction traitées détenues au PDB (4xan et 4mwk) et l'une de nos données brutes (4g4a dans le tableau 1 et la figure 4). Nous avons accepté certaines de leurs recommandations et rejeté d'autres (Tanley et al. , 2016 ). Certains de ces points de « débat sur les données » suggèrent également un manque de normes communautaires matures, même au sein d'une revue (Tanley et al. , 2015 ), mais ils montrent aussi une voie à suivre pour mener des discussions, par exemple. dans les revues de l'IUCr. Dans d'autres aspects, il montre les avantages de la poursuite continue de méthodes d'analyse améliorées et d'une meilleure compréhension du rôle des données faibles dans l'amélioration des raffinements des modèles de protéines (Diederichs & Karplus, 2013), que nous avons exploités en détail dans Tanley. et al. (2016). De telles améliorations sont apparues même au cours des dernières années et illustrent le « jeune âge » de la cristallographie macromoléculaire, un domaine qui est encore clairement en train de mûrir en tant que technique.

Tableau 1
Une collection de données brutes thématiques à titre d'exemple : la suite d'études de recherche, relatives aux platines se liant à l'histidine, tenue à la bibliothèque de données de l'Université de Manchester

2.2. Dépôts de données générales pour la biologie structurale

L'importance de la capture et de l'archivage des données a été largement reconnue dans le monde et plusieurs référentiels sont désormais disponibles où presque tous les chercheurs peuvent, ou pourront bientôt, déposer leurs données brutes et métadonnées associées pour que quiconque dans le monde puisse les visualiser et les télécharger, sous réserve bien sûr des contraintes naturelles de taille de fichier et de bande passante du réseau.

Deux grands référentiels financés par l'État sont la ressource intégrée pour la reproductibilité en cristallographie macromoléculaire (http://www.proteindiffraction.org) et le référentiel Zenodo (https://zenodo.org) pour les données scientifiques générales. Le premier a été développé par le groupe Minor de l'Université de Virginie (http://olenka.med.virginia.edu/CrystUVa) et est soutenu par l'Initiative Big Data to Knowledge des National Institutes of Health des États-Unis (https://datascience .nih.gov/bd2k). Zenodo a été développé par le CERN (http://www.cern.ch) dans le cadre de l'initiative OpenAIREplus de l'Union européenne (http://www.openaire.eu).

Deux référentiels privés supplémentaires sont disponibles pour une utilisation générale. L'organisation SBGrid basée à Harvard (https://sbgrid.org) a développé une grille de données de biologie structurelle (https://data.sbgrid.org) qui peut être utilisée par tout membre de SBGrid pour archiver des données brutes et des métadonnées. Le site de réseautage scientifique ResearchGate (https://www.researchgate.net) permet aux chercheurs de partager des données (https://www.researchgate.net/blog/post/present-all-your-research-in-a-click) .

2.2.1. La ressource intégrée pour la reproductibilité en cristallographie macromoléculaire

La ressource intégrée pour la reproductibilité en cristallographie macromoléculaire (Grabowski et al. , 2016 ) est une base de données de diffraction des protéines qui répond au besoin d'archivage d'images brutes cristallographiques, comme indiqué dans la discussion ci-dessus et dans le Acta Cristal. ré groupe d'articles publiés récemment (Terwilliger, 2014 ). Cette base de données comprend actuellement plus de 2900 ensembles de données cristallographiques brutes et les métadonnées associées. La plupart d'entre eux sont liés à un dépôt dans la Protein Data Bank (http://www.pdb.org Berman, 2000 ) et beaucoup d'entre eux représentent des travaux de projets de génomique structurale (http://csgid.org, http:// ssgcid.org, http://www.jcsg.org, http://mcsg.anl.gov, http://thesgc.org). La base de données est hautement structurée, avec des métadonnées cristallographiques associées à chaque ensemble de données. Une caractéristique très utile de ce service est que l'interface Web de la base de données montre une image de diffraction représentative de chaque ensemble de données, permettant à un chercheur de noter rapidement les caractéristiques de la diffraction des cristaux utilisés dans chaque ensemble de données, par exemple l'ordre dans le diagramme de diffraction, la présence de diffusion diffuse et l'étendue de l'anisotropie dans le diagramme de diffraction. La base de données peut être consultée en fonction de l'ID PDB, de la résolution de la diffraction, de l'emplacement où les données ont été collectées, des auteurs et de nombreuses autres caractéristiques. Il est prévu que la base de données soit disponible pour les dépôts et les téléchargements par n'importe qui. Chaque entrée de la base de données a un DOI attribué qui peut être utilisé pour faire référence aux données et qui fournit un lien permanent stable avec les données, et les données déposées ne sont pas limitées en taille de fichier. Les métadonnées associées aux données brutes font partie intégrante de la base de données, de sorte qu'il peut être possible à l'avenir de retraiter automatiquement une grande partie des données brutes de la base de données à mesure que de nouveaux algorithmes d'analyse des données deviennent disponibles ( cf. Terwilliger & 38 Bricogne, 2014 ).

2.2.2. Zénodo

L'archive Zenodo est une archive scientifique générale développée par des chercheurs du CERN dans le cadre d'une initiative de l'Union européenne Framework 7. Il fournit un référentiel pour les ensembles de données scientifiques dans n'importe quel domaine et a la caractéristique unique que, en tant que partie du CERN, il a accès à une capacité exceptionnelle pour le stockage et l'archivage des données. Bien qu'il soit soutenu par l'UE, les chercheurs de n'importe où dans le monde peuvent archiver leurs données et n'importe qui peut accéder aux données. L'archive Zenodo est conçue pour fournir une ressource pour les nombreux petits projets scientifiques dans le monde qui n'ont pas de moyen facile de mettre leurs données à la disposition de la communauté scientifique et, contrairement aux autres bases de données discutées ici, prévoit de facturer des frais pour les plus grandes -utilisateurs à l'échelle. Les archives contiennent actuellement plus de 2500 ensembles de données de tous les domaines scientifiques. Les ensembles de données peuvent avoir plusieurs fichiers, normalement jusqu'à une limite de taille totale de 50 & 8197 Go, les fichiers individuels peuvent avoir une taille maximale de 2 & 8197 Go. Chaque ensemble de données se voit attribuer un DOI pour l'archivage et la découverte permanents, et est lié aux métadonnées fournies par le chercheur.

2.2.3. Grille de données de biologie structurale

L'organisation SBGrid permet aux chercheurs de nombreux laboratoires de biologie structurale du monde entier d'accéder à un ensemble de logiciels pouvant être utilisés dans de nombreux domaines de la biologie structurale, notamment la cristallographie aux rayons X, la cryomicroscopie électronique, la diffraction électronique, la diffusion aux petits angles. et d'autres domaines.SBGrid donne également accès à des ressources informatiques basées sur le cloud qui effectuent des calculs de biologie structurelle. La grille de données de biologie structurale est un service récemment lancé par SBGrid qui permet à tout chercheur de SBGrid d'archiver des données brutes de n'importe quel domaine de biologie structurale de SBGrid. Cette base de données contient actuellement plus de 240 ensembles de données provenant de 62 institutions différentes. Les données peuvent être consultées par n'importe qui et les ensembles de données cristallographiques peuvent être téléchargés par n'importe qui, avec des scripts copier-coller pour un téléchargement facile des ensembles de données individuels. Chaque entrée de données a un DOI unique attribué, il n'y a pas de limites sur la taille des fichiers et des métadonnées décrivant comment analyser les données sont fournies.

2.2.4. ResearchGate

ResearchGate est un service commercial de réseautage social scientifique qui fournit un mécanisme simple permettant aux chercheurs de publier leurs articles scientifiques et des informations les concernant, et aux chercheurs de communiquer et de discuter de sujets scientifiques. ResearchGate permet en outre aux chercheurs d'archiver des ensembles de données scientifiques que tout le monde peut télécharger. Les ensembles de données se voient attribuer un DOI et la taille des fichiers individuels est limitée.

2.3. Options d'installation de laser synchrotron, à neutrons et à rayons X

Il existe maintenant plusieurs exemples frappants de pratiques actuelles et évolutives en matière de saisie et de gestion des données dans une gamme d'installations à grande échelle intégrant une variété de techniques et de sciences. Parmi ceux que nous connaissons figurent le Synchrotron Australien (Clayton, Victoria, Australie), l'ESRF, l'Institut Laue-Langevin (ILL, Grenoble, France), la Diamond Light Source (Didcot, UK) et la source de neutrons ISIS au Laboratoire Rutherford Appleton (Didcot, Royaume-Uni). Le synchrotron australien a mené les synchrotrons du monde sur l'archivage des données avec son service de stockage de données Store.Synchrotron pour la cristallographie macromoléculaire (Meyer et al. , 2014 ). En plus de l'archivage des données d'images de diffraction, il accompagne également les utilisateurs dans leurs publications avec des liens vers des ensembles de données brutes passant par Les enregistrements DOI et, enfin, la publication d'ensembles de données pour analyse publique - quelque chose que, dans la communauté neutronique, l'ILL fait également. Il existe également de beaux exemples comme Diamond qui a jusqu'à présent conservé toutes ses données mesurées. L'ESRF a publié un résumé de ses points de vue sur l'ère du Big Data dans les installations de rayonnement synchrotron en général et les défis auxquels l'ESRF est aujourd'hui confrontée (ESRF, 2013 ). Dans une récente déclaration encourageante, elle a annoncé une politique volontariste d'archivage des données (Andy Götz et ses collègues de l'ESRF, communication personnelle).

La gestion des données dans les laboratoires à domicile et pour les prestataires de services de taille moyenne tels que le UK National Crystallography Service (Southampton, Royaume-Uni) pose encore des défis très importants. Dans tous ces lieux, toutes les données d'une expérimentation doivent être traitées dans le cadre de la gestion des ressources, de la provenance, de la validation et du stockage en masse, qui nécessitent tous des volumes de métadonnées toujours plus importants qui doivent se conformer à des normes largement acceptées.

2.4. Le déluge de données

Une mise en garde que nous appliquons à notre enquête encourageante sur les solutions de stockage est que, à mesure que la technologie progresse, le volume de données collectées augmente à un rythme spectaculaire. Par conséquent, alors que le total des téléchargements de l'Université d'Utrecht en 2015 était de 31 #8197 Go, un seul ensemble de données produit par un détecteur Eiger 16M fonctionnant actuellement sur une ligne de faisceau synchrotron pourrait dépasser 70 #8197 Go. Cela suggère que les installations expérimentales centralisées, avec leurs grandes capacités de stockage de données et leurs réseaux internes gigabits, continueront à jouer un rôle important en tant que référentiels de premier choix pour la conservation quasi routinière des ensembles de données. Cependant, il peut également s'avérer nécessaire d'appliquer les principes de « triage », soit au moment de la collecte des données, soit lors de l'allocation ultérieure de stockage à long terme. Un tel tri peut soit supprimer certains ensembles de données, soit conserver certains sous-ensembles, selon une variété de critères possibles. Une première suggestion pour un ensemble de tels critères a été proposée dans le forum en ligne du DDDWG en 2011 (http://forums.iucr.org/viewtopic.php?f=21&t=57) mais n'a pas encore été développée par la communauté .

3. Métadonnées pour les exigences en matière de données brutes

3.1. Un cadre de métadonnées holistique pour la cristallographie

La cristallographie et les sciences structurelles connexes ont la chance d'avoir une approche standardisée de la caractérisation et de la gestion des données, connue sous le nom de Crystallographic Information Framework (CIF Hall & 38 McMahon, 1995). Celui-ci comporte deux éléments : un format de fichier standard et un modèle de données (Hall et al. , 1991 Bernstein et al. , 2016 ), qui facilitent l'échange de données entre les logiciels, les bases de données structurelles et les systèmes de publication et un ensemble de « dictionnaires » qui contrôlent la signification des balises associées aux valeurs de données, et qui peuvent imposer des restrictions sur les types et les valeurs de données, le cas échéant. Ces dictionnaires constituent collectivement le vocabulaire contrôlé et les définitions associées qui représentent la signification sémantique d'un fichier ou d'un flux de données, ce que l'on appelle à la mode « l'ontologie » d'un domaine scientifique particulier.

Chaque dictionnaire CIF contient des définitions pertinentes pour un domaine ou un sujet particulier, telles que les structures de petites cellules unitaires déterminées par diffractométrie monocristalline (le dictionnaire dit « core »), la diffraction de poudre, les structures macromoléculaires biologiques, les structures incommensurables modulées, images multipolaires de densité électronique ou de diffraction (Hall & McMahon, 2016 ). Ces compilations par thème adoptent une vision globale de ce que l'on peut appeler des « données ». Ainsi, le dictionnaire de base contient des éléments aussi divers qu'une seule coordonnée de position atomique, la température ambiante au moment où l'expérience a été menée, les métriques de convergence du raffinement des moindres carrés, le logiciel utilisé pour générer des graphiques moléculaires ou le texte entier de une publication scientifique associée. C'est-à-dire qu'il n'y a aucune distinction entre les éléments qui pourraient normalement être classés comme des données « brutes », « traitées » ou « dérivées », ou qui pourraient être caractérisés comme des « métadonnées ».

L'avantage de cette indifférenciation est que tous les informations nécessaires pour interpréter, valider ou réutiliser un ensemble de données peuvent être stockées dans un seul fichier, ce qui peut faciliter la collecte et la vérification de ces informations au cours d'un flux de travail expérimental. La figure 6 illustre comment les ontologies CIF informent le « flux d'informations cohérent » à chaque étape du cycle de vie du traitement de l'information dans une expérience de détermination de structure typique. Dans la pratique, tous les workflows du monde réel n'utilisent pas le CIF comme véritable mécanisme de capture de données et de métadonnées. Par exemple, dans les grandes installations instrumentales, les informations sur une expérience particulière peuvent être collectées dans un système de gestion de contenu unifié développé par l'installation pour accueillir un large éventail d'expériences scientifiques différentes (Matthews et al. , 2010 ). De même, pour gérer les exigences d'acquisition de données à haut débit des détecteurs modernes, les images peuvent être générées sous forme de fichiers binaires HDF5 ou dans des formats propriétaires.


Figure 6
Un flux d'informations cohérent en cristallographie. Les ontologies CIF caractérisent les données à chaque étape du cycle de vie du traitement de l'information, de l'appareil expérimental au papier publié et au dépôt de base de données organisée.

Néanmoins, tous les ensembles de données brutes et métadonnées associées peuvent, en principe, être convertis en représentations CIF, ce qui pourrait être un avantage pratique à des fins d'archivage ( c'est à dire. d'utiliser une seule représentation standard), ou à tout le moins peut démontrer quelles métadonnées importantes manquent, par comparaison avec les recueils complets du dictionnaire CIF de ce qui peut et doit être collecté.

Diverses commissions de l'IUCr continuent de compiler des définitions de métadonnées pertinentes pour leur domaine d'intérêt sous la forme de dictionnaires CIF. En plus de ceux répertoriés par Hall & McMahon (2016), un dictionnaire de diffusion aux petits angles (sasCIF) a récemment été publié (Kachala et al. , 2016 ) les travaux de la Commission IUCr sur les structures magnétiques sont bien avancés pour caractériser les structures magnétiques et leurs symétries sous-jacentes (magCIF) et la Commission sur la haute pression dispose d'un groupe de travail actif définissant les aspects essentiels de la configuration expérimentale nécessaire en cristallographie non ambiante.

Comme mentionné précédemment, le dictionnaire imgCIF décrit un format réel pour stocker les données de diffraction brutes. Cependant, il comprend également un ensemble assez complet d'éléments de données qui, s'ils sont entièrement renseignés et utilisés conjointement avec d'autres éléments des dictionnaires CIF de base ou macromoléculaires, peuvent décrire pleinement l'appareil expérimental et les paramètres de fonctionnement, permettant ainsi une interprétation complète des images archivées. dans ce format. Le format imgCIF lui-même est relativement peu utilisé, en grande partie à cause des exigences de vitesse des détecteurs modernes qui nécessitent différentes stratégies d'acquisition de données. Cependant, il y a un effort continu pour définir les termes de métadonnées dans le format NeXus de plus en plus courant (Könnecke et al. , 2015 ) qui sont en concordance avec les éléments de métadonnées expérimentales définis dans le dictionnaire imgCIF.

3.2. La diversité de l'instrumentation

Dans cette section, nous examinons les spécificités de certains des problèmes rencontrés dans la pratique avec des métadonnées manquantes ou mal caractérisées. La disponibilité des métadonnées dans les en-têtes d'images et leur interprétation par les développeurs de logiciels a été discutée précédemment (Tanley, Schreurs et al. , 2013 Kroon-Batenburg & Helliwell, 2014 ). On peut conclure sans risque que les informations sur les métadonnées font souvent défaut ou sont ambiguës, c'est à dire. peut être interprété de différentes manières. Les fabricants de matériel peuvent utiliser des mots différents pour le même paramètre physique ou ses unités, et il appartient aux développeurs de logiciels d'utiliser correctement les informations de métadonnées et de remplir les parties manquantes, simplement par connaissance acquise ou par essais et erreurs. . Nous nous référons aux informations justificatives dans l'article de Kroon-Batenburg & Helliwell (2014) pour une discussion entre Kay Diederichs, Toine Schreurs et Loes Kroon-Batenburg à propos de φ scans autour d'un axe non perpendiculaire au faisceau de rayons X sur un goniomètre χ fixe. Bien que suffisamment d'informations étaient disponibles dans l'en-tête, le XDS les logiciels (Kabsch, 2010 ) en ignoraient la plupart et utilisaient la connaissance du montage instrumental (habituel), ce qui dans ce cas n'était pas suffisant. Initialement, les données brutes, qui se trouvent maintenant dans les archives de la bibliothèque de l'Université de Manchester, ont été stockées sur un site Web de l'Université d'Utrecht (http://rawdata.chem.uu.nl) et nous avons ajouté une photographie de l'installation expérimentale en tant que métadonnées pour lever l'ambiguïté du goniomètre, par exemple. l'axe de la broche pointe-t-il vers le haut ou vers le bas ?

Il convient de distinguer les équipements de diffraction conçus pour être utilisés en combinaison avec le logiciel du fabricant, qui gère adéquatement les informations de métadonnées, et les instruments assemblés comme ceux d'une ligne de faisceau synchrotron. Dans le premier cas, le transfert des données à un autre endroit pour une utilisation avec un logiciel tiers peut entraîner des problèmes, comme décrit par Tanley, Diederichs et al. (2013). Les en-têtes d'image contiennent au mieux le type de goniomètre ( par exemple. ` MACH3 avec KAPPA ' pour Bruker Proteum) mais rarement les orientations et dépendances des quatre axes sont données. Dans le second cas, les détecteurs commerciaux ( par exemple. le Pilatus de Dectris) sont installés sur une ligne de lumière et c'est le logiciel de contrôle de la ligne de lumière, en étroite interaction avec le logiciel du détecteur, qui se charge d'écrire les informations dans les en-têtes d'images. Dans cet environnement mixte, toutes les métadonnées ne sont pas capturées. Habituellement, mais pas toujours, la longueur d'onde, la distance détecteur-échantillon, la taille et le nombre de pixels dans les deux sens, l'angle et l'incrément de début de rotation et le temps d'exposition sont indiqués.

Les problèmes les plus courants avec les métadonnées, cependant, sont liés aux orientations des axes du goniomètre et des directions de rotation, et la définition des directions les plus rapides et les plus lentes dans les coordonnées des pixels par rapport aux axes du laboratoire et l'origine des coordonnées des pixels particulièrement perturbantes est l'absence ou un centre de faisceau incorrect (voir ci-dessous). Le tableauق donne les définitions des goniomètres connues du ÉVAL logiciel (Schreurs et al. , 2010 ) et montre leur grande variété.

Tableau 2
Implémentation de types de goniomètres dans ÉVAL (Schreurs et al. , 2010 )

Une tabulation intéressante des paramètres de la ligne de lumière pour la course autoPROC (Vonrhein et al. , 2011 ) est donnée sur le site Web http://www.globalphasing.com/autoproc/wiki. Des valeurs telles que BeamCentreFrom = en-tête:x,-y , ReversePhi = 'oui' et DeuxThetaAxis = '-1' sont donnés afin de faire face à des problèmes similaires à ceux mentionnés ci-dessus (tableau 2). Il existe huit manières possibles pour les valeurs de pixel dans le fichier image de se rapporter à la face physique du détecteur, et les fournisseurs de détecteurs utilisent les huit conventions possibles (Wladek Minor, communication privée). Un mauvais centre de faisceau peut gêner l'étape d'indexation. On peut estimer le centre du faisceau par inspection manuelle, par étalonnage à l'aide de la diffraction de la poudre, en prenant un tir de faisceau direct ou en supprimant les taches de Bragg et en utilisant l'anneau diffus de solvant pour trouver le centre du faisceau (Vonrhein et al. , 2011 ) sinon il faut recourir à des essais et des erreurs. La figure 7 montre l'en-tête mini-CBF utilisé par Dectris pour les détecteurs Pilatus. La plupart des informations sont présentes mais certains paramètres sont ambigus : Faisceau_xy : voir discussion ci-dessus Oscillation_axis est donné comme ' X ': quel est le X direction? Polarisation est 0.990 : quel avion a la forte intensité ? Nous avons rencontré une situation particulièrement déroutante où un goniomètre fixe Bruker était monté avec une rotation de 90 à 176 sur la ligne de lumière Argonne 15ID-B, tandis que les images étaient converties dans l'orientation normale de l'instrument Bruker. La direction de forte polarisation apparaissait donc le long de l'axe d'oscillation, mais ce n'était pas (Jozef Kožíšek, communication privée) que la corde CIBLE SYNCHROTRON dans l'en-tête nous a prévenus.

Suite a priori des connaissances sont souvent nécessaires pour interpréter les données d'images de diffraction. Par exemple, il existe différentes conventions sur la façon d'enregistrer les zones mortes sur le détecteur : les bandes entre les panneaux de détecteur sur les détecteurs Pilatus sont indiquées par ` -1 ', alors que dans les fichiers d'image du détecteur ADSC, ceux-ci sont indiqués par ' 0 '. Un logiciel de traitement de données doit interpréter correctement ces données de pixels. Les corrections d'image sombre et de non-uniformité peuvent conduire à des intensités négatives et certains gestionnaires de lecture de détecteur utilisent un décalage de ligne de base : un nombre entier fixe a été ajouté à toutes les intensités de pixels pour éviter d'avoir à stocker des nombres négatifs. La suppression du décalage de la ligne de base est importante pour estimer les écarts types des intensités de réflexion nettes de Bragg et pour mesurer les intensités diffuses entre les pics de Bragg. Les corrections de distorsion spatiale sont généralement effectuées et ne peuvent pas être annulées ou corrigées par un logiciel de traitement, mais elles affectent les écarts types (Waterman & 38 Evans, 2010) et cette information doit être transmise dans les métadonnées.

Le matériel de détection est en cours de développement pour des expériences de cristallographie en série à grande vitesse dans des installations de laser à rayons X à électrons libres (XFEL) ou des lignes de faisceaux synchrotron à haut flux qui nécessitent une acquisition de données ultra-rapide. Un format conteneur HDF5, souvent surmonté d'une couche de format de données NeXus, est conçu pour une entrée/sortie (E/S) flexible et efficace pour des volumes de données aussi élevés. De nouveaux progiciels de traitement de données tels que CrystFEL (Blanche et al. , 2012 ), cctbx.xfel (Sauter et al. , 2013 ) et CADRANS (Batelier et al. , 2013 ) pour la cristallographie en série sont en cours de développement et cela offre l'opportunité d'aborder à nouveau les problèmes de métadonnées.

Dectris a installé le détecteur Eiger sur plusieurs lignes de rayonnement synchrotron. Les métadonnées sont contenues dans un fichier séparé ( maître.h5 ) lien vers les fichiers de données d'image. La représentation des données NeXus (Könnecke et al. , 2015 ), comme CIF, est très flexible et toutes les métadonnées requises peuvent être capturées en définissant des groupes, des champs et des attributs NeXus. Un bon exemple de la manière dont des métadonnées cohérentes et complètes peuvent être stockées dans un fichier imgCIF/CBF est fourni dans la figure 8 (Jörg Kaercher, Bruker AXS, communication privée). Dans la propriété Bruker .sfrm formater les angles de départ 2 θ , ω , φ et χ sont donnés (` ANGLE : . '). Les directions de leurs axes ne sont pas définies, alors qu'elles sont au format CBF : les orientations et dépendances sont données dans le panneau de gauche de la figure 8 ( b ). Dans .sfrm l'axe de rotation ` AXE : 2 ' indique ω , et l'angle de départ et l'incrément se trouvent à ` DÉBUT: ' et ' INCRÉMITÉ : ' des valeurs équivalentes se trouvent dans l'en-tête CBF à ` _diffrn_scan_axis.displacement_angle ' et ' _diffrn_scan_axis.displacement_increment ' (Fig. 8 b , panneau de droite).

4. Une préoccupation et une action découlant de l'atelier de dépôt de données de diffraction de Rovinj

Une préoccupation a été exprimée lors d'une discussion ouverte à l'atelier passant par la question ` Pouvons-nous sortir de la base de connaissances dans les différents progiciels et utiliser des formats de métadonnées bien développés comme dans CIF ou NeXus ? ', c'est à dire. un format standardisé de données d'images brutes de diffraction faciliterait la vie des développeurs de logiciels, mais nécessiterait une coordination entre les fabricants de détecteurs. Cela a conduit directement à des appels renouvelés pour un format d'image standardisé d'appel à travers l'ensemble de la communauté. Parallèlement à cette question, le DDDWG travaille à la définition d'exigences minimales pour les métadonnées. Nous reconnaissons qu'il y aura toujours une grande diversité de formats d'images (notamment en raison de la base installée existante de détecteurs et des ensembles de données hérités qui ont été archivés), et des utilitaires de conversion tels que eiger2cbf (https://github.com/biochem-fan/eiger2cbf) continuera d'être nécessaire. Néanmoins, il est important que toute personne cherchant à développer de nouveaux formats soit parfaitement consciente de la nécessité d'une caractérisation et d'une interopérabilité adéquates des métadonnées que nous avons décrites ci-dessus, et une telle sensibilisation peut tempérer la prolifération de nouveaux formats sans valeur démontrable particulière.

Lors d'une discussion séparée, il a été convenu qu'un ensemble de critères est nécessaire pour saisir et valider les métadonnées expérimentales essentielles pour la reproductibilité des résultats scientifiques à partir de tout ensemble de données brutes donné. La proposition l'appelait " vérifierCIF pour les données brutes» et une étroite collaboration sur ce sujet a été établie avec l'IUCr COMCIFS (présidé par James Hester, qui a également participé à l'atelier de Rovinj). Pour développer davantage ces idées, un atelier organisé par le DDDWG doit avoir lieu lors de la conférence ACA 2017 à la Nouvelle-Orléans en mai 2017.

5. Remarques finales

Dans cette revue thématique, nous avons fourni des descriptions de l'intérêt en développement rapide et des options de stockage pour la préservation et la réutilisation des données brutes dans le domaine scientifique supervisé par l'IUCr et ses commissions. Nous avons mis en évidence les initiatives des décideurs scientifiques vers un modèle de «science ouverte» au sein duquel les cristallographes travailleront à l'avenir, ce qui apportera de nouvelles opportunités de financement mais aussi de nouveaux codes de procédure dans des cadres de science ouverte. L'éducation aux compétences et la formation des cristallographes et une discussion franche seront nécessaires. Dans l'ensemble, nous avons maintenant les moyens et l'organisation pour la préservation de nos données brutes, mais la nécessité d'une réflexion approfondie sur les descripteurs de métadonnées pour chacune des Commissions de l'IUCr continue de se faire sentir. Nous constatons que les Commissions travaillent au sein d'une diversité d'instrumentation, et donc une gamme d'actions est nécessaire pour améliorer cette situation actuelle.

Nous avons identifié spécifiquement la nécessité de revoir l'impératif pour la communauté d'adopter un format d'image standardisé et de convenir d'au moins un ensemble minimal de métadonnées essentielles pour la reproductibilité. Le dictionnaire imgCIF (Hammersley et al. , 2005 ) est le point de départ naturel pour le premier, et l'interaction entre COMCIFS et NIAC (Könnecke et al. , 2015 ) démontre la faisabilité d'appliquer une ontologie commune à travers différents formats physiques. Il y a aussi des raisons d'être optimiste que l'idée de ` vérifierCIF pour les données brutes » séduira à la fois les chercheurs et les vendeurs d'instruments, étant donné la représentation enthousiaste des deux lors de l'atelier de Rovinj. Comme pour toutes ces initiatives, le taux d'adoption dépendra des facteurs au sein de la communauté. Dans le cas de l'original ` vérifierCIF ' pour les données dérivées, les revues de science structurelle (en particulier celles de l'IUCr) qui exigeaient des métadonnées pertinentes et un contrôle de cohérence ont fourni un tel moteur important. Dans le cas des données brutes, qui sous-tendent toutes les déductions et dérivations scientifiques ultérieures, nous sommes encouragés par les politiques émergentes sur la gestion des données de recherche que nous avons résumées dans cet article, et par les nombreuses initiatives d'archivage qui ont vu le jour autour de la diffraction des rayons X. images au cours des dernières années.

Remerciements

Nous sommes reconnaissants à l'IUCr pour son soutien continu aux activités du DDDWG, y compris l'atelier de Rovinj qui a conduit à cet article et à un certain nombre d'autres articles. Nous sommes très reconnaissants aux divers instituts de recherche et universités qui ont envoyé leur personnel pour participer à cet atelier. Le soutien aux services techniques et aux coûts de personnel associés a été apporté par Dectris, IUCr Journals, CODATA, le Cambridge Crystallographic Data Centre, Bruker, FIZ Karlsruhe/ICSD, Oxford Cryosystems et Wiley, à qui nous sommes très reconnaissants. Nous sommes également redevables à l'Association croate des cristallographes pour son aide active dans l'obtention du meilleur atelier possible pour aborder ce sujet important.

Les références

Berman, H. M., Westbrook, J., Feng, Z., Gilliland, G., Bhat, T. N., Weissig, H., Shindyalow, I. N. & 38 Bourne, P. E. (2000). Acides nucléiques Res. 28 , 235�. Web of Science CrossRef PubMed CAS Google Scholar
Bernstein, H.J. (2005). Classification et utilisation des données d'image . Tables internationales pour la cristallographie , Vol. G, Définition et échange de données cristallographiques , édité par S. R. Hall et B. McMahon, pp. 199–8211205. Dordrecht : Springer. Google Scholar
Bernstein, HJ, Bollinger, JC, Brown, ID, Gražulis, S., Hester, J. R., McMahon, B., Spadaccini, N., Westbrook, JD & Westrip, SP (2016) . J. Appl. Cristal. 49 , 277�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Bernstein, H. J., Sloan, J. M., Winter, G., Richter, T. S., NIAC & COMCIFS (2013). Faire face aux formats d'image BIG DATA : Intégration de CBF, NeXus et HDF5 . Réunion de l'American Crystallographic Association, 20 juillet 2013, Honolulu, Hawaï, États-Unis. Affiche T-16. Google Scholar
Diederichs, K. & 38 Karplus, P. A. (2013). Acta Cristal.69 , 1215�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Centre de Curation Numérique (2016). Aperçu des politiques de données des bailleurs de fonds. http://www.dcc.ac.uk/resources/policy-and-legal/overview-funders-data-policies. Google Scholar
ESRF (2013). L'actualité de l'ESRF , édition de décembre, p. 14󈞁. ESRF, Grenoble, France. Google Scholar
Grabowski, M., Langner, KM, Cymborowski, M., Porebski, PJ, Sroka, P., Zheng, H., Cooper, DR, Zimmerman, MD, Elsliger, M.-A., Burley, SK & Mineur, W. (2016). Acta Cristal.72 , 1181�. Web of Science CrossRef IUCr Journals Google Scholar
Guss, J. M. & 38 McMahon, B. (2014). Acta Cristal.70 , 2520�. Web of Science CrossRef IUCr Journals Google Scholar
Gutmanas, A., Oldfield, T. J., Patwardhan, A., Sen, S., Velankar, S. & 38 Kleywegt, G. J. (2013). Acta Cristal.69 , 710�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Hall, S.R., Allen, F.H. & 38 Brown, I.D. (1991). Acta Cristal. UNE 47 , 655�. CSD CrossRef CAS Web of Science Revues IUCr Google Scholar
Hall, S. R. & 38 McMahon, B. (1995). Éditeurs. Tables internationales pour la cristallographie , Vol. G, Définition et échange de données cristallographiques . Dordrecht : Springer. Google Scholar
Hall, S.R. & 38 McMahon (2016). Données Sci. J. 15 , 3. Google Scholar
Hammersley, A.P., Bernstein, H.J. & 38 Westbrook, J.D. (2005). Dictionnaire d'images (imgCIF) . Tables internationales pour la cristallographie , Vol. G, Définition et échange de données cristallographiques , édité par S. R. Hall et B. McMahon, p. 444–8211458. Dordrecht : Springer. Google Scholar
Hester, J.R. (2016). Données Sci. J. 15 , 12. CrossRef Google Scholar
Organisation internationale de génomique structurelle (2001). Rapport du Groupe de travail sur les critères numériques en génomique structurale. http://www.isgo.org/organization/members07/010410.html. Google Scholar
Jacques, D.A., Guss, J.M., Svergun, D.I. & 38 Trewhella, J. (2012). Acta Cristal.68 , 620�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Jones, B. (2015). Vers le cloud européen de la science ouverte . http://doi.org/10.5281/zenodo.16001. Google Scholar
Kabsch, W. (2010). Acta Cristal.66 , 125�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Kachala, M., Westbrook, J. & 38 Svergun, D. (2016). J. Appl. Cristal. 49 , 302�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Könnecke, M. et al. (2015). J. Appl. Cristal. 48 , 301�. Web of Science CrossRef IUCr Journals Google Scholar
Kroon-Batenburg, L. M. J. & 38 Helliwell, J. R. (2014). Acta Cristal.70 , 2502�. Web of Science CrossRef IUCr Journals Google Scholar
Marsh, R. E., Kapon, M., Hu, S. & 38 Herbstein, F. H. (2002). Acta Cristal. B 58 , 62󈞹. CSD CrossRef CAS IUCr Journaux Google Scholar
Matthews, B., Sufi, S., Flannery, D., Lerusse, L., Griffin, T., Gleaves, M. & Kleese, K. (2010). Int. J. Chiffre. Curation , 5 , 106�. CrossRef Google Scholar
Messori, L. & Merlino, A. (2016). Coordonnée. Chem. Tour. 315 , 67󈟅. Web of Science CrossRef CAS Google Scholar
Meyer, GR, Aragón, D., Mudie, NJ, Caradoc-Davies, TT, McGowan, S., Bertling, PJ, Groenewegen, D., Quenette, SM, Bond, CS, Buckle, AM & Androulakis , S. (2014). Acta Cristal.70 , 2510�. Web of Science CrossRef IUCr Journals Google Scholar
Meyer, P.A. et al. (2016). Nat. Commun. 7 , 10882. Web of Science CrossRef PubMed Google Scholar
Minor, W., Dauter, Z., Helliwell, J. R., Jaskolski, M. & Wlodawer, A. (2016). Structure , 24 , 216�. Web of Science CrossRef CAS PubMed Google Scholar
Fondation nationale des sciences (2010). Gestion et partage des données Foire aux questions (FAQ). http://www.nsf.gov/bfa/dias/policy/dmpfaqs.jsp. Google Scholar
Bibliothèque de l'Université du Nord-Ouest (2016). Gestion des données : exigences de l'agence fédérale de financement. http://libguides.northwestern.edu/datamanagement/federalfundingagency. Google Scholar
Ravel, B., Hester, J. R., Solé, V.A. & Newville, M. (2012). J. Synchrotron Rad. 19 , 869�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Conseils de recherche du Royaume-Uni (2015). Orientation sur les meilleures pratiques dans la gestion des données de recherche. http://www.rcuk.ac.uk/documents/documents/rcukcommonprinciplesondatapolicy-pdf/. Google Scholar
Sauter, N. K., Hattne, J., Grosse-Kunstleve, R. W. & 38 Echols, N. (2013). Acta Cristal.69 , 1274�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Schreurs, A. M. M., Xian, X. & 38 Kroon-Batenburg, L. M. J. (2010). J. Appl. Cristal. 43 , 70󈞾. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Science Internationale (2015). Données ouvertes dans un monde de Big Data. Paris : Conseil international pour la science (ICSU), Conseil international des sciences sociales (ISSC), The World Academy of Sciences (TWAS), InterAcademy Partnership (IAP). Google Scholar
Shabalin, I., Dauter, Z., Jaskolski, M., Minor, W. & Wlodawer, A. (2015). Acta Cristal.71 , 1965�. Web of Science CrossRef IUCr Journals Google Scholar
Strickland, P. R., Hoyland, M. A. & 38 McMahon, B. (2005). Publication de la structure cristalline de petites molécules à l'aide de CIF . Tables internationales pour la cristallographie , Vol. G, Définition et échange de données cristallographiques , édité par S. R. Hall et B. McMahon, pp. 557–8211569. Dordrecht : Springer. Google Scholar
Tanley, S. W. M., Diederichs, K., Kroon-Batenburg, L. M. J., Levy, C., Schreurs, A. M. M. & Helliwell, J. R. (2015). Acta Cristal.71 , 1982�. Web of Science CrossRef IUCr Journals Google Scholar
Tanley, S. W. M., Diederichs, K., Kroon-Batenburg, L. M. J., Schreurs, A. M. M. & Helliwell, J. R. (2013). J. Synchrotron Rad. 20 , 880�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Tanley, S.W.M., Schreurs, A.M.M., Helliwell, J.R. & 38 Kroon-Batenburg, L.M.J. (2013). J. Appl. Cristal. 46 , 108�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Tanley, S.W.M., Schreurs, A.M.M., Kroon-Batenburg, L.M.J. & 38 Helliwell, J.R. (2016). Acta Cristal. F 72 , 253�. Web of Science CrossRef IUCr Journals Google Scholar
Terwilliger, T.C. (2012). Amélioration continue des structures cristallines macromoléculaires . ICSTI Insights : La publication vivante , pp. 16󈞉 (http://www.icsti.org/IMG/pdf/Living_publication_Final-2.pdf). Paris : CIST. Google Scholar
Terwilliger, T.C. (2014). Acta Cristal.70 , 2500�. Web of Science CrossRef IUCr Journals Google Scholar
Terwilliger, T. C. & 38 Bricogne, G. (2014). Acta Cristal.70 , 2533�. Web of Science CrossRef IUCr Journals Google Scholar
Toby, B.H. (2005). Classification et utilisation des données de diffraction des poudres . Tables internationales pour la cristallographie , Vol. G, Définition et échange de données cristallographiques , édité par S. R. Hall et B. McMahon, pp. 117–8211130. Dordrecht : Springer. Google Scholar
Vonrhein, C., Flensburg, C., Keller, P., Sharff, A., Smart, O., Paciorek, W., Womack, T. & Bricogne, G. (2011). Acta Cristal.67 , 293�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Waterman, D. & 38 Evans, G. (2010). J. Appl. Cristal. 43 , 1356�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Waterman, D. G., Winter, G., Parkhurst, J. M., Fuentes-Montero, L., Hattne, J., Brewster, A., Sauter, N. K. & Evans, G. (2013). CCP4 Newsl. Cristallogue de protéines. 49 , 16󈝿. Google Scholar
White, T. A., Kirian, R. A., Martin, A. V., Aquila, A., Nass, K., Barty, A. & Chapman, H. N. (2012). J. Appl. Cristal. 45 , 335�. Web of Science CrossRef CAS IUCr Journaux Google Scholar

Il s'agit d'un article en libre accès distribué sous les termes de la licence Creative Commons Attribution (CC-BY), qui permet une utilisation, une distribution et une reproduction sans restriction sur tout support, à condition que les auteurs originaux et la source soient cités.


Titre : Expériences de mise à disposition de données d'images de diffraction : quelles métadonnées devons-nous archiver ?

Une archive locale « d'images de données de diffraction » a été mise à disposition et certains ensembles de données ont été récupérés et retraités, ce qui a conduit à l'analyse des différences de densité anormales de deux atomes de Cl partiellement occupés dans le cisplatine ainsi qu'à une réévaluation du seuil de résolution dans ces données de diffraction. Des questions générales sur le stockage des données brutes sont abordées. Il est également démontré qu'il faut souvent des connaissances préalables sans ambiguïté pour lire le format (binaire) du détecteur et la configuration des géométries des goniomètres. Récemment, l'IUCr (International Union of Crystallography) a initié la formation d'un groupe de travail sur le dépôt de données de diffraction dans le but de développer des normes pour la représentation des données de diffraction brutes associées à la publication de papiers structurels. L'archivage des données brutes sert plusieurs objectifs : améliorer le dossier de la science, vérifier la reproductibilité et permettre des contrôles détaillés des données scientifiques, se prémunir contre la fraude et permettre une réanalyse avec de futures techniques améliorées. Un moyen d'étudier cette question est de soumettre des publications exemplaires avec les données brutes et les métadonnées associées. Dans une étude récente de la liaison du cisplatine et du carboplatine à l'histidine dans des cristaux de lysozyme dans plusieurs conditions, les effets possibles de l'équipement et du logiciel de traitement des données de diffraction des rayons X sur plus » les occupations et les facteurs B des composés de Pt liés ont été comparés. Initialement, 35,3 Go de données ont été transférées de Manchester à Utrecht pour être traitées avec EVAL. Une description détaillée et une discussion sur la disponibilité des métadonnées ont été publiées dans un article lié à une archive de données brutes locales à l'Université d'Utrecht et également reflétée dans les archives de données brutes de diffraction TARDIS en Australie. En rendant ces ensembles de données de diffraction brutes disponibles avec l'article, il est possible pour la communauté de la diffraction de faire sa propre évaluation. Cela a conduit l'un des auteurs de XDS (K. Diederichs) à réintégrer les données de cristaux censés contenir uniquement du carboplatine lié, ce qui a conduit à l'analyse des densités électroniques anormales de chlore partiellement occupé près des sites de liaison du Pt et à l'utilisation de plusieurs critères pour évaluer plus attentivement la limite de résolution de diffraction. Les arguments généraux pour l'archivage des données brutes, les possibilités de le faire et les besoins en ressources sont discutés. Les problèmes associés à une configuration expérimentale partiellement inconnue, qui devrait de préférence être disponible sous forme de métadonnées, sont discutés. Les réflexions actuelles sur la compression des données sont résumées, ce qui pourrait être une solution, en particulier pour les ensembles de données d'appareils à pixels avec un découpage fin qui pourrait autrement présenter une quantité de données ingérable. « moins


Une base de données publique d'expériences de diffraction macromoléculaire

La reproductibilité des résultats expérimentaux publiés a récemment attiré l'attention dans de nombreux domaines scientifiques différents. Le manque de disponibilité de données scientifiques primaires originales représente un facteur majeur contribuant aux problèmes de reproductibilité, cependant, la communauté de la biologie structurale a pris des mesures importantes pour rendre les données expérimentales disponibles.

La cristallographie macromoléculaire aux rayons X a ouvert la voie en exigeant la diffusion publique de coordonnées atomiques et d'une multitude de données expérimentales via la Protein Data Bank (PDB) et des projets similaires, faisant du domaine l'un des plus reproductibles des sciences biologiques.

L'IUCr a chargé le Diffraction Data Deposition Working Group (DDDWG) en 2011 d'examiner les avantages et la faisabilité de l'archivage des images de diffraction brutes en cristallographie. Le rapport triennal 2011-2014 du DDDWG a fait plusieurs recommandations clés concernant la préservation des données de diffraction brutes. Cependant, il ne reste aucun mandat pour la divulgation publique des données de diffraction originales.

La ressource intégrée pour la reproductibilité en cristallographie macromoléculaire (IRRMC) fait partie du programme Big Data to Knowledge des National Institutes of Health et a été développée pour archiver les données brutes des expériences de diffraction et, tout aussi important, pour fournir des métadonnées associées. La base de données [Grabowski et al. (2016). Acta Cristal. D72, 1181-1193, doi:10.1107/S2059798316014716], contient au moment de la rédaction 3070 expériences de diffraction macromoléculaire (5983 ensembles de données) et leurs métadonnées partiellement conservées correspondantes, représentant environ 3% de tous les dépôts dans la Protein Data Bank. La ressource est accessible à l'adresse http://www. diffraction des protéines. org et peuvent être recherchés à l'aide de divers critères via une interface simple et rationalisée. Toutes les données sont disponibles pour un accès et un téléchargement illimités. La ressource sert de preuve de concept et démontre la faisabilité de l'archivage des données de diffraction brutes et des métadonnées associées à partir d'études cristallographiques aux rayons X de macromolécules biologiques.

S'adressant à un journaliste à propos du projet, le chef d'équipe Wladek Minor a déclaré : « Il y a tellement de recherches en cours qu'elles ne peuvent pas toutes être publiées, et souvent les résultats d'études infructueuses n'apparaissent pas dans la littérature. Je pense que la clé de le succès, c'est de connaître les expériences infructueuses, nous voulons savoir pourquoi elles échouent".

L'objectif du projet est d'étendre l'IRRMC et d'inclure des ensembles de données qui n'ont pas réussi à produire des structures à rayons X. Cela pourrait faciliter les efforts de collaboration pour améliorer les méthodes de détermination de la structure des protéines et également garantir la disponibilité des données « orphelines » laissées par des chercheurs individuels et/ou des projets de génomique structurelle disparus.

Clause de non-responsabilité: AAAS et EurekAlert ! ne sont pas responsables de l'exactitude des communiqués de presse publiés sur EurekAlert! par les institutions contributrices ou pour l'utilisation de toute information via le système EurekAlert.


Les données originales de diffraction des rayons X sont-elles disponibles - Biologie

une Sciences de la vie, Diamond Light Source, Harwell Science and Innovation Campus, Didcot, Oxfordshire OX11 0DE, Royaume-Uni et b Division de biologie structurale, Université d'Oxford, Wellcome Centre for Human Genetics, Oxford, Oxfordshire OX3 7BN, Royaume-Uni
* Courriel de correspondance : [email protected], [email protected]

Le développement de méthodes pour déterminer des structures à haute résolution à partir de cristaux de protéines de taille micrométrique ou même submicrométrique est devenu de plus en plus important ces dernières années. Cela s'applique à la fois aux grands complexes protéiques et aux protéines membranaires, où la production de protéines et la croissance ultérieure de gros cristaux homogènes sont souvent difficiles, et aux échantillons qui ne produisent que des micro- ou nanocristaux tels que les protéines amyloïdes ou polyédrines virales. La ligne de lumière polyvalente de microfocus de cristallographie macromoléculaire (VMXm) de Diamond Light Source est spécialisée dans les mesures de diffraction des rayons X à partir de micro et nanocristaux. En raison de la possibilité de mesurer les données d'échantillons cristallins qui approchent la limite de résolution de la microscopie à lumière visible, la conception de la ligne de lumière comprend un microscope électronique à balayage (MEB) pour visualiser, localiser et centrer avec précision les cristaux pour les expériences de diffraction des rayons X. Pour s'assurer que la microscopie électronique à balayage est une méthode appropriée pour la visualisation des échantillons, des tests ont été effectués pour évaluer l'effet du rayonnement SEM sur la qualité de la diffraction. Des cristaux de protéine polyédrine du virus de la polyédrose cytoplasmique cryorefroidis sur des grilles de microscopie électronique ont été exposés à un rayonnement SEM avant que les données de diffraction des rayons X ne soient collectées. Après avoir traité les données avec CADRANS , aucune différence statistiquement significative dans la qualité des données n'a été trouvée entre les ensembles de données collectées à partir de cristaux exposés et non exposés au rayonnement SEM. Cette étude soutient l'utilisation d'un SEM comme outil de visualisation des cristaux de protéines et comme outil de visualisation intégré sur la ligne de lumière VMXm.

1. Introduction

Au cours de la dernière décennie, les lignes de faisceaux de rayons X à microfocus ont facilité les progrès de la biologie structurelle en fournissant des faisceaux de rayons X intenses de plus en plus petits. Des tailles de cristaux de l'ordre de quelques dizaines de micromètres à quelques micromètres sont désormais généralement considérées comme des cibles accessibles, bien que difficiles, pour les projets de biologie structurale des protéines. Les approches laser à électrons libres à rayons X (XFEL) de cristallographie femtoseconde en série ont également repoussé cette limite, en utilisant des dizaines de milliers de microcristaux [pour une revue, voir Martin-Garcia et al. (2016 )] et même des nanocristaux (Gati et al. , 2017 ) pour déterminer les structures protéiques à haute résolution. Néanmoins, les techniques basées sur XFEL ont leurs défis, notamment le grand nombre de cristaux requis, l'incapacité à collecter des données de rotation, ainsi que le coût et la disponibilité limitée du temps de faisceau XFEL. Les méthodes de cristallographie en série synchrotron se développent également, mais encore une fois nécessitent souvent un nombre raisonnablement important de cristaux (Ebrahim et al. , 2019 Diederichs & Wang, 2017 ). La diffraction électronique est une autre technique croissante pour la détermination de la structure à partir de cristaux de protéines de quelques centaines de nanomètres (Shi et al. , 2013 et al. , 2014 Yonekura et al. , 2015 Clabbers et al. , 2017 Xu et al. , 2018 ), avec une limite supérieure à l'épaisseur de l'échantillon de �� nm (Shi et al. , 2013 ). Le broyage par faisceau d'ions focalisé promet un moyen de contourner cette limite d'épaisseur en effaçant sélectivement l'échantillon de cristal en excès pour donner une fine lamelle (� nm) à partir de laquelle des données peuvent être collectées (Duyvesteyn et al. , 2018 Martynowycz et al. , 2019 ). Pourtant, les microscopes cryoEM équipés de détecteurs et de logiciels dédiés pour les études de diffraction électronique des protéines à faible dose sont raisonnablement rares.

La ligne de lumière microfocale de cristallographie macromoléculaire polyvalente (VMXm) de Diamond Light Source, qui fait partie de la suite de lignes de lumière VMX, vise à élargir davantage la portée des tailles de cristaux disponibles pour la cristallographie aux rayons X par synchrotron. VMXm est conçu pour permettre la collecte d'ensembles de données de rotation à partir de cristaux mesurant jusqu'à 0,5 & 8197 m de taille, réduisant ainsi le matériel d'échantillon requis pour la détermination de la structure des protéines, par rapport aux méthodes en série, en améliorant la qualité des données enregistrées de chaque individu cristal. De plus, les cristaux mesurant plusieurs micromètres ou moins peuvent subir un taux réduit de dommages causés par les rayonnements lors d'expériences de diffraction des rayons X en exploitant les effets potentiels d'échappement des photoélectrons (Nave & 38 Hill, 2005). Une discussion de Holton & Frankel (2010) a suggéré qu'il est possible, dans des conditions idéales, de déterminer une structure de résolution 2.0 Å à partir d'un seul cristal sphérique de protéine lysozyme avec un diamètre de 𕙙.2 & #181m. Cette simulation a ignoré toutes les contributions à la diffusion de fond provenant du solvant désordonné dans le cristal. VMXm vise à combler le fossé entre la théorie et ce qui est actuellement possible en cristallographie macromoléculaire en utilisant les rayons X synchrotron. À ce jour et à notre connaissance, les plus petits cristaux mesurés en utilisant la méthode de rotation à un synchrotron pour donner une structure ont été rapportés par Ginn et al. (2015), où les données de diffraction de 768 cristaux de taille 𕙙.0 µm 3 ont été enregistrées sur la ligne de lumière Diamond I24, analysées et fusionnées pour produire un ensemble de données complet à une résolution de 2,2 Å.

L'optique de la ligne de lumière VMXm fournira une taille de faisceau de rayons X vertical variable focalisé de 0,3 & 821110 & 8197&181 m à l'aide d'un seul miroir à focale fixe profilé sur mesure (Laundy et al. , 2016 ). Des faisceaux horizontaux de 0,5 ° 82115 ° ° ° 197 m doivent être obtenus à l'aide d'un schéma de dégrossissement en deux étapes et d'une ouverture de source secondaire variable. Le monochromateur à double cristal à déviation horizontale permet des énergies comprises entre 6 et 28 8197 keV et, selon la configuration optique, fournira entre 10 11 et 10 12  photons s 𕒵 à l'échantillon lorsqu'il fonctionne à 12   keV. Les échantillons pour VMXm seront généralement préparés sur des grilles de microscopie électronique en utilisant des techniques empruntées à la cryoEM. Pour améliorer encore le rapport signal sur bruit des rayons X diffractés, l'environnement de l'échantillon sera maintenu sous un vide de 󕽺 𕒺  mbar. En janvier 2020, la construction majeure de la ligne de lumière était terminée et la mise en service de ses composants était en cours.

La collecte de données de rotation, par opposition aux images fixes uniques, à partir de cristaux de protéines mesurant moins d'un micromètre pose de nombreux défis pratiques au-delà des limitations évidentes des dommages causés par les radiations, en particulier la localisation et le centrage des cristaux de cette taille par rapport au faisceau de rayons X. Pour permettre la collecte de données de rotation à partir de cristaux dans cette gamme de tailles, VMXm vise à produire à la fois une position de faisceau et une position d'échantillon, stables à 50 & 8197 nm près. Ces spécifications de conception imposent une imagerie de haute précision et résolution de la position de l'échantillon pour assurer la coïncidence du faisceau et de l'échantillon. Par conséquent, pour aligner et visualiser les microcristaux et les nanocristaux, qui pourraient être inférieurs au pouvoir de résolution d'un microscope optique à lumière, un microscope électronique à balayage (MEB) a été incorporé dans l'environnement d'échantillonnage de la station terminale VMXm. Bien que d'autres méthodes de visualisation et de centrage des cristaux de protéines aient été explorées ailleurs (pour une revue, voir Becker et al. , 2017), la qualité de résolution supérieure d'un SEM et l'indépendance de la qualité de l'image SEM par rapport au groupe spatial cristallin, à la morphologie, à l'orientation et à la séquence protéique, ont constitué la base de cette décision de conception. Une considération dans l'utilisation d'un SEM de cette manière, cependant, est le potentiel d'endommagement des échantillons résultant des interactions électroniques. Dans une analyse de Hattne et al. (2018), les dommages causés par les radiations globales et spécifiques au site résultant de l'utilisation d'un faisceau d'électrons de 200 #8197 keV suggèrent qu'une dose d'électrons incident de 𕙛 e −  Å 𕒶 a entraîné la perte d'informations haute résolution (classées comme des réflexions de résolution 3 Å et supérieure). Ceci est conforme aux analyses précédentes qui ont évalué les dommages causés par le rayonnement induit par les électrons aux cristaux de protéines (Chiu, 2006 Henderson, 1995).

Les applications CryoSEM pour les échantillons biologiques non revêtus utilisent des énergies d'excitation avec des ordres de grandeur inférieurs à ceux des méthodes de microscopie électronique à transmission (MET) décrites par Hattne et al. (2018). Au lieu d'avoir besoin de pénétrer à travers tout le volume du cristal comme dans les expériences basées sur le TEM, le faisceau SEM n'a besoin d'interagir qu'avec la couche de surface du cristal pour la formation de l'image. Bien qu'il existe peu de données publiées pour les volumes d'interaction SEM des cristaux de protéines lors de l'utilisation de faibles énergies incidentes (ɝ keV) des électrons, une estimation de Kanaya&#kayama de l'hémisphère d'interaction du carbone amorphe pur est de « 8764110 / 8197 nm à 2 » 8197keV (Kanaya & Okayama, 1972 ). Simulations Monte Carlo réalisées par Barnett et al. suggèrent que la profondeur de pénétration des électrons de 2 & 8197keV dans la glace d'eau est de � nm, bien que d'autres expériences menées par le même groupe suggèrent que ces simulations sous-estiment peut-être cette profondeur (Barnett et al. , 2012 ). Enfin, des simulations de l'interaction d'électrons de 2 keV avec de la chitine recouverte de graphène ont fourni une profondeur de pénétration maximale de 140 nm (Park et al. , 2016 ). Compte tenu de ces données, la profondeur d'interaction d'un électron de 2'8197 keV au sein d'un cristal de protéine est susceptible d'être de l'ordre de 100 à 200'8197 nm.

Dans cette étude, les cristaux de protéines polyèdres de Lymantria dispar virus de la polyédrose cytoplasmique (CPV14) ont été imagés à l'aide d'un SEM hors ligne, dont la colonne doit être intégrée directement dans la station terminale VMXm pour permettre la visualisation et le centrage futurs des cristaux de protéines. Les données de diffraction des rayons X ont été recueillies par la suite à partir de ces mêmes cristaux imagés par SEM. L'objectif était d'identifier si la collecte d'images SEM était préjudiciable à la qualité de diffraction des cristaux de CPV14. Cela a été réalisé en évaluant si une différence significative était observable entre les données de diffraction mesurées à partir d'échantillons de cristaux exposés aux électrons et ceux qui ne l'étaient pas. Nous démontrons que l'imagerie SEM à faible dose est une méthode viable pour localiser et aligner avec précision les cristaux de protéines sans affecter la qualité de la diffraction avant la collecte de données radiographiques.

2. Matériels et méthodes

2.1. Simulations de Monte-Carlo

Le programme CASINO (Hovington et al. , 1997 Drouin et al. , 2007 ) a été utilisé pour simuler la trajectoire et la profondeur de pénétration d'électrons de 2 à 8197 keV dans un cristal de protéine. Au total, 200 électrons ont été simulés sous la forme d'un faisceau de 10 nm. L'échantillon de cristal de protéine a été décrit comme ayant une épaisseur de 1000 nm avec la formule C 1284 H 2695 N 351 O 748 S 12 et une densité de 1,35 g cm 𕒷 . Cette stoechiométrie émule la composition chimique des cristaux de CPV14 avec une teneur en solvant de 22% [PDB ID 5a96 (Ji et al. , 2015 )].

2.2. Préparation et cristallisation des protéines

Les polyèdres CPV14 ont été exprimés et purifiés comme décrit précédemment (Hill et al. , 1999 Anduleit et al. , 2005 Ji et al. , 2015 ). Les cristaux de CPV14 cubiques purifiés mesuraient 2 82114 8197 m dans chaque dimension et étaient stockés sous forme de suspension dans H 2 O à 4°C.

2.3. Montage de l'échantillon

La suspension cristalline CPV14 a été diluée 1 sur 12 dans une solution d'éthyle glycol pour donner une concentration finale en éthyle glycol de 50 % ( v / v ). De l'éthyléne glycol a été ajouté pour permettre un contrôle plus fin du processus de transfert ultérieur et pour assurer la cryoprotection des cristaux.

Les cristaux ont été cryorefroidis sur des grilles de microscopie électronique en vue d'une analyse plus approfondie. Des grilles de maille Cu 200 recouvertes d'un film de carbone Quantifoil R 2/2 (Quantifoil) ou des grilles de recherche H7 de maille Cu 400 avec du carbone troué (AgarScientific) ont été luminescentes avant l'application de l'échantillon. Une aliquote de 2 µl de 50 % ( v / v ) de l'éthyl­ene glycol a été appliqué sur le côté Cu de la grille, suivi de l'application de 2 µl de la suspension cristalline diluée sur le film de carbone. La grille a ensuite été effacée pendant 3,0 8 2115,5 s du côté Cu de la grille à l'aide d'un Leica EM GP (20 ° 176 °C, humidité 90 %). Les grilles buvardées ont ensuite été plongées congelées dans de l'éthane liquide. Les grilles ont été stockées sous nitrogène liquide jusqu'à leur utilisation.

2.4. Exemple de traitement

Les échantillons ont été divisés en quatre groupes de traitement : non traités, SEM chargés, SEM non exposés et SEM exposés, dont les détails sont décrits dans les sections 2.4.1 𔃀.4.3 . Des tests pour évaluer les dommages causés par les radiations à la suite d'une exposition à un faisceau d'électrons ont été effectués à l'aide d'un SEM JEOL JSM-IT100 équipé d'un système de cryostage et de cryotransfert Quorum PP3000T. Le cryostage PP3000T, l'étape de préparation (prepstage) et l'anticontaminateur ont été refroidis à �°C, �°C et �°C, respectivement. Une navette MET à balayage Zeiss en cuivre recouvert d'or a été utilisée pour maintenir les échantillons au cours de ces expériences.

2.4.1. Non traité

Les échantillons non traités ont été congelés par plongée dans de l'éthane liquide et conservés dans de l'azote liquide comme indiqué dans la section 2.3.

2.4.2. SEM chargé

Les échantillons chargés au SEM ont en outre été transférés dans le SEM à l'aide du système de cryotransfert. Des échantillons congelés en plongée ont été chargés dans la navette sous azote liquide. Le système de cryotransfert a été utilisé pour transférer les échantillons dans la chambre de préparation refroidie du SEM. La navette a été placée sur la scène préparatoire pendant 30 s 8197 avant d'être transférée sur la scène SEM pendant 2 minutes. La navette a ensuite été rétractée sur l'étage préparatoire pendant 30 s supplémentaires avant le transfert du vide dans l'azote liquide à l'aide du système de cryotransfert. L'échantillon a ensuite été retiré de la navette et stocké sous azote liquide.

2.4.3. SEM non exposé et SEM exposé

Les cristaux pour les expériences de diffraction des rayons X exposés au SEM et non exposés au SEM étaient tous sur la même grille pour contrôler la variation des échantillons entre les grilles en raison de la manipulation de la grille. Ces grilles ont été traitées de la même manière que les échantillons chargés en SEM (voir la section 2.4.2 ) cependant, au lieu de l'incubation de 2 & 8197 minutes sur la scène SEM, les grilles ont été conservées sur cette scène pendant 𕙙.5 h tandis que SEM des expositions ont été réalisées. Les cristaux exposés au SEM ont été imagés à une tension d'accélération de 2 8197 kV, un courant de sonde de 40 (unités arbitraires) et une distance de travail de 10 8197 mm. Pour faciliter la navigation autour de la grille et évaluer la qualité de la grille, une image globale de la grille a été prise à un grossissement de 30 &# 215 en utilisant un temps d'acquisition de 0,5  s (dose totale, 4,6 × 10 𕒼  e & #8722  Å 𕒶 ). Un seul carré de grille a ensuite été utilisé pour optimiser la mise au point et l'astigmatisme. Les paramètres optimaux étaient ceux qui fournissaient l'image la plus nette à en juger par l'œil. Le contraste et la luminosité de l'image ont été optimisés à l'aide de la fonction de contraste automatique et de luminosité du InTouchScope progiciel (JEOL). Des images de carrés de grille individuels contenant des cristaux ont été prises à un grossissement de 1900 & 215 en utilisant un temps d'acquisition de 20 & 8197 s (7,6 × 10 𕒷  e −  Å 𕒶 ). Entre 50 et 75 carrés de grille ont été imagés avec ces conditions, les cristaux dans ces images ont formé la population exposée au SEM. Le reste de la grille n'a pas été exposé aux électrons. Les cristaux dans ces zones formaient la population non exposée au SEM. Une description des calculs de dose d'électrons pour ces images peut être trouvée dans les informations complémentaires.

2.5. Collecte de données radiographiques

Des grilles de microscopie électronique ont été montées sur le goniomètre de la ligne de lumière à l'aide d'une broche d'échantillonnage sur mesure. La broche constituait un clip pour vaisseau sanguin (produit 14120, World Precision Instruments) sur une base de broche magnétique standard maintenue en place avec de l'adhésif époxy 3M Scotch-Weld 1838 [voir les figures. S1( une )–S1( c ) dans les Informations complémentaires]. Les grilles ont été transférées dans la broche sous nitrogène liquide puis bouchées [Figs. S1( )–S1( F )]. La broche coiffée a été montée sur le goniomètre à la main et le capuchon a été rapidement retiré de sorte que la grille a été rapidement exposée au flux cryogénique avant que l'azote liquide ne s'écoule du capuchon.

Les données ont été mesurées sur les lignes de lumière Diamond Light Source I24 et I04. Dans tous les cas, les données ont été collectées sous forme de 5 & 176 coins de données contiguës avec une largeur d'oscillation de 0,1 & 176 et un temps d'exposition de 0,05 & 8197 s. Les données de I24 ont été collectées sur un détecteur Dectris PILATUS3 6M utilisant une taille de faisceau de rayons X de 6 × 9 µm [pleine largeur à mi-hauteur (FWHM)] à 100% de transmission et une longueur d'onde de 0.9686&# 8197Å, produisant un flux de 3,0 × 10 12  photons s 𕒵 . Les données de I04 ont été enregistrées à l'aide d'un détecteur Dectris PILATUS 6M-F avec une taille de faisceau de 11 × 5 µm (FWHM) à 100 % de transmission et une longueur d'onde de 0,9795 Å, produisant un flux de 2,8 × 10 11  photons s 𕒵 . Pour chacune des quatre conditions, les données ont été collectées à partir d'au moins trois grilles préparées indépendamment. Au moins 100 cristaux ont été analysés pour chaque condition sur chaque grille. Pour les cristaux exposés au SEM, les images de microscopie électronique ont été utilisées en combinaison avec les vues au microscope optique de la position de l'échantillon de la ligne de faisceau de rayons X pour identifier les cristaux qui avaient été exposés aux électrons.

2.6. Traitement et analyse des données

Afin d'évaluer les différences potentielles de qualité de diffraction, les données ont été traitées en utilisant CADRANS (L'hiver et al. , 2018 ) puis analysés à l'aide de MÉLANGER (Foadi et al. , 2013 ). Le mode de synthèse de MÉLANGER a ensuite été utilisé pour mettre à l'échelle et fusionner les données collectées à partir de chaque traitement à partir d'une seule grille.

Afin de rechercher des différences de qualité de diffraction initiale entre les traitements exposés au SEM et ceux non exposés au SEM, tous les ensembles de données collectés à partir de la même ligne de lumière qui ont été intégrés avec succès à l'aide de CADRANS ont été mis à l'échelle ensemble en utilisant cadrans.échelle . Le programme cadrans.cosym a été utilisé pour assurer une indexation cohérente avant la mise à l'échelle (Gildea & Winter, 2018 ). Le facteur d'échelle et le relatif B facteur pour la première image de chaque ensemble de données ont ensuite été extraits en utilisant cadrans.python exécuter un Python scénario développé en interne.

Trois grilles répétées ont produit trois ensembles de données complets mis à l'échelle et fusionnés chacun pour les quatre groupes de traitement. Les valeurs moyennes des statistiques cristallographiques clés sur ces trois réplicats ont été comparées à l'aide d'une méthode d'analyse de variance à un facteur (ANOVA). Les valeurs moyennes des statistiques clés pour les traitements exposés au SEM et non exposés au SEM ont en outre été comparées les unes aux autres à l'aide des tests t de Student. Les distributions des facteurs d'échelle et relative B les facteurs pour les images initiales de chaque ensemble de données pour chacun des groupes de traitement ont été comparés à l'aide des tests de Kolmogorov–Smirnov (KS). Ces analyses statistiques ont été réalisées à l'aide de GraphPad Prisme 8.0 (Logiciel GraphPad, La Jolla, Californie, États-Unis).

3. Résultats et discussion

3.1. Simulations de Monte-Carlo

La profondeur de pénétration moyenne des électrons de 2 &# 8197 keV dans un cristal CPV14 simulé était de 70,0 à 19,8 nm et la profondeur de pénétration maximale était de 109,8 nm (Fig. S2). Cependant, il convient de noter que les expériences de Barnett et al. (2012) – qui a évalué la profondeur de pénétration des électrons dans les cristaux de glace d'eau amorphe – suggèrent que CASINO les simulations peuvent sous-estimer la profondeur de pénétration des électrons à ces faibles tensions d'accélération. Pourtant, ces simulations fournissent une estimation du volume d'interaction électronique pour les cristaux de protéine CPV14. Sur cette base, pour un cristal CPV14 de 2 µm (8 µm 3 ), les électrons de 2 keV balayés sur toute la surface du cristal ont le potentiel de pénétrer, en moyenne, 𕙛,5 % du total volume diffractant. Pour un cristal de 0,5 µm (0,125 µm 3 ), cela augmente à 󕽾% du volume de diffraction total. Cette analyse ne renseigne cependant pas sur l'impact des électrons sur la qualité de la diffraction.

3.2. Préparation des échantillons et expositions SEM

La congélation plongeante des cristaux CPV14 dans de l'éthane liquide à l'aide d'un Leica EM GP a fourni une méthode reproductible permettant de monter des cristaux sur des grilles cryoEM. La morphologie cuboïde des cristaux a entraîné une orientation préférentielle des cristaux sur les grilles. Les cristaux reposaient généralement avec leurs faces parallèles au film de carbone sur les grilles, les cristaux étaient rarement assis sur un bord ou un sommet. Bien que non explorées ici, les méthodes conçues par Wennmacher et al. (2019) ont été montrés pour combattre avec succès l'orientation préférentielle des cristaux sur les grilles de microscopie électronique. Ces méthodes sont susceptibles d'être particulièrement utiles dans les cas futurs impliquant des cristaux de groupes spatiaux à faible symétrie qui présentent une orientation préférentielle. Une manipulation manuelle importante a été nécessaire pour transférer les grilles congelées en plongée dans et hors du SEM et ensuite sur la ligne de rayons X tout en maintenant les échantillons à des températures cryogéniques. La combinaison de la manipulation mécanique et du transfert des grilles d'échantillons dans et hors d'un vide de 1 × 10 𕒺  mbar peut avoir induit une variation dans les traitements des échantillons et pourrait expliquer des différences dans les propriétés des cristaux autres que celles causées par le faisceau d'électrons exposition. Afin de contrôler cette variation de grille à grille des caractéristiques des cristaux - qui pourrait potentiellement masquer les effets de l'exposition au faisceau d'électrons - les données pour les cristaux exposés au SEM et non exposés au SEM ont été extraites d'une seule grille. . Pour ces échantillons, une partie de la grille a été exposée aux électrons, les cristaux de cette section constituant la population de cristaux exposés au SEM. Le reste de la grille n'a pas été exposé aux électrons et les cristaux de cette section constituaient la population non exposée au SEM.

3.3. Collecte de données

Un exemple d'image SEM des cristaux CPV14 est illustré à la Fig. 1 ( une ). Les cristaux de cette image font partie de la population de cristaux qui ont été exposés aux électrons avant la collecte des données radiographiques. Afin de collecter des données de diffraction des rayons X à partir de ces cristaux exposés au SEM, chaque cristal a dû être localisé et identifié sur la ligne de rayons X à l'aide du système de visualisation dans l'axe du microscope optique (OAV). Ceci a été réalisé en utilisant des grilles de microscopie électronique « de recherche » (voir la section 2.3) de sorte que chaque carré de grille individuel était facilement identifiable et indexable sous les schémas de grossissement SEM et OAV. Fig. 1 ( b ) représente l'image OAV correspondante pour les cristaux montrés dans l'image SEM. L'amélioration de la résolution lors de l'utilisation d'un SEM est évidente. Il est également plus facile d'identifier la solution de cristallisation vitreuse entourant les cristaux individuels et les zones de solution de cristallisation vitreuse proches des barreaux de la grille de Cu.


Figure 1
Cristaux de CPV14 imagés à l'aide d'électrons et de microscopie à lumière visible. ( une ) Un exemple d'image cryoSEM de cristaux CPV14 prise à une tension d'accélération de 2 & 8197kV avec une distance de travail de 10 & 8197 mm et une dose d'électrons de 7,6 × 10 𕒷  e −  Å & #87222 . Les cristaux de cette image faisaient partie du groupe de traitement exposé au SEM. La résolution maximale pouvant être atteinte dans ces conditions avec ce microscope est de 𕙠 nm. ( b ) Une image prise à l'aide du microscope optique OAV de la ligne de lumière I24 montre le carré de la grille correspondant à celui montré dans le panneau ( une ). La résolution maximale pouvant être atteinte avec ce microscope optique est de 0,7 & 8197 m. Dans le panneau ( b ), le réticule rouge indique la position du faisceau de microfocus sur I24 avant la collecte des données de diffraction des rayons X à partir d'un seul cristal CPV14. La position équivalente dans le panneau ( une ) est indiqué par un cercle blanc en pointillés. Dans les deux panneaux, la barre d'échelle indique 10 µm.

Pour surmonter l'orientation préférentielle des cristaux sur les grilles, un effort concerté a été fait pour collecter des données en utilisant différents angles de départ par rapport à l'orientation de la grille pour les coins 5 & 176. Les grilles limitaient les angles de rotation à partir desquels les données pouvaient être collectées. Avec la grille perpendiculaire au faisceau, ∼䕠° des données pourraient être collectées à la fois à l'avant et à l'arrière de la grille, ce qui donne une plage accessible totale de �°. Malgré cette limitation, il était encore possible d'obtenir des données complètes en raison de la symétrie élevée des cristaux CPV14 (groupe spatial je 23).

3.4. Traitement et analyse des données

CADRANS a été utilisé pour traiter les 5 & 176 coins de données. Lorsque les données ont pu être intégrées avec succès, les fichiers .mtz résultants ont été introduits dans MÉLANGER . Tous les clusters du mode d'analyse de MÉLANGER ont été mis à l'échelle et fusionnés avant qu'un seul ensemble de données avec une complétude optimale ne soit extrait des cristaux mesurés à partir de chaque grille pour une analyse plus approfondie. Pour chaque jeu de données, la coupure haute résolution a été choisie en fonction de CC 1/2 > 0,3 (Karplus & Diederichs, 2015 ), ce qui a parfois nécessité une exécution supplémentaire du programme SANS BUT au sein de la MÉLANGER pipeline. Les résultats de cette étape de traitement des données sont présentés dans les tableaux 1 et 2 .

Tableau 1
Statistiques informatiques

Les valeurs pour l'enveloppe extérieure sont données entre parenthèses.

Tableau 2
Statistiques informatiques

Les valeurs de l'enveloppe extérieure sont données entre parenthèses.

Les valeurs globales pour une résolution maximale, R après-midi et CC 1/2 ont été tracés pour les données recueillies pour les quatre groupes de traitement (Fig. 2). Au moins trois ensembles de données complets ont été collectés pour chacun des groupes de traitement. Dans le cas des ensembles de données exposés au SEM et non exposés au SEM, des ensembles de données complets ont été collectés pour les deux groupes de traitement à partir de chacune des trois grilles répliquées, c'est à dire. un jeu de données exposé au SEM et un jeu de données non exposé au SEM par grille, fournissant un total de six jeux de données. La valeur moyenne pour chacune des statistiques énumérées ci-dessus a ensuite été calculée pour les répétitions de chaque traitement d'échantillon. Les valeurs moyennes de chacune de ces statistiques ont été comparées dans tous les groupes de traitement grâce à l'utilisation d'une méthode ANOVA à un facteur. Ces analyses n'ont montré aucune différence statistiquement significative entre les valeurs moyennes de résolution maximale, R après-midi ou CC 1/2 dans l'un des groupes de traitement. Un autre test t de Student a été utilisé pour comparer les valeurs moyennes de ces statistiques entre les ensembles de données exposés au SEM et non exposés au SEM. En utilisant cette méthode d'analyse, il n'y avait pas de différence statistiquement significative ( p > 0,05) mesurée entre ces statistiques cristallographiques pour les données collectées à partir de cristaux pré-exposés à un faisceau SEM de 2 keV (SEM exposé) par rapport aux cristaux qui n'ont pas été exposés (SEM non exposés).


Figure 2
Graphiques des principales statistiques de traitement des données pour les ensembles de données fusionnés des quatre groupes de traitement : non traité (cyan), SEM chargé (vert), SEM non exposé (bleu) et SEM exposé (rouge). Parcelles de ( une ) résolution maximale, ( b ) R après-midi et ( c ) CC 1/2 montrez chaque ensemble de données sous la forme d'un cercle coloré et la ligne noire indique la valeur moyenne. Pour les échantillons non exposés au SEM et exposés au SEM, les chiffres à côté des cercles indiquent à partir de laquelle des trois grilles les données ont été collectées. Les données des grilles 1 et 2 ont été collectées sur I24, et les données de la grille 3 ont été collectées sur I04.

Pour étudier plus avant les dommages potentiels aux cristaux causés par la pré-exposition au rayonnement SEM, les 1151 ensembles de données intégrés collectés sur I24 ont tous été mis à l'échelle ensemble. Ceci a été réalisé en utilisant cadrans.cosym (Gildea & Winter, 2018 ), pour assurer un schéma d'indexation cohérent, suivi de cadrans.échelle . Pour tenter d'évaluer si les traitements des échantillons ont considérablement modifié la diffraction initiale des cristaux, à la fois le facteur d'échelle et le rapport relatif B facteur pour le modèle de diffraction initial de chaque ensemble de données ont été extraits des données, ces valeurs peuvent être vues tracées sous forme d'histogrammes pour chaque groupe de traitement sur la figure 3 .


figure 3
Histogrammes montrant les facteurs d'échelle initiaux et relatifs B facteurs pour les ensembles de données collectées à partir de cristaux à travers différents traitements. Facteurs d'échelle ( une )–( ) et relatif B les facteurs ( e )–( h ) pour la première image de chaque ensemble de données collectées à partir de cristaux CPV14 individuels ont été extraits à la suite d'un seul travail de mise à l'échelle de tous les 1151 ensembles de données avec CADRANS . Ces facteurs ont ensuite été tracés sous forme d'histogrammes, où chaque histogramme contient la distribution du facteur d'échelle initial ou B facteur au sein d'un groupe de traitement donné. Les groupes de traitement étaient : non traité [cyan, ( une ) et ( e )], SEM chargé [vert, ( b ) et ( F )], SEM non exposé [bleu, ( c ) et ( g )] et SEM exposés [rouge, ( ) et ( h )].

Une comparaison de ces distributions entre les groupes de traitement au moyen d'un test KS a révélé que les distributions d'échelle et B pour les traitements SEM non exposés et SEM exposés n'étaient pas significativement différents les uns des autres (facteurs d'échelle de p > 0,05 et = 0,07175, et B facteurs de p > 0,05 et = 0,07613) (où est la distance KS). Cette analyse en déduit que la pré-exposition des cristaux à la dose d'électrons utilisée ici n'a pas altéré significativement la qualité de diffraction de ces cristaux. D'autres tests KS comparant les distributions d'échelle initiale et B facteur entre les autres groupes de traitement ont également été effectuées. Les distributions des facteurs d'échelle pour les échantillons non traités étaient significativement différentes des distributions des échantillons chargés au SEM et non exposés au SEM ( p < 0,0001 dans les deux tests). Ces résultats suggèrent que la manipulation des grilles impliquée dans la mise sous et hors du vide des grilles à des températures cryogéniques a un effet sur la qualité de diffraction des cristaux. De plus, les distributions des échantillons chargés au SEM étaient significativement différentes de celles des échantillons non exposés au SEM ( p < 0,0001 dans tous les tests). Cela suggère que le temps supplémentaire passé sur le cryostage SEM dans le cas des échantillons non exposés au SEM a un effet sur la qualité de diffraction des cristaux. Cela pourrait être lié à l'environnement sous vide ou au refroidissement des échantillons dans le SEM, ou à une combinaison des deux. Une analyse de la température de la navette SEM a été effectuée (données non présentées) indiquant que la navette est maintenue en dessous de la température de dévitrification pendant le transfert et tandis que sur la scène SEM cependant, aucune mesure n'a pu être effectuée pour mesurer la température de la grille elle-même pendant le transfert. Étant donné que la grille repose sur un contact thermique avec la navette pour un refroidissement efficace, il ne peut être exclu qu'un contact thermique inefficace et donc un refroidissement insuffisant aient contribué à ces différences significatives. Cette étude met en évidence l'importance de la caractérisation détaillée des flux de travail de manipulation cryogénique lorsqu'il s'agit d'échantillons biologiques sensibles.

Il est important de noter que CPV14 est un échantillon bien diffractant et que d'autres cristaux, tels que ceux formés à partir de protéines membranaires de grand poids moléculaire, pourraient être plus sensibles aux dommages causés par les radiations. En référence à ce point, la recherche de Holton & Frankel (2010) fournit une discussion utile et offre un aperçu de la relation potentielle entre CPV14 et d'autres protéines potentiellement plus désordonnées ou sensibles aux rayonnements. Leur discussion compare le cas de protéine de test de lysozyme avec un grand cristal de protéine (10 & 8197MDa) avec un Wilson B facteur de 61 Å 2 . Les calculs dans l'article suggèrent que cette plus grande protéine avec un Wilson B un facteur trois fois supérieur à celui du cristal de lysozyme nécessite un volume proche de deux ordres de grandeur plus grand pour produire la résolution et la qualité de diffraction équivalentes. Cela suggère qu'un tel cristal est environ deux ordres de grandeur plus sensible à la dose de rayons X que son homologue lysozyme décrit dans l'article. La nature soluble du CPV14 et son poids moléculaire le rendent plus comparable à l'exemple du lysozyme de Holton & Frankel (2010) qu'à la protéine 10 MDa. Il est donc possible qu'une protéine plus désordonnée ou sensible aux radiations, par exemple une protéine membranaire, soit environ deux ordres de grandeur plus sensible aux dommages causés par les radiations par rapport à CPV14. Compte tenu de cela, nous pensons que les doses d'électrons incidents utilisées ici nous placent toujours bien en deçà du seuil de dommage même pour les cristaux les plus sensibles, d'autant plus que les électrons de faible énergie utilisés ne devraient pas pénétrer plus de 150 nm dans la surface du échantillons.

4. Conclusions

Les analyses décrites ici soutiennent l'utilisation de l'imagerie SEM basse tension comme méthode pour visualiser et localiser des cristaux de protéines de taille micrométrique avant les expériences de diffraction des rayons X. En utilisant des électrons de 2 keV aux doses décrites, les résultats présentés ici n'indiquent aucune différence significative entre la qualité des données de diffraction des rayons X des cristaux qui ont été exposés au faisceau SEM et ceux qui ne l'ont pas été. Ceci est conforme à la littérature qui indique que des doses de 3 e −  Å 𕒶 sont nécessaires pour provoquer une réduction des réflexions haute résolution (décrites comme des réflexions < 3 Å résolution ) (Chiu, 2006 Henderson, 1995 Hattne et al. , 2018 ). Ces expériences ont été réalisées en utilisant des doses d'électrons inférieures de plusieurs ordres de grandeur à ce seuil de 3 8197e &# 8722 &# 8197 87222 et des énergies d'électrons qui laissent la majeure partie des cristaux de protéine non pénétrée. En effet, l'absence de dommages de rayonnement statistiquement significatifs ou mesurables sur les échantillons exposés au SEM soutient l'utilisation de telles doses et énergies d'électrons pour l'imagerie. En conclusion, l'imagerie SEM basse tension est une méthode appropriée pour la visualisation et l'alignement ultérieur des échantillons en dessous de la résolution de la microscopie optique.

5. Littérature connexe

La référence suivante est citée dans les Informations complémentaires pour cet article : Zheng et al. (2009).


Évaluation manuelle

Bien que la communauté de la biologie structurale ait atteint un niveau élevé d'automatisation dans la collecte de données, le traitement des données et la solution de structure ces dernières années, le processus de détermination de la structure nécessite toujours une interprétation par les chercheurs. Cela s'applique particulièrement aux cartes de faible qualité avec un mauvais ajustement entre les données expérimentales et les modèles structurels. L'inspection visuelle résidu par résidu par un biologiste structural expérimenté reste le meilleur moyen de juger de la qualité. Nous sélectionnons donc des structures représentatives de chaque protéine SARS-CoV-2, ainsi que celles présentant un intérêt particulier pour le développement de médicaments, pour une évaluation manuelle. Certains problèmes sont étonnamment courants, tels que les retournements de liaison peptidique (Fig. 1c, d), les erreurs de rotamère, les problèmes d'occupation (Fig. 1e) et l'identification erronée de petites molécules ou d'ions, par exemple l'eau comme magnésium et le chlorure comme zinc. Il est à noter que le zinc joue un rôle important dans de nombreuses protéines du SRAS-CoV-2. Nous avons trouvé que de nombreux sites de coordination du zinc étaient mal modélisés, avec l'ion zinc manquant ou expulsé de la densité et/ou des liaisons disulfure erronées entre les résidus cystéine de coordination (Fig. 1a,b,h). De plus, de nombreuses protéines de coronavirus sont glycosylées au niveau des résidus d'asparagine de surface, mais les sucres glycanes ont souvent été détournés de leur orientation correcte autour de la N-liaison glycosidique (Fig. 1f,g). Cela peut être évité en utilisant des outils tels que Privateer 19 et l'outil automatisé de création de glucides dans Coot 20 . Il est important de noter que l'écart par rapport au comportement attendu n'est pas toujours une erreur et peut également être une caractéristique fonctionnellement pertinente, par exemple, les géométries contraintes souvent trouvées sur les sites catalytiques. Cependant, de tels écarts doivent être fortement étayés par les données expérimentales. Parmi les structures que nous avons vérifiées manuellement, nous avons pu améliorer considérablement 31 en termes de qualité du modèle, de qualité des données ou des deux. Ci-dessous, nous donnons deux exemples pour illustrer l'importance d'inspecter soigneusement les données expérimentales et les modèles résultants.

Toutes les photos sauf je sont des captures d'écran de la pré-version Coot v0.9.9. Les cartes de densité résiduelle et de reconstruction sont en bleu-gris, la différence de densité électronique en rouge et vert. une, SARS-CoV-1 Nsp14–Nsp10 (PDB 5C8T) site de coordination de l'histidine zinc (B603), avec niveau de contour de densité résiduelle 0,445, écart quadratique moyen (r.m.s.d.) 0,150. b, Histidine de une a été permuté dans ISOLDE 25 , conduisant à une coordination tétraédrique de Zn 2+ , puis le raffinement a été effectué à l'aide de PDB-REDO 11 avec ajout manuel de liens. c, Proline A505 est modélisé comme trans dans le complexe RdRp (PDB 7BV2, à gauche), mais la densité indique une cis conformation de la chaîne principale, illustrée dans . , L'entrée PDB déposée a été mise à jour après que nous ayons contacté les auteurs originaux. e, Densité électronique à différence élevée au niveau du résidu A165 dans la protéase principale du SRAS-CoV-2 (PDB 5RFA) en raison d'une occupation de seulement 0,44 au lieu de 1,00 près de l'inhibiteur potentiel (à gauche). Niveau de contour de carte résiduel 0,54, r.m.s.d. 0,319 différence de densité au niveau du contour 0,35, r.m.s.d. 0,114. F, domaine de liaison au récepteur de pointe SARS-CoV-2 complexé avec l'ACE2 humain (PDB 6VW1). Cette N-le glycane lié est retourné d'environ 180° autour du N-liaison glycosidique. Après avoir contacté les auteurs originaux, cette entrée a été révisée (affichée dans g). g, La correction améliore l'ajustement de la densité de la chaîne de sucre. Carte des résidus au niveau du contour 0,311, r.m.s.d. 0,265. h, liaison disulfure A226-A189 dans la protéase de type papaïne (PDB 6W9C), avec une densité électronique au niveau de contour 0,214, r.m.s.d. 0,136 les deux autres résidus cysteine ​​restent non coordonnés. Bien que la carte de densité n'indique pas un zinc, il s'agit d'un domaine à doigt de zinc, les autres copies NCS incluent un zinc coordonné à cette position. je, le tracé AUSPEX 8 des anneaux de glace de la protéase principale du SRAS-CoV (PDB 2HOB) se reflète par un biais dans la distribution de l'intensité (rouge). j, tracé de Ramachandran ou angles de torsion dans le squelette peptidique pour le complexe dynamique SARS-CoV Nsp10-Nsp14 (PDB 5NFY). En principe, il ne devrait y avoir que quelques valeurs aberrantes (rouge), car la plupart des liaisons peptidiques adhèrent aux distributions angulaires typiques. Photo : CSTF/insidecorona.net.

Protéase de type papaïne

La protéine non structurale 3 du SRAS-CoV-2 (Nsp3) contient un domaine de protéase de type papaïne qui est essentiel pour l'infection car il clive le polypeptide viral. La première structure de la protéase de type papaïne SARS-CoV-2 (PDB 6W9C) a été publiée le 1er avril 2020, trois mois seulement après la publication du génome viral (GenBank MN908947.2) 21 . La structure a été immédiatement utilisée dans les efforts de conception de médicaments. Cependant, l'exhaustivité globale des données mesurées n'était que de 57 %. L'examen des données brutes, disponibles sur https://proteindiffraction.org/ 10 , a révélé de forts dommages causés par les radiations, exacerbés par une mauvaise stratégie de collecte de données. Cela n'a pas pu être déduit du dépôt de l'APB, ce qui souligne l'importance de rendre disponibles les données brutes.

Le cristal a 3 fois la symétrie non cristallographique (NCS), avec chaque monomère de domaine de protéase de type papaïne contenant un ion Zn 2+ fonctionnellement important lié par quatre résidus de cystéine avec un C similaire??-S??–Angles Zn et Zn–S?? longueurs de liaison. En raison des dommages causés par les radiations, les sites de Zn-S ont une faible densité. Dans une copie NCS, le site a été modélisé comme une liaison disulfure et deux résidus de cystéine libres (Fig. 1h), tandis que les deux autres copies NCS coordonnent l'atome de zinc avec C fortement variable??-S??–Angles Zn et longueurs de liaison Zn–S. Nous avons retraité les images à l'aide de XDS 22 , un logiciel de traitement d'images de diffraction des rayons X sur monocristal. Le serveur STARANISO a été utilisé pour déterminer et appliquer une limite anisotrope pour les données de diffraction. Cette intervention manuelle minutieuse a amélioré la qualité globale des données et augmenté la résolution de 2,7 à 2,6 Å, mais l'exhaustivité ellipsoïdale globale révisée n'était que de 44,5%. L'ajout d'atomes de zinc à tous les sites, la limitation des longueurs et des angles de liaison aux valeurs attendues et l'utilisation de contraintes NCS et d'une pondération globale plus élevée pour une géométrie idéale, ainsi que le remodelage des chaînes latérales et des molécules d'eau, ont amélioré les cartes de densité électronique et réduit le R valeurs de 4%. Cela illustre l'interconnexion entre la collecte de données, le traitement des données et la construction de modèles : même si la stratégie de collecte de données n'est pas idéale, la prise en compte des problèmes qui en résultent lors du traitement et du raffinement des données peut améliorer considérablement le modèle final.

Une structure du mutant C111S du domaine de protéase de type papaïne (PDB 6WRH) a été publiée un mois plus tard. Dans cette structure, les sites de zinc étaient clairement résolus dans toutes les sous-unités. Entre-temps, cependant, le PDB 6W9C avait été largement utilisé dans la conception de médicaments in silico. 20% des plus de 140 équipes de recherche du JEDI COVID19 GrandChallenge, un concours pour trouver des médicaments COVID-19 potentiels in silico, ont utilisé ce modèle. La disponibilité d'une meilleure structure un mois plus tôt aurait augmenté leurs chances de succès et économisé des heures de calcul et des heures-personnes.

Complexe d'ARN polymérase

Le SRAS-CoV-2 réplique son génome d'ARN simple brin à l'aide d'un complexe macromoléculaire d'ARN polymérase dépendante de l'ARN (Nsp12 RdRp), Nsp7 et Nsp8. Les structures cryo-EM antérieures des homologues du SARS-CoV-1 (PDB 6NUR, PDB 6NUS) comprennent une boucle non modélisée désordonnée suivie d'une hélice visible mais courte et irrégulière et d'une extrémité C flexible. La densité pour cette hélice était mal résolue, mais le modèle avait une géométrie valide. Notre analyse de l'une des premières structures du complexe équivalent SARS-CoV-2 (PDB 7BTF) a révélé que la séquence dans cette région C-terminale (partie du sillon de liaison à l'ARN) était désalignée de neuf résidus (Fig. 2) . Cette erreur était présente dans toutes les structures SARS-CoV-1 et SARS-CoV-2 associées, probablement parce que la nouvelle détermination de structure commence généralement à partir d'un modèle antérieur lorsqu'il est disponible.

une, Vue d'ensemble avec boucle manquante représentée par une carte en pointillés (PDB 7BV2) à 2,4σ. A droite, détails de l'hélice C-terminale à 5σ. b, Carte et modèle de résolution inférieure (PDB 6NUS). Il est difficile de juger de l'ajustement de la chaîne latérale. c, Carte et modèle à plus haute résolution (PDB 7BV2) tels que déposés, l'ajustement de la chaîne latérale est sous-optimal en raison de l'erreur de registre. , Modèle modifié pour PDB 7BV2, les chaînes latérales s'adaptent désormais à la densité. Le décalage de registre est indiqué par le Tyr915 étiqueté. Photo : CSTF/insidecorona.net.

Une structure du complexe RdRp lié à l'analogue nucléotidique remdesivir (PDB 7BV2 (réf. 23)) a été publiée peu de temps après et a fourni la base d'une conception rationnelle de candidats-médicaments connexes 24 . Cette structure présentait également le désalignement de la séquence à neuf résidus. Nous avons reconstruit la structure en utilisant ISOLDE 25 , CaBLAM 6 et une inspection visuelle, en corrigeant certains renversés ou cis contre trans peptides (Fig. 1c,d) et trois conformères d'ARN près du remdesivir, y compris une base d'adénosine en arrière. Nous avons également pu ajouter plusieurs résidus et eaux avec une bonne densité et géométrie. Le remdesivir est lié de manière covalente à l'ARN, mais il n'est présent que dans environ 50 % des molécules mesurées 12 . Cela signifie que le site actif est un mélange d'au moins deux états différents, donc sans surprise, les ions Mg 2+ modélisés et le pyrophosphate sont mal supportés par la densité expérimentale et les contacts locaux. Ceci est préoccupant pour l'amarrage in silico et la conception de médicaments ultérieurs, qui prennent souvent tous les atomes de la structure déposée comme cadre fixe dans lequel s'intégrer. Les structures remodelées du complexe peuvent offrir une base plus solide pour la conception de médicaments, même si le

L'occupation de 50 % du site actif n'a pas été largement discutée 12 . Il est à noter que malgré la grande erreur de registre et divers problèmes plus petits, selon les métriques « résumées » traditionnelles, le modèle semblait extrêmement bon, sans valeurs aberrantes de Ramachandran ni de rotamer et un score de conflit de 2, soulignant que l'inspection visuelle directe doit rester une étape clé dans tout processus de modélisation.

Bien que les problèmes discutés ci-dessus étaient présents dans les structures déposées à l'origine, presque tous sont maintenant corrigés. Ceci a été réalisé au moins en partie parce que nous avons rendu des modèles corrigés disponibles sur notre site Web et contacté les auteurs originaux de ces structures avec des descriptions détaillées, les aidant à déposer des versions révisées dans le wwPDB à leur discrétion.


Titre : Préservation et réutilisation des données brutes de diffraction : aperçu, mise à jour sur les aspects pratiques et les exigences en matière de métadonnées

Un examen d'actualité est présenté sur l'intérêt en développement rapide et les options de stockage pour la préservation et la réutilisation des données brutes dans le domaine scientifique de l'IUCr et de ses commissions, dont chacune opère dans une grande diversité d'instruments. Un résumé est inclus du cas pour le dépôt de données de diffraction brutes. Un contexte général est défini en mettant en évidence les initiatives des décideurs scientifiques vers un modèle de «science ouverte» au sein duquel les cristallographes travailleront de plus en plus à l'avenir, ce qui apportera de nouvelles opportunités de financement mais aussi de nouveaux codes de procédure dans des cadres de science ouverte. L'enseignement des compétences et la formation des cristallographes devront être élargis. Globalement, il existe désormais les moyens et l'organisation pour la conservation des données brutes de diffraction cristallographique via différents types d'archives, comme dans les universités, des référentiels spécifiques à la discipline (Ressource intégrée pour la reproductibilité en cristallographie macromoléculaire, Grille de données de biologie structurale), des référentiels de données grand public. (Zenodo, ResearchGate) et des installations centralisées de neutrons et de rayons X. La formulation de descripteurs de métadonnées améliorés pour les types de données brutes de chacune des commissions de l'IUCr est en cours. Quelques exemples détaillés sont fournis. Enfin, un certain nombre d'études de cas spécifiques sont présentées, y compris un exemple de fil de recherche qui fournit un accès ouvert complet plus » aux données brutes. « moins


Notes de bas de page

À qui la correspondance doit être envoyée à l'adresse *. Courriel : chris.jacobsenstonybrook.edu .

Contributions des auteurs : D. Shapiro, T.B., V.E., M.H., C.J., J.K., E.L. et D. Sayre ont conçu la recherche D. Shapiro, P.T., T.B., V.E., M.H., C.J., J.K., E.L., H.M. et A.M. effectué des recherches D. Shapiro, P.T., V.E., C.J., E.L., H.M. et A.M.N. données analysées D. Shapiro, P.T., T.B., V.E., M.H., C.J. et E.L. a contribué à de nouveaux réactifs/outils analytiques et D. Shapiro, V.E., M.H., C.J., J.K. et D. Sayre ont rédigé l'article.

Ce document a été soumis directement (Track II) au bureau du PNAS.

Abréviations : XDM, CCD de microscopie à diffraction des rayons X, dispositif à couplage de charge STXM, microscope à rayons X à transmission à balayage.