Informations

Les phénomènes biologiques suivent-ils les statistiques gaussiennes ?

Les phénomènes biologiques suivent-ils les statistiques gaussiennes ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je suis récemment entré dans les sciences de la vie (de la physique). Je suis préoccupé par l'utilisation des valeurs p dans la littérature sur les sciences de la vie. Par exemple, dans cet article, ils testent 9 à 12 rats dans un groupe témoin et le comparent à un groupe expérimental. Ils utilisent des valeurs p pour affirmer que leurs résultats sont statistiquement significatifs. Ce type d'utilisation des valeurs p semble être très courant dans la littérature.

Alors voici mes soucis :

  1. Pourquoi suppose-t-on si souvent que les mesures biologiques suivent une distribution normale ? A ma connaissance, ce n'est pas connu a priori.

  2. D'après mon intuition physique, il semble assez difficile de prétendre à une « importance statistique » lorsque l'on utilise des échantillons de si petite taille.


la réponse de kmm est correcte ; Je veux juste ajouter quelques-uns de mes points sur le type de données qui doivent suivre la distribution gaussienne.


À moins que vous ne sachiez par observation qu'un processus ne suit pas une distribution gaussienne (par exemple, Poisson, binomiale, etc.), alors il le fait probablement au moins assez bien à des fins statistiques.

Je ne blâmerai pas kmm pour cette déclaration parce que ce qu'ils ont dit est ce qui se passe généralement. C'est pratiquement ce que font tous les biologistes, mais c'est une Incorrect approcher.

Gaussienne ne doit pas être considérée comme une distribution par défaut. Cela peut conduire à des inférences incorrectes. Habituellement, l'expérimentateur a une idée du type de données qu'il mesure et de la distribution que les données sont susceptibles de suivre. Si vous n'êtes pas sûr de la distribution sous-jacente, vous devriez opter pour non paramétrique tests statistiques.


Quel type de données suit la distribution gaussienne ?

D'après le théorème central limite, la distribution de la moyenne (valeur attendue) ou la somme de plusieurs échantillons indépendants et identiquement distribués (IID) les variables aléatoires suivraient une distribution gaussienne. La variable aléatoire elle-même peut suivre n'importe quelle distribution, mais si vous mesurez la moyenne plusieurs fois à l'aide d'expérimentations répétées, la distribution de la moyenne serait alors gaussienne.

Du site Wolfram :

Soit $X_1,X_2,… ,X_N$ un ensemble de N variables aléatoires indépendantes et chaque $X_i$ a une distribution de probabilité arbitraire $P(x_1,… ,x_N)$ avec une moyenne $mu_i$ et une variance finie $ sigma_i^2$. Alors la forme normale varie :

$$X_{norm}=frac{displaystylesum_{i=1}^N x_i-sum_{i=1}^N mu_i}{sqrt{displaystylesum_{i=1}^N sigma_i^2}}$$

a une fonction de distribution cumulative limite qui se rapproche d'une distribution normale.

La page wikipedia sur CLT est également assez bonne. Vous pouvez aussi y jeter un œil.

Habituellement, dans les expériences biologiques, nous mesurons une propriété, disons l'expression d'un gène. Lorsque vous effectuez plusieurs répétitions et qu'il n'y a pas de mécanisme sous-jacent spécifique qui générerait une variation (c'est-à-dire que les erreurs sont purement aléatoires), vous obtiendrez des valeurs normalement distribuées. Notez que cela ne s'applique qu'aux moyennes de l'échantillon. Dans certains cas, nous supposons que la variation de la valeur d'une variable est due à une fluctuation aléatoire et considérons donc ces variables comme étant normalement distribuées (pas leurs moyennes mais les valeurs elles-mêmes) ; par ex. le poids des souris nourries et élevées de manière égale. C'est juste votre hypothèse qui constitue l'hypothèse nulle.

Un autre point à noter est que la variable qui devrait suivre distribution normale devrait être essentiellement continu dans la nature. Certaines variables discrètes peuvent être approchées comme continues, mais il faut avoir un bon raisonnement pour le faire. Par exemple, les tailles de population, bien que discrètes, peuvent être supposées continues si les tailles sont grandes.


La distribution de Poisson est unique et est une distribution discrète. Certains types de phénomènes se traduisent par des VR distribuées de Poisson. Ces phénomènes devraient être essentiellement des processus de Poisson. Voir ce post pour plus de détails. La distribution de Poisson modélise essentiellement la probabilité de N événements dans un intervalle de temps donné pour un certain taux d'événements ($lambda$). Ce taux est aussi appelé intensité de la distribution.


Binomial est une autre distribution discrète unique. Les génotypes résultant de la ségrégation mendélienne des gènes, par exemple, suivent cette distribution. Il modélise essentiellement la probabilité de N nombre d'événements dans certains M essais. Dans la distribution binomiale, il n'y a que deux résultats possibles. La distribution multinomiale est une généralisation de la distribution binomiale avec des résultats multiples.


Étant donné que Poisson et Binomial sont des distributions discrètes, ils ne doivent pas être confondus avec une distribution normale. Cependant, dans certaines conditions, en particulier lorsque le nombre d'essais dans la distribution binomiale est élevé et que la probabilité binomiale = 0,5, elle peut être approchée comme une gaussienne avec la même valeur de moments. De même, si l'intensité (taux) de la distribution de Poisson est élevée ou que l'intervalle de temps est grand, la distribution de la VR de Poisson peut être approchée à gaussienne (avec la même valeur de moments). Dans ces cas, la valeur de la moyenne augmente significativement, permettant ainsi une approximation continue.

De nombreux ensembles de données montrent des distributions normales semblables à des lois de puissance ou asymétriques et les gens font souvent l'erreur de supposer qu'elles sont normales. Un exemple (d'après mon expérience) est l'expression de tous les gènes dans une cellule. Très peu de gènes ont une expression élevée et de nombreux gènes ont une faible expression. Cela s'applique également à la distribution des degrés de nœuds dans certains réseaux réels tels que le réseau de régulation des gènes.


En résumé, vous devez supposer une distribution gaussienne lorsque :

  • La variable est un la mesure d'une valeur qui se répète plusieurs fois à partir de échantillons identiques
  • La variabilité devrait être aléatoire dans le cas de contrôle (dans le test t, lorsque vous rejetez l'hypothèse nulle, vous dites en fait qu'une certaine variable ne suit pas la distribution normale supposée sous l'hypothèse nulle)
  • La variable est continue ou discrète avec une grande taille d'échantillon

Vous soulevez deux problèmes, qui pourraient tous deux être mieux adaptés à stats.SE, mais je pense que les questions sont suffisamment biologiques pour justifier une réponse ici.

La plupart des processus biologiques suivent-ils une distribution gaussienne ?

À moins que vous ne sachiez par observation qu'un processus ne suit pas une distribution gaussienne (par exemple, Poisson, binomiale, etc.), alors il le fait probablement au moins assez bien à des fins statistiques. Bien qu'environ 10 observations ne suffisent pas pour tester la distribution avec précision (et ces tests sont de toute façon assez imparfaits), tant que les valeurs sont approximativement normalement distribuées, vous répondez probablement aux hypothèses de la plupart des tests statistiques de type modèle linéaire (t -test, ANOVA, régression linéaire). Ces tests sont assez robustes aux écarts par rapport à la normalité, donc dans un sens, tant que les valeurs sont assez proches de la normale, le test est correct (ce qui ne dit rien sur l'interprétation des résultats).

L'utilisation généralisée des valeurs p est-elle justifiée ? Y a-t-il un problème avec les petites tailles d'échantillons ?

Bien qu'il ne soit certainement pas le premier à tirer la sonnette d'alarme au sujet des valeurs p, l'article de Ioannidis (2005) a sonné le plus fort. L'idée centrale est que, en science, il existe une forte tendance à ne publier que des résultats « significatifs » (mais quelle que soit la définition de la signification que vous utilisez). Ainsi, la littérature regorge de faux résultats significatifs. Par exemple, si seulement 1 expérience sur 20 donne des résultats significatifs, les 19 autres ne seront probablement pas publiées. Pourtant, ces 5 % pourraient représenter 95 % de la littérature, et nous avons donc un fort biais dans la littérature. Tous ces résultats "significatifs" ne peuvent pas être corrects.

L'inférence statistique à partir de petits échantillons est également assez problématique (par exemple, en neurosciences ; Button et al., 2013). Il y a eu une poussée récente vers l'inclusion des tailles d'effet pour les paramètres estimés et la simple déclaration des intervalles de confiance (qui seront suffisamment larges pour les petites tailles d'échantillon).

Bon nombre des défaillances des statistiques sont résumées dans Statistics Done Wrong: Le guide terriblement complet, avec qui je n'ai aucune affiliation sauf que j'ai pris plaisir à le lire.

Le document que vous liez est assez déficient dans ce que vous pourriez appeler l'analyse statistique moderne. Ce qu'ils pourraient améliorer :

  • Exécuter (et montrer les résultats de) une analyse de puissance a priori pour établir que leurs tailles d'échantillons sont adéquates
  • Inclure les tailles d'effet des paramètres estimés
  • Inclure les intervalles de confiance pour les paramètres estimés
  • Utilisez l'une des nombreuses procédures de comparaisons multiples disponibles pour contrôler les taux d'erreur de type I par famille.

Il incombe aux examinateurs d'articles de demander ces choses si les auteurs ne les fournissent pas volontairement.

Il n'y a aucun moyen de contourner la petite taille de l'échantillon dans de nombreuses études, il est donc possible qu'ils ne puissent pas faire grand-chose pour changer la taille de l'échantillon. Ceux qui travaillent avec des humains ou des animaux sont sous pression pour garder des échantillons aussi petits que possible tout en maintenant une puissance adéquate. Cependant, ils pourraient montrer que ce qu'ils ont est suffisamment puissant.

Button, K.S., J.P.A. Ioannidis, C. Mokrysz, B.A. Nosek, J. Flint, E.S.J. Robinson et M.R. Munafò. 2013. Panne de courant : pourquoi la petite taille de l'échantillon compromet la fiabilité des neurosciences. Nature Avis Neurosciences 14:1-12.

Ioannidis, J. P. A. 2005. Pourquoi la plupart des résultats de recherche publiés sont faux. Médecine PLoS 2:e124.


Vous avez raison de vous méfier. Je soutiendrais que, dans la plupart des situations, les tests d'hypothèse basés sur la distribution normale ne sont pas appropriés. Si un test d'hypothèse est nécessaire, un test de permutation doit presque toujours être utilisé.

Comme le souligne WYSIWYG, il n'y a aucune raison de supposer qu'une mesure est distribuée normale sans forte a priori connaissance. Le théorème central limite est l'argument standard pour supposer que la moyenne est approximativement normale distribuée, mais je dirais que ce n'est pas très utile en pratique, car la convergence peut être très lente : si votre distribution de données est loin d'être normale, vous avez besoin d'un grand nombre d'échantillons pour que la moyenne soit approximativement normale. Combien de? Impossible à dire, puisque nous ne connaissons pas la distribution des données ! Donc en pratique, l'approximation peut être très mauvaise, et alors le test sera complètement éteint. Cela s'applique non seulement au test t, mais à de nombreux tests paramétriques qui reposent sur l'approximation normale, tels que les tests du Khi-deux.

Heureusement, il existe de meilleurs outils de nos jours. Le test de permutation ne nécessite pas l'hypothèse de distribution normale ; les résultats sont toujours valables, quelle que soit la distribution des données. Il est facile à réaliser avec les ordinateurs d'aujourd'hui et simple à comprendre. C'est un bon livre sur les tests de permutation (et d'autres méthodes de rééchantillonnage).

Ronald Fischer et ses contemporains qui ont développé la théorie normale au début des années 1900 étaient parfaitement conscients que le test de permutation était une bien meilleure solution, mais il nécessite des calculs approfondis, ce qui n'était tout simplement pas possible à l'époque. Ainsi, le test normal a été développé comme une approximation du pauvre du test de permutation exacte. Mais aujourd'hui, nous n'avons plus besoin de cette approximation, car nos puissants ordinateurs peuvent effectuer même de grands tests de permutation en un clin d'œil.

Alors pourquoi les gens s'en tiennent-ils encore aux tests normaux approximatifs ? Malheureusement, je pense qu'ils ne sont couramment utilisés que parce que la plupart des biologistes ne connaissent pas d'autres outils et suivent simplement la tradition. Une raison historique derrière l'hypothèse normale en biologie est un argument classique de Fischer, concernant la génétique des populations : si un phénotype est affecté par un grand nombre de gènes, et que leurs effets sont additifs, alors la variable phénotype est une somme de nombreuses variables aléatoires, et par le théorème central limite, il devrait être approximativement normal. L'exemple classique est la taille, qui est en effet très proche de la normale distribuée dans la population. Mais ce raisonnement s'applique à la génétique des populations naturelles, pas aux expériences de laboratoire.

Ensuite, il y a tout le débat sur la question de savoir si les tests d'hypothèses (et les valeurs p en particulier) doivent être utilisés, quel que soit le test que vous utilisez. D'autres réponses ont abordé ce sujet. Je n'entrerai pas dans les détails, mais c'est un sujet très important, et je recommanderais cet excellent article de Nature, et les références qu'il contient.

http://www.nature.com/news/scientific-method-statistical-errors-1.14700f


Sciences naturelles

Sciences naturelles est une branche de la science concernée par la description, la prédiction et la compréhension des phénomènes naturels, sur la base de preuves empiriques issues de l'observation et de l'expérimentation. Des mécanismes tels que l'examen par les pairs et la répétabilité des résultats sont utilisés pour tenter de garantir la validité des avancées scientifiques.

Les sciences naturelles peuvent être divisées en deux branches principales : les sciences de la vie et les sciences physiques. Les sciences de la vie sont également connues sous le nom de biologie, et les sciences physiques sont subdivisées en branches : physique, chimie, sciences de la Terre et astronomie. Ces branches des sciences naturelles peuvent être divisées en branches plus spécialisées (également appelées domaines). En tant que sciences empiriques, les sciences naturelles utilisent des outils des sciences formelles, telles que les mathématiques et la logique, convertissant les informations sur la nature en mesures qui peuvent être expliquées comme des déclarations claires des « lois de la nature ». [1]

Les sciences naturelles modernes ont succédé à des approches plus classiques de la philosophie naturelle, généralement attribuées aux traditions taoïstes en Asie et en Occident à la Grèce antique. Galilée, Descartes, Bacon et Newton ont débattu de l'intérêt d'utiliser des approches plus mathématiques et plus expérimentales de manière méthodique. Pourtant, les perspectives philosophiques, les conjectures et les présuppositions, souvent négligées, restent nécessaires en sciences naturelles. [2] La collecte systématique de données, y compris la science de la découverte, a succédé à l'histoire naturelle, qui a émergé au XVIe siècle en décrivant et en classant les plantes, les animaux, les minéraux, etc. [3] Aujourd'hui, « l'histoire naturelle » propose des descriptions observationnelles destinées à un public populaire. [4]


Majeurs dans le département

Sciences Biologiques : La majeure en sciences biologiques (BSCI) offre une formation complète en biologie, comprenant des cours de biologie cellulaire, génétique, biologie évolutive, physiologie, neurobiologie, biochimie, biologie moléculaire, immunobiologie, écologie, microbiologie et biologie végétale.

Sciences physiologiques : La majeure en sciences physiologiques (PHSC) propose aux étudiants un cursus plus axé sur la structure et la fonction humaine et animale. Après des cours d'introduction à la biologie cellulaire et à la génétique, les étudiants de cette majeure se concentrent sur la physiologie, la neurobiologie et l'anatomie. Les étudiants se spécialisant en sciences biologiques ou en sciences physiologiques peuvent postuler pour le Programme de distinction disciplinaire en sciences biologiques qui offre des opportunités d'apprentissage par l'expérience telles que la recherche indépendante, les stages, les cours de laboratoire basés sur la recherche et les séminaires d'accompagnement.

Biochimie et biologie moléculaire : La majeure en biochimie et biologie moléculaire (BIMB) est offerte conjointement avec le département de chimie. Les cours de biochimie, biologie cellulaire, génétique, chimie physique et analyse quantitative permettent aux étudiants de comprendre à la fois des phénomènes biologiques complexes et les mécanismes chimiques sous-jacents. Les étudiants se spécialisant en biochimie et en biologie moléculaire peuvent postuler pour le Programme de distinction disciplinaire en biochimie et biologie moléculaire, qui offre des opportunités d'apprentissage par l'expérience telles que la recherche indépendante, les stages, les cours de laboratoire basés sur la recherche et les séminaires d'accompagnement.

Sciences biologiques pour l'éducation : Les étudiants du College of Education désireux d'enseigner la biologie au secondaire peuvent obtenir un B.S. diplôme avec une deuxième majeure, Sciences biologiques pour l'éducation.


EASE utilise des fichiers texte personnalisables pour la découverte de thèmes, l'annotation et la liaison avec des outils en ligne

Pour analyser une liste de gènes, EASE mappe d'abord les identifiants de gènes à un système d'adhésion de gènes standardisé (SGA) via un simple fichier texte dans le répertoire DataConvert. Le système SGA par défaut utilisé par EASE est les numéros LocusLink [4]. Lors de la conversion au système SGA, EASE mappe les gènes en catégories biologiques au sein de divers systèmes de classification. Chaque système est spécifié dans un fichier texte dans le répertoire DataClass qui mappe les relations plusieurs-à-plusieurs entre les gènes et les catégories de gènes au sein du système de classification. De même, EASE mappe les gènes aux champs d'annotation spécifiés dans les fichiers du répertoire Data. Les utilisateurs peuvent donc utiliser n'importe quel système d'identification de gènes avec n'importe quel champ d'annotation personnalisé ou système catégoriel en créant les fichiers texte associés dans le répertoire approprié, comme indiqué dans les fichiers d'aide d'EASE. EASE est équipé d'une routine de mise à jour automatisée qui télécharge et analyse les sources de données d'annotation publiques et installe un système de fichiers basé sur LocusLink, permettant ainsi aux chercheurs d'utiliser EASE avec les informations d'annotation les plus récentes.

EASE construit des hyperliens vers les définitions de divers systèmes catégoriques et les catégories de gènes qu'ils contiennent avec des fichiers de configuration dans le répertoire DataClassURL data. EASE peut également charger les gènes de la liste de gènes actuelle dans divers outils en ligne en utilisant de simples fichiers texte de configuration d'URL dans le répertoire Links. Les deux types de fichiers de configuration sont des fichiers texte simples à créer ou à modifier pour faciliter l'ajout de nouveaux liens vers des outils en ligne et des définitions de nouveaux systèmes catégoriels ajoutés par l'utilisateur.

Pour la découverte de thèmes via l'analyse de surreprésentation des catégories, EASE utilise les trois systèmes de l'ontologie génétique [5] comme systèmes de catégorisation par défaut. Cependant, tout ensemble de systèmes personnalisés ou publics peut être analysé simultanément, y compris les mots clés SWISS-PROT [6] et PIR [7], la régulation des facteurs de transcription, les domaines protéiques, l'appartenance à la voie, la localisation chromosomique, l'appartenance à des listes de gènes précédemment publiées et MeSH. titres ou mots-clés extraits de la littérature associée aux gènes. EASE calcule la surreprésentation par rapport au nombre total de gènes analysés et annotés dans chaque système pour permettre des comparaisons côte à côte des catégories des systèmes de catégorisation avec différents niveaux d'annotation. La conversion des identifiants de gènes en un système SGA tel que les numéros LocusLink est essentielle à l'analyse de surreprésentation pour garantir qu'un seul gène représenté par plus d'un identifiant (typique de GenBank) ne reçoive qu'un seul « vote » pour chacune de ses catégories.

L'utilisateur a le choix entre deux mesures statistiques de surreprésentation - la probabilité exacte unilatérale de Fisher ou une variante de celle-ci - qui est appelée « score EASE ».La probabilité exacte de surreprésentation de Fisher est calculée en utilisant la distribution de probabilité hypergéométrique gaussienne qui décrit l'échantillonnage sans remise à partir d'une population finie constituée de deux types d'éléments [8]. Dans le cas des données de microarray, EASE définit cette population d'éléments comme l'ensemble de gènes sur le microarray annoté dans un système de classification de gènes donné. Pour chaque classification possible au sein du système, les deux types d'éléments sont : les gènes qui appartiennent à cette classification et les gènes qui n'y appartiennent pas. Étant donné le nombre de gènes de chaque type au sein de la population finie, il est possible de calculer la probabilité exacte d'échantillonner au hasard un nombre donné de gènes et d'observer un nombre spécifique appartenant à la classification. La probabilité exacte de surreprésentation unilatérale de Fisher est calculée en additionnant cette probabilité avec toutes les probabilités pour les situations dans lesquelles il y a un plus grand nombre de gènes dans la classification. Par exemple, supposons qu'une puce à ADN contienne 1 000 gènes annotés dans la branche Processus biologique de l'ontologie des gènes, et que cinq de ces gènes relèvent de la classification Apoptose. La probabilité d'observer quatre gènes d'apoptose par hasard dans une liste de gènes contenant 50 gènes annotés dans le processus biologique est calculée en additionnant les probabilités hypergéométriques d'observer 4 gènes sur 50 et 5 gènes sur 50. Notez que 6 (ou plus) sur 50 gènes n'est pas possible, car il n'y a que cinq de ces gènes sur l'ensemble du microarray. Cet exemple montre pourquoi la probabilité exacte de Fisher est plus appropriée que les méthodes décrivant l'échantillonnage avec remise telles que les statistiques du chi carré et du score Z.

Il est plus facile de comprendre pourquoi la probabilité exacte de Fisher attribue une signification plus élevée à l'observation dans l'exemple après avoir considéré ce qui suit : à mesure que chaque gène d'apoptose est ajouté à la liste des gènes, les gènes d'apoptose deviennent de plus en plus rares dans la population restante de gènes qui ne figurent pas sur le liste. La probabilité exacte de Fisher prend en compte cet effet des populations finies, contrairement aux statistiques du chi carré et du score Z. La probabilité exacte de Fisher est également plus appropriée qu'une métrique de type ratio de ratios, dans laquelle le ratio de gènes dans une catégorie de la liste des gènes est comparé au ratio de gènes de cette catégorie au sein de la population. En effet, les ratios des ratios ont tendance à sous-estimer l'importance des catégories à haute fréquence. Ce problème est illustré par l'observation de 75 gènes dans une catégorie sur 100 gènes sur une liste lorsque le fond est de 6 000 gènes sur 10 000. La probabilité d'observer une telle situation par hasard en utilisant la probabilité exacte de Fisher est de près de 1 sur 1 000 (p = 0,0012), mais la méthode du ratio des ratios ne détecte qu'une modeste augmentation de 1,25 fois en proportion. Les rapports de rapports sont également sujets à des « effets de granularité » avec des catégories à basse fréquence, dans lesquelles l'observation d'un seul gène dans une catégorie rare peut avoir un fort enrichissement par rapport à la population, mais être de peu d'importance. Cette situation est illustrée par l'observation d'un seul gène dans une catégorie sur une liste de 50 gènes alors qu'il y a 60 de ces gènes sur une puce à 10 000 gènes. La probabilité exacte de Fisher nous dit que cet enrichissement apparemment intéressant de 3,3 fois basé sur le rapport des ratios avait en réalité un taux supérieur à un sur quatre (p = 0,26) chance de se produire simplement en raison du hasard.

Le score EASE est proposé comme un ajustement prudent à la probabilité exacte de Fisher qui pondère la signification en faveur de thèmes soutenus par plus de gènes. La base théorique du score EASE réside dans le concept de jackknifing d'une probabilité. La stabilité d'une statistique donnée peut être vérifiée par une procédure appelée jackknifing, dans laquelle un seul point de données est supprimé et la statistique est recalculée plusieurs fois pour donner une distribution de probabilités qui est large si le résultat est très variable et serré si le résultat est robuste [9]. Le score EASE est calculé en pénalisant (supprimant) un gène dans la catégorie donnée de la liste et en calculant la probabilité exacte de Fisher résultante pour cette catégorie. Il représente donc la borne supérieure de la distribution des probabilités exactes de Fisher au jackknife et présente des avantages en termes de pénalisation de la significativité des catégories supportées par peu de gènes. Par exemple, supposons qu'une liste de 206 gènes soit sélectionnée parmi une population de 13 679 gènes. S'il n'y a qu'un seul gène dans la population dans une catégorie rare, X, et que ce gène apparaît sur la liste des 206 gènes, l'exact Fisher considérerait la catégorie X comme significative (p = 0,0152). Dans le même temps, la probabilité exacte de Fisher considérerait une catégorie plus courante, Y, avec 787 membres dans la population et 20 membres sur la liste, comme légèrement moins significative (p = 0,0154). Du point de vue des thèmes biologiques globaux, cependant, un thème basé sur la présence d'un seul gène n'est ni global ni stable et est rarement intéressant. S'il s'avère que le seul gène est un faux positif, alors la signification du thème dépendant est entièrement fausse. Cependant, le score EASE pour ces deux situations est p = 1 pour la catégorie X et p < 0,0274 pour la catégorie Y, et donc le score EASE élimine la significativité de la catégorie X « instable » tout en ne pénalisant que légèrement la significativité du thème plus global Y. En extrapolant entre ces deux extrêmes, le score EASE pénalise la significativité des catégories supportées par moins de gènes et favorise ainsi des catégories plus robustes que la probabilité exacte de Fisher.

EASE est fourni avec : des fichiers pour spécifier les gènes sous forme de numéros LocusLink, des symboles de gènes, des accessions GenBank, SWISS-PROT, Flybase [10], MGI [11] ou RGD [12], des clusters UniGene [13] ou des identifiants d'ensembles de sondes Affymetrix [ 14] champs d'annotation des fichiers de population LocusLink comprenant tous les numéros LocusLink pour les espèces sélectionnées et pour divers Affymetrix GeneChips et d'autres puces à ADN sélectionnées et systèmes de classification dérivés de Gene Ontology, KEGG [15], BBID [16] et SWISS-PROT ainsi que systèmes de classification analysés à partir de LocusLink (y compris « At-a-Glance » de la base de données Proteome HumanPSD [17]), la localisation des chromosomes, les domaines protéiques PFAM [18] et SMART [19]. En outre, la plupart de ces fichiers de données peuvent être mis à jour à partir de leurs sources Internet d'origine à tout moment en cliquant sur le bouton « Mettre à jour avec les données en ligne les plus récentes » (Figure 1). Le stockage de ces données dans des fichiers texte locaux délimités par des tabulations permet un accès rapide et élimine toute préoccupation concernant la transmission de résultats de recherche confidentiels sur Internet.

L'interface utilisateur EASE est conçue pour une annotation et une analyse rapides des listes de gènes. Les identifiants de gènes sont collés dans la section « INPUT GENES », et les processus de connexion aux outils en ligne, d'analyse de surreprésentation ou d'annotation sont lancés avec des boutons dans la section « EXPLORE ». Les données d'annotation peuvent être automatiquement récupérées sur Internet et stockées dans des fichiers de données locaux en cliquant sur le bouton « mettre à jour avec les données en ligne les plus récentes ».


Sciences Biologiques

Un diplôme en sciences biologiques est une passerelle vers tous les cheminements de carrière des sciences de la vie. Étudiez les sciences biologiques à l'Université de Roehampton pour explorer les développements actuels et acquérir une base solide dans cette discipline scientifique en développement rapide, axée sur l'étude de la vie et des êtres vivants.

Dans ce fascinant BSc, vous plongerez dans l'essence même de la vie et des organismes vivants, et découvrirez les aspects moléculaires, cellulaires et organismes essentiels à la compréhension de la biologie moderne.

Vous développerez vos compétences et votre compréhension dans toutes les disciplines biologiques, des aspects fondamentaux de la biologie animale et végétale en passant par la diversité et l'évolution de la vie, jusqu'aux développements de pointe dans les domaines de la biotechnologie, du changement climatique, de la résistance aux antimicrobiens et de l'écologie moléculaire.

Ce diplôme offre la possibilité de travailler dans nos laboratoires de pointe, de participer à des voyages sur le terrain au Royaume-Uni et à l'étranger et de mener votre propre projet de recherche. Nous proposons des modules passionnants tels que la chimie de la vie, où vous travaillerez en laboratoire pour étudier la structure, l'évolution et la biochimie de la zoologie comparative cellulaire, où vous découvrirez l'anatomie, la physiologie et le développement des vertébrés et le cerveau en santé et en maladie, où vous obtiendrez des informations précieuses sur la neurobiologie et les tout derniers développements de la recherche sur le cerveau.

Dans l'ensemble, vous acquerrez des compétences hautement transférables vous permettant de poursuivre des carrières dans les sciences de la vie et de la santé et au-delà.

Teneur

  • Commencez à explorer les domaines clés de la biologie, notamment la biologie cellulaire, l'écologie, l'évolution, ainsi que la diversité et les détails des principaux groupes d'animaux et de plantes.
  • Acquérir des connaissances en biochimie de base, en apprendre davantage sur la physiologie de notre propre corps et les comparer avec d'autres espèces. Développer des compétences analytiques pour évaluer les données de laboratoire et de terrain.
  • Concentrez-vous sur les domaines clés qui vous intéressent et choisissez parmi une large gamme de modules.
  • Les modules couvrent divers sujets tels que l'écologie, la biologie évolutive, le comportement animal, la biologie moléculaire, la physiologie et l'immunologie.
  • Le module Méthodes de recherche consiste à élaborer une proposition de recherche sur un sujet de votre choix.
  • Un cours résidentiel sur le terrain dans le Pays de Galles rural offre une immersion de six jours dans la collecte de données sur le terrain et en laboratoire.
  • Sélectionnez des modules avancés dans n'importe quel domaine de la biologie et spécialisez-vous davantage, par ex. Microbiologie médicale ou biologie aquatique et des invertébrés.
  • Un projet de recherche indépendant vous permettra de collecter des données fondamentales sur un sujet de votre choix, faisant ainsi progresser les connaissances actuelles dans ce domaine.
  • Choisissez d'assister à une excursion financée par des étudiants en Afrique du Sud.

Modules

Voici quelques exemples des différents modules que nous proposons actuellement :

Année 1

Année 2

Modules supplémentaires requis : Les étudiants doivent prendre un supplément 20-40 crédits de ces:
Zoologie comparée
Écologie et évolution

Circonstances particulières : Le module suivant n'est accessible aux étudiants que dans des circonstances particulières et avec l'accord préalable du responsable du programme :
Méthodes de travail de terrain en écologie

Année 3

Modules obligatoires et obligatoires
Les modules obligatoires et/ou requis peuvent changer lorsque nous révisons et mettons à jour les programmes. Vous trouverez ci-dessus une liste des modules proposés cette année académique.

Modules optionnels
Les modules optionnels, lorsqu'ils sont proposés dans le cadre d'un programme, peuvent varier d'une année à l'autre et sont soumis à la viabilité.

Année de stage

Ce cours offre à tous les étudiants la possibilité de postuler pour un stage rémunéré d'un an. Si vous réussissez à obtenir un stage, vous entreprendrez le stage après la deuxième année de votre programme et reviendrez après le stage pour terminer vos études.

Une année de stage est l'occasion idéale de mettre en œuvre les compétences et les connaissances que vous apprendrez au cours de la première et de la deuxième année, tout en acquérant une expérience de travail précieuse. La possibilité de nouer des liens dans l'industrie de votre choix améliorera considérablement vos perspectives de carrière et vous fournira les compétences et l'expérience dont vous avez besoin pour obtenir un emploi de deuxième cycle.

L'équipe University Careers and Placements vous aidera à développer votre CV et vos compétences à travers des webinaires, des ateliers et des rendez-vous 1-2-1. Vous bénéficierez également d'une communication régulière sur les opportunités disponibles pour faciliter votre recherche de placement.

Veuillez noter que bien que l'Université vous soutienne dans votre recherche de stage et vos candidatures, un stage ne peut être garanti.

Choix de carrière

Vous développerez des compétences très recherchées parfaites pour les carrières dans les entreprises de bio-ingénierie et de biotechnologie, l'industrie pharmaceutique et les conseils en environnement. Vous pouvez également poursuivre vos études au niveau post-universitaire.

Notre équipe carrières est à votre disposition pour vous accompagner du début de vos études jusqu'à la fin de vos études. Ils vous aideront à créer votre CV, à vous préparer à des entretiens, à rencontrer et à apprendre des diplômés qui réussissent au sommet de leur carrière. Vous avez également la possibilité de travailler avec nos partenaires à Londres et au-delà, et d'assister à un salon de l'emploi à Roehampton où vous pourrez découvrir les opportunités d'études supérieures et rencontrer des employeurs.

Recherche

En savoir plus sur le personnel enseignant de notre BSc en sciences biologiques et leurs intérêts de recherche ici :

Personnel académique

Dr Volker Behrends
Maître de conférences

Je m'appelle Volker et je suis l'organisateur des programmes de sciences biologiques et de zoologie. Je suis un microbiologiste avec un fort intérêt à la fois pour la biologie des infections et le métabolisme. Mon intérêt principal est les bogues que vous pouvez détecter en milieu hospitalier, découvrir comment ils exploitent et manipulent leur hôte et comment nous pouvons traiter ces infections en utilisant de nouvelles approches. Je suis à l'université depuis 2014 et je suis impliqué dans la plupart des enseignements de microbiologie au sein du Département des Sciences de la Vie, par exemple dans le module de 3ème année Microbiologie Médicale. J'aime beaucoup la façon dont les programmes de sciences de la vie de Roehampton combinent différentes perspectives. Selon le choix du module, les étudiants peuvent regarder comment les mammifères (humains inclus) perçoivent leur environnement et y réagissent au niveau neurologique, comportemental ou écologique.

Dr Andrea Perna
Maître de conférences

Je suis Andréa. Je suis maître de conférences en biologie et zoologie, mais j'aime aussi les matières à l'interface entre la biologie et d'autres disciplines : avant de rejoindre Roehampton j'ai travaillé dans un département de mathématiques (à l'Université d'Uppsala, en Suède), dans un département d'informatique ( à l'Université de Nantes, en France), et même dans un institut de recherche pour les énergies du futur (à Paris). Je suis très heureux d'avoir à Roehampton l'opportunité d'enseigner précisément ces matières que j'aime : j'organise le module de troisième année sur l'analyse de données biologiques et j'enseigne des sessions en écologie et biométrie. Sur la photo, vous me voyez étudier une termitière et comprendre comment de minuscules insectes se coordonnent pour construire de si grandes structures est l'une de mes passions de recherche.

Dr Maria Teresa Esposito
Maître de conférences

Je suis le Dr Maria Teresa Esposito. Je suis biologiste du cancer et mes recherches portent sur les mécanismes de résistance à la chimiothérapie des cellules leucémiques. J'ai rejoint Roehampton en 2017. J'adore travailler dans un petit département multidisciplinaire entouré de verdure ! J'aime aussi travailler avec les étudiants et les aider à réaliser leur potentiel. Mon module préféré à enseigner est la biologie cellulaire. J'aime enseigner ce module parce que j'aime les cellules et j'aime montrer aux étudiants comment les phénomènes microscopiques qui se produisent dans nos cellules affectent notre vie quotidienne, comment nous combattons un insecte ou un cancer ou comment nous avons faim.

Dr Robert Busch
Maître de conférences

Bonjour, je suis Robert. En tant que maître de conférences, j'enseigne toutes les années du programme de sciences biomédicales. En tant que plus petites unités autonomes de notre corps, les processus vitaux qui soutiennent les cellules et leur coopération mutuelle sont fondamentaux pour notre façon de survivre, de nous adapter et de souffrir de maladies. Ce sujet est donc une excellente introduction aux systèmes vivants. Ma recherche porte sur les mécanismes clés par lesquels les cellules immunitaires communiquent au sujet des agents infectieux pour renforcer les défenses immunitaires, et sur la façon dont les mêmes mécanismes se détraquent dans les maladies liées au système immunitaire. J'ai travaillé aux États-Unis et en Allemagne et j'ai commencé à Roehampton en 2013. J'aime l'échelle humaine de Roehampton, son engagement envers l'excellence de la recherche et l'enseignement inclusif, et son personnel amical. Les couchers de soleil sur Richmond Park, vus depuis les fenêtres arrière de Parkstead House à Whitelands, sont un joli bonus !


Il semble qu'il y ait trois questions ici :

La distribution réelle des cas est-elle gaussienne ? Non.

Les courbes sont-elles données dans le graphique gaussien ? Pas assez. Je pense que le rouge est un peu faussé, et le bleu est définitivement faussé.

Les tracés d'une valeur en fonction du temps peuvent-ils être considérés comme gaussiens ? Oui.

En mathématiques, une fonction gaussienne, souvent simplement appelée gaussienne, est une fonction de la forme $f(x) = ae^<-><2c^<2>> >>$ pour les constantes réelles arbitraires a, b et non nulles c.

Il n'est pas nécessaire qu'il s'agisse d'une distribution de probabilité.

Pas dans le sens d'un gaussien probabilité distribution : la courbe en cloche d'une distribution normale (gaussienne) est une histogramme (une carte de densité de probabilité par rapport aux valeurs d'une seule variable), mais les courbes que vous citez sont (comme vous le notez) une carte des valeurs d'une variable (nouveaux cas) par rapport à une deuxième variable (temps). (@Accumulation et @TobyBartels soulignent que les courbes gaussiennes sont des constructions mathématiques qui peuvent être sans rapport avec les distributions de probabilité étant donné que vous posez cette question sur les statistiques SE, j'ai supposé qu'aborder la gaussienne Distribution était une partie importante de la réponse à la question.)

Les valeurs possibles sous une distribution normale s'étendent de $-infty$ à $infty$ , mais un courbe épidémique ne peut pas avoir de valeurs négatives sur le oui axe, et se déplaçant assez loin à gauche ou à droite sur le X axe, vous serez à court de cas, soit parce que la maladie n'existe pas, soit parce que Homo sapiens n'existe pas.

Les distributions normales sont continues, mais les phénomènes de mesure des courbes épidémiques sont en fait discret non continus : ils représentent de nouveaux cas au cours de chaque unité de temps discrète. Bien que nous puissions subdiviser le temps en unités significatives plus petites (dans une certaine mesure), nous nous heurtons finalement au fait que les personnes atteintes de nouvelles infections sont des données de comptage (discrètes).

Les distributions normales sont symétriques par rapport à leur moyenne, mais malgré le dessin animé véhiculant un message de santé publique utile sur la nécessité d'aplatir la courbe, les courbes épidémiques réelles sont fréquemment asymétriques vers la droite, avec de longues queues fines comme indiqué ci-dessous.

Les distributions normales sont unimodales, mais les courbes épidémiques réelles peuvent comporter une ou plusieurs bosses (c'est-à-dire qu'elles peuvent être multimodales, elles peuvent même, comme dans la réponse de @SextusEmpiricus, être endémique où ils reviennent cycliquement).

Enfin, voici une courbe épidémique pour COVID-19 en Chine, vous pouvez voir que la courbe diverge généralement de la courbe de Gauss (bien sûr il y a des problèmes avec la fiabilité des données, étant donné que de nombreux cas n'ont pas été comptés) :


Résultats

Modèle PRW.

Le modèle PRW de la motilité cellulaire est dérivé d'une équation différentielle stochastique décrivant le mouvement d'une cellule automotrice où est le temps, est la vitesse de la cellule, est le temps persistant, est la vitesse de la cellule et est le vecteur aléatoire d'un processus de Wiener (23). Une caractéristique principale de ce modèle est que le MSD est donné par où est la dimension de l'espace extracellulaire (qui peut être 1D, 2D et 3D) (10, 17, 26, 27), et ?? est le décalage temporel entre les positions de la cellule.La fonction d'autocorrélation du vecteur de vitesse cellulaire pour le modèle PRW présente une seule décroissance exponentielle où est la diffusivité cellulaire. En 2D, la direction de la vitesse est décrite par un angle par rapport à un repère de laboratoire, ??. Le changement d'angle sur un petit intervalle de temps, , est une variable aléatoire donnée par une distribution uniforme avec un pic près de = 0. Typiquement, l'Eq. 2 est utilisé pour ajuster les données MSD mesurées. Les statistiques de et la dépendance temporelle de la fonction d'autocorrélation de la vitesse (Eq. 3) ne sont généralement pas examinés en détail.

Test rigoureux du modèle PRW de migration cellulaire.

À l'aide de la microscopie à cellules vivantes, nous avons mesuré les déplacements spontanés de cellules individuelles de fibrosarcome WT HT1080 humaines de faible densité - un modèle cellulaire largement utilisé dans les études de migration cellulaire - sur des substrats enduits de collagène 2D et à l'intérieur de matrices de collagène de 2 mg/mL dans l'absence de gradients directionnels de rupture de symétrie (chimiotactique, galvanotactique, durotactique, etc.). Le collagène de type I a été choisi car il est de loin la protéine la plus abondante de la matrice extracellulaire dans les tissus conjonctifs fibreux à partir desquels les tumeurs mésenchymateuses malignes sont dérivées et disséminées (6). Les mouvements cellulaires ont été enregistrés à une vitesse de 30 images/h pendant >8 h, correspondant à ∼2,5 décennies dans les échelles de temps (Fig. 1 UNE et B). Les trajectoires des cellules dans des conditions 2D et 3D ont facilement montré des motifs distincts (Fig. 1B). Les trajectoires de migration cellulaire en 3D présentaient une morphologie plus linéaire par rapport aux trajectoires de cellules en conditions 2D. Surtout, nous avons vérifié que la vitesse instantanée des cellules (distance moyenne parcourue toutes les 2 minutes) était indépendante du temps sur toute la période d'observation, ce qui indiquait que les cellules affichaient un comportement de motilité stable à la fois dans les cas 2D et 3D (Fig. 1 C et ). Les cellules ont affiché une vitesse significativement plus faible dans les matrices 3D que les cellules sur des substrats plats 2D à la fois à une courte échelle de temps (?? = 2 min) et une échelle de temps longue (?? = 60 minutes) (Fig. 1E). En conséquence, les TMS des cellules sur des substrats 2D étaient significativement plus élevés que ceux des cellules dans des matrices 3D à tout moment entre 2 min et 8 h, indiquant que la motilité cellulaire 2D est plus rapide que la motilité cellulaire 3D (Fig. 1F). A des échelles de temps courtes (?? < 1 h), les deux profils MSD en 2D et 3D affichent un exposant α > 1 (mesuré à partir d'un ajustement de MSD ∼ ?? ), indiquant que la motilité cellulaire était directionnelle (superdiffusive) (Fig. 1F).

Le modèle PRW de migration cellulaire sur des surfaces 2D par rapport à des matrices 3D. (UNE) Images en contraste de phase de cellules de fibrosarcome humain sur une boîte plate recouverte de collagène I (2D) et de cellules intégrées dans une matrice de collagène de 2 mg/mL (3D). (Barre d'échelle, 100 um.) Les cellules ont été suivies pendant 8 ou 16 h, et les trajectoires de ces cellules ont été superposées sur les micrographies initiales. (B) Trajectoires cellulaires sur des surfaces enduites de collagène 2D et à l'intérieur d'une matrice de collagène 3D (Supérieur) chaque couleur représente la trajectoire d'une cellule individuelle. Pour une meilleure comparaison visuelle, les trajectoires de 25 cellules sélectionnées au hasard dans les deux conditions (Inférieur) sont indiqués. (Barres d'échelle, 200 μm.) (C et ) Vitesse cellulaire moyenne de la population mesurée à une échelle de temps de ?? = 2 min à différents moments pendant la durée des expériences (8 h) en 2D (C) et des conditions 3D (). Ces données montrent que les changements possibles dans le microenvironnement (par exemple, les changements de densité cellulaire au cours des expériences) n'ont pas modifié la vitesse des cellules. (E) Vitesse de cellule évaluée avec un court délai (?? = 2 min) et un long décalage (?? = 60 min) dans les environnements 2D et 3D. Les cellules sur les boîtes 2D ont une vitesse significativement plus élevée que dans les gels de collagène (t test, P < 10 -3 ). Les barres d'erreur représentent SEM. (F) Déplacements carrés moyens (MSD) moyens de population des cellules sur des substrats 2D (courbe bleue) et dans la matrice 3D (courbe rouge). Les lignes pointillées vertes représentent les ajustements des TMS expérimentales moyennes de la population avec le modèle PRW conventionnel (R 2 = 1 Éq. 2). Les barres d'erreur représentent SEM. Soixante-quatre et 69 cellules ont été suivies respectivement en 2D et 3D. Les films duraient au moins 8 h, une image était capturée toutes les 2 min.

Le modèle PRW a été introduit il y a près de 30 ans et a été utilisé de manière ubiquitaire pour décrire et analyser la migration aléatoire de cellules sur des substrats (21 ⇓ ⇓ –24) et, plus récemment, la migration cellulaire dans des matrices 3D (25). Le MSD pour le modèle PRW est donné dans l'équation. 2. Si l'on inclut l'erreur d'observation dans les mesures, le MSD est alors donné par Ici, 4?? 2 est le bruit (erreur) dans la position de la cellule (Texte SI). Le modèle PRW offre un bon ajustement global aux TMS de cellules individuelles (R 2 valeur : 0,88-0,98) pour la migration 2D et 3D. Ce modèle semblait également décrire parfaitement les TMS cellulaires au niveau de la population cellulaire dans les environnements 2D et 3D (R 2 valeur : ∼1 Fig. 1F). Par conséquent, on pourrait conclure que le modèle PRW explique la migration cellulaire 2D et 3D.

Cependant, le modèle PRW a un certain nombre d'hypothèses sous-jacentes, telles qu'une distribution gaussienne de la vitesse à toutes les échelles de temps, une décroissance exponentielle pour la fonction de corrélation d'autocorrélation et des mouvements cellulaires isotropes. Il existe un défi pratique pour tester ces hypothèses pour des cellules individuelles : la résolution intrinsèquement limitée de la mesure de ces profils statistiques au niveau d'une seule cellule. En effet, la résolution est principalement déterminée par la taille de l'échantillon des vitesses de cellule mesurées, qui est naturellement restreinte par deux limites intrinsèques : (je) le taux d'échantillonnage et (ii) le temps d'observation. Le taux d'échantillonnage limité est dû au fait que la vitesse cellulaire devient difficile à définir clairement à des fréquences d'images élevées lorsque la migration cellulaire apparente est principalement due à des mouvements subcellulaires et à des changements irréguliers rapides de la morphologie cellulaire sans véritable translocation cellulaire. La période totale d'observation est également intrinsèquement limitée par le temps entre les divisions cellulaires, qui est ∼16-24 h pour les cellules HT-1080. Par conséquent, déterminer si la distribution des vitesses de cellule est gaussienne ou exponentielle pour une seule cellule est sujette à erreur. Par conséquent, au-delà des ajustements de TMS individuels, la validation complète du modèle PRW au niveau d'une seule cellule est intrinsèquement difficile.

Une solution alternative a été d'obtenir des caractéristiques statistiques de la motilité cellulaire à partir de profils moyens de population pour atteindre la résolution requise (19, 28, 29). L'hypothèse sous-jacente de cette méthode est que les cellules individuelles ont un comportement mobile tout aussi probable, une notion que nous testons rigoureusement dans cet article.

Différences statistiques fondamentales entre la migration 2D et 3D.

Une première implication de l'excellent ajustement entre les TMS mesurés et les TMS prédits par le modèle PRW (Fig. 1F) est que la fonction d'autocorrélation (ACF) de la vitesse cellulaire, à la fois dans les environnements 2D et 3D, devrait décroître comme une seule exponentielle avec un temps de relaxation égal au temps de persistance P. Nous avons constaté que la décroissance de l'ACF ne suivait pas une relaxation exponentielle unique. Les profils ACF ont plutôt suivi un processus en deux étapes caractérisé par deux échelles de temps caractéristiques. Pour la migration 2D, nous avons observé une diminution plus lente que prévu de l'ACF à de longues échelles de temps, > 30 min (Fig. 2UNE, courbe bleue). Un tel profil en deux étapes pour l'ACF a déjà été observé dans la migration 2D (29). La diminution plus lente que prévu de l'ACF était encore plus prononcée dans la motilité 3D (Fig. 2UNE, courbe rouge). A noter, ACF à un décalage d'une image n'a pas été adopté car il serait corrompu par le bruit d'observation (Fig. S1).

Fonctionnalités statistiques distinctes pour la migration cellulaire 2D et 3D. (UNE) Fonction d'autocorrélation (ACF) des vitesses mesurées avec un décalage de 2 minutes sur des substrats 2D (bleu) et dans des matrices 3D (rouge). La ligne pointillée grise indique un ACF exponentiel unique calculé à partir d'un ajustement à court terme de l'ACF expérimental à l'aide du modèle PRW. (B et C) Fonctions de densité de probabilité des déplacements cellulaires au 2- (B) et des décalages de 20 minutes (C), sur des substrats 2D (bleu) et dans des matrices 3D (rouge). ( et E) Distributions des déplacements angulaires (, voir la définition graphique dans Encart) évalués à des décalages allant de 2 à 40 min en 2D () et 3D (E). Le code couleur correspond à différents décalages temporels. (F) Pour mesurer les propriétés anisotropes des déplacements cellulaires, nous avons identifié l'axe primaire de migration cellulaire ( , définition graphique dans Encart) en utilisant la décomposition vectorielle singulière (SVD) des vitesses cellulaires individuelles et aligné le long de l'axe de migration primaire de la trajectoire cellulaire individuelle avec l'axe horizontal (voir Procédures expérimentales SI pour plus de détails). Les vitesses pour les migrations 2D (bleu) et 3D (rouge) à différentes orientations par rapport à l'axe de longitude des trajectoires cellulaires ( ) ont été calculées et visualisées dans un graphique polaire. Même ensemble de données primaires que dans la Fig. 1.

Une deuxième implication de la qualité des ajustements entre les TMS mesurés et les TMS prédits par le modèle PRW (Fig. 1F) est que la distribution des vitesses cellulaires doit suivre les statistiques gaussiennes. Au lieu de cela, les résultats moyens d'ensemble ont montré que les déplacements des cellules suivaient une distribution exponentielle à toutes les échelles de temps sondées (Fig. 2 B et C), non seulement dans le cas 2D (courbes bleues) comme précédemment observé (19, 29), mais aussi pour le cas 3D (courbes rouges). Surtout, nous avons constaté que cette distribution exponentielle de la vitesse cellulaire était indépendante de la méthode de suivi des mouvements cellulaires (Texte SI et la figure S2).

Une troisième implication des excellents ajustements entre les TMS mesurés et prédits (Fig. 1F) est que la distribution angulaire des mouvements cellulaires devrait s'aplatir avec le temps. Nous avons mesuré les déplacements angulaires pendant la migration cellulaire et calculé leur distribution (Fig. 2). Nous avons constaté que la distribution en à différentes échelles de temps en 3D ont montré des profils fondamentalement différents de ceux en 2D. Pour la motilité 2D, la distribution en était élevée à de petits angles, correspondant à des cellules se déplaçant de manière persistante à de courtes échelles de temps, devenant une distribution uniforme à de longues échelles de temps. Ce résultat est prédit par le modèle PRW conventionnel (Texte SI). Cependant, la forte probabilité d'observer de petites les valeurs observées lors de la motilité 3D à des échelles de temps courtes n'ont pas disparu avec le temps (Fig. 2E). Au lieu de l'aplatissement attendu de la distribution des angles entre les mouvements des cellules au cours du temps, la probabilité d'observer de grands déplacements angulaires a progressivement augmenté autour de 180°, correspondant à des cellules se déplaçant exactement dans le sens inverse de celui des mouvements séparés par de longs décalages temporels. Ce résultat indique que la probabilité d'observer des cellules se déplaçant de nouveau dans les pistes de type tunnel 1D dans la matrice 3D formée par les cellules lors de leur exploration initiale de la matrice a augmenté à de longues échelles de temps.

Sur la base de ce résultat, nous avons étudié si l'amplitude de la vitesse était spatialement anisotrope. Tout d'abord, nous avons identifié puis réaligné la direction principale de migration ( ) des cellules individuelles à l'aide de la méthode de décomposition en vecteurs singuliers (SVD Fig. 2F, Encart). pour chaque cellule est une estimation de la direction primaire de migration égale à l'axe principal de toutes les vitesses instantanées de cette cellule. Nous avons mesuré l'amplitude de la vitesse (avec un décalage de 2 minutes) à différentes orientations par rapport à . Cette analyse a indiqué que les cellules de la matrice 3D affichaient une vitesse plus élevée le long de leur axe de migration principal, qui comprend à la fois et − , par rapport à la vitesse le long de la direction de migration perpendiculaire à (Fig. 2F et Fig. S3). En somme, lorsqu'ils sont analysés à travers leurs profils MSD individuels ou moyennés par ensemble, les modèles de motilité cellulaire en 2D et 3D semblent être quantitativement différents, mais qualitativement similaires. Cependant, de bons ajustements des TMS constituent un test faible pour les modèles de migration cellulaire et une analyse statistique complète révèle plutôt que les modèles de motilité cellulaire dans les environnements 2D et 3D sont qualitativement différents. Les cellules migrant dans une matrice 3D affichent des distributions de déplacement angulaire qualitativement différentes de leurs homologues 2D et, contrairement à la migration 2D, affichent une vitesse anisotrope.

L'hétérogénéité cellulaire seule explique la distribution de vitesse non gaussienne en 2D.

L'accumulation de preuves suggère une forte corrélation entre l'hétérogénéité phénotypique cellulaire et les résultats cliniques, en particulier dans le cancer. Nous avons émis l'hypothèse que la nature non gaussienne de la distribution des vitesses pourrait provenir de l'hétérogénéité cellulaire. Par conséquent, nous avons évalué le degré d'hétérogénéité migratoire dans les environnements 2D et 3D. Ici, nous avons constaté que, malgré l'environnement homogène des substrats 2D, les cellules HT-1080 individuelles affichaient déjà des profils de motilité significativement différents les uns des autres. Un test ANOVA unidirectionnel des vitesses de différentes paires de cellules individuelles évaluées avec un décalage de 2 min a montré que plus de 50 % des cellules appariées avaient des vitesses moyennes différentes avec P < 0.05 (Fig. S4UNE). Des résultats similaires ont été obtenus pour la motilité cellulaire dans les matrices 3D (Fig. S4B).

Nous avons d'abord décrit la motilité des cellules individuelles à l'aide du modèle PRW en simulant les trajectoires cellulaires à l'aide de valeurs appariées mesurées expérimentalement de temps persistant. P et vitesse S pour chaque cellule individuelle (Fig. 3B voir les détails sur les simulations dans Procédures expérimentales SI). Par souci de comparaison, nous avons également simulé des trajectoires cellulaires en utilisant le même P et S dérivées des TMS moyennés par la population pour modéliser les trajectoires (Fig. 3UNE). TMS moyenne d'ensemble (Fig. 3C), ACF (Fig. 3), les distributions de vitesse (Fig. 3E), et des cartes anisotropes (Fig. 3F) de ces deux ensembles de trajectoires simulées ont ensuite été calculés et comparés. Bien que les profils MSD prédits par les deux approches étaient en bon accord avec les résultats expérimentaux (Fig. 3C), les ACF obtenus à partir du modèle PRW qui incluaient une distribution unicellulaire ont fourni de meilleurs ajustements lors de l'inclusion de l'hétérogénéité cellulaire (Fig. 3 E et ). Remarquablement, lors de l'intégration de l'hétérogénéité cellulaire, le modèle PRW a correctement prédit la distribution exponentielle des vitesses cellulaires (Fig. 3E). Les deux approches ont également correctement prédit les distributions des déplacements angulaires (Fig. 3 g et H).

L'hétérogénéité cellulaire explique la distribution exponentielle des vitesses dans la migration 2D. (UNE et B) Trajectoires cellulaires sur substrats 2D simulées à l'aide du modèle PRW basé sur P et S valeurs obtenues à partir du profil MSD moyenné dans la population (UNE) ou basé sur P et S valeurs obtenues à partir des MSD de cellules individuelles (B). (Barre d'échelle, 200 m.) (C) MSD moyennés dans la population des trajectoires simulées à l'aide de ces deux modèles. Le modèle PRW ajusté à partir du MSD moyenné par l'ensemble (vert) et le modèle PRW ajusté à partir des MSD de cellules individuelles (orange) décrivent tous deux bien les données MSD expérimentales (bleu). () L'ACF obtenu à partir du modèle PRW lors de l'inclusion d'informations sur une seule cellule (orange) se rapproche mieux des données expérimentales (bleu) que le modèle PRW dérivé de la MSD moyenne d'ensemble (vert). (E) Distributions des déplacements cellulaires pour les deux modèles. Le modèle PRW lorsqu'il inclut des informations sur une seule cellule, mais pas le modèle PRW utilisant un MSD moyenné par ensemble, prédit qualitativement et quantitativement la distribution exponentielle de l'histogramme expérimental de déplacement cellulaire. (F) Profils de magnitude de vitesse en fonction des orientations pour ces deux modèles. (G et H) Distributions des déplacements angulaires à l'aide du modèle PRW basé sur les MSD moyennes d'ensemble (g) et le PRW basé sur les MSD de cellules individuelles (H). Le code couleur correspond à différents décalages temporels (Encart dans H). Même ensemble de données primaires que dans la Fig. 1.

Ensemble, nos résultats indiquent que le modèle PRW simple, lorsqu'il inclut l'hétérogénéité cellulaire, capture les caractéristiques statistiques essentielles de la migration cellulaire, au moins sur des substrats 2D. En revanche, la migration 3D utilisant le modèle PRW, même en incorporant l'hétérogénéité cellulaire, a donné des trajectoires et des caractéristiques statistiques associées qui étaient qualitativement distinctes des résultats expérimentaux (Fig. 4 UNE et E–H). Ce résultat suggère que, contrairement au cas 2D, le modèle PRW, même en incluant l'hétérogénéité cellulaire, n'explique pas qualitativement ou quantitativement la migration cellulaire dans la matrice 3D.

Modèles de migration cellulaire anisotrope dans les matrices 3D et le modèle APRW. (UNE et B) Trajectoires cellulaires dans des matrices 3D simulées à l'aide du modèle PRW (UNE) et le modèle APRW (B), qui incluent ici toutes deux des informations sur une seule cellule (voir Procédures expérimentales SI pour plus de détails). (Barre d'échelle, 200 m.) (C) Profils MSD calculés à partir de trajectoires simulées à l'aide des modèles PRW (orange) et APRW (gris). Les deux modèles décrivent bien les TMS observés expérimentalement dans les matrices 3D. () ACF des vitesses cellulaires dérivées du modèle PRW (orange) et du modèle APRW (gris). Le modèle APRW se rapproche mieux des données expérimentales ACF que le modèle PRW. (E) Distributions de déplacements pour les modèles PRW (orange) et APRW (gris). Les deux modèles prédisent correctement la distribution exponentielle des déplacements, mais le modèle APRW fournit un meilleur ajustement, en particulier pour les grands déplacements, avec un décalage de 20 min. (F) Profils de magnitude de vitesse à différentes orientations pour ces deux modèles. Le modèle PRW ne caractérise pas l'aspect anisotrope de la vitesse observé expérimentalement. (g et H) Distributions des déplacements angulaires pour le PRW (g) et APRW (H) des modèles. Le modèle APRW décrit qualitativement et quantitativement les résultats expérimentaux, y compris l'apparition croissante de déplacements proches de 180° avec des décalages temporels plus importants. Même ensemble de données primaires que dans la Fig. 1.

Le modèle PRW anisotrope décrit entièrement la migration 3D.

Dans le modèle PRW conventionnel, la vitesse des cellules est supposée être spatialement isotrope. Cependant, une caractéristique importante de la migration cellulaire 3D est son profil de vitesse hautement anisotrope (Fig. 1B). L'analyse SVD des vitesses cellulaires a identifié les directions de migration primaires et non primaires (Fig. 2F). Nous avons extrait les TMS et les ACF de cellules individuelles le long de ces deux directions et avons constaté que la migration cellulaire est un processus auto-corrélatif et que les TMS dans chaque direction sont bien décrits par le modèle PRW (Fig. S3 et Procédures expérimentales SI).Par conséquent, nous avons étendu le modèle PRW au modèle PRW anisotrope (APRW), qui intègre différents temps et vitesses persistants dans le primaire (Pp, Sp) et non primaire (Pnp, Snp) directions de migration et a constaté que dans ces différentes directions, les cellules suivaient les statistiques PRW. Les valeurs R 2 dérivées de l'ajustement des modèles APRW dans les directions de migration primaire et non primaire étaient >0.95, ce qui suggère que le modèle APRW décrit la migration 3D.

Pour tester le modèle APRW, nous avons simulé des trajectoires de migration cellulaire en 3D avec des valeurs unicellulaires mesurées expérimentalement de P et S (Fig. 4 UNE et B et Procédures expérimentales SI). Les profils MSD obtenus à partir du modèle PRW, qui ne reconnaît pas l'anisotropie, et du modèle APRW qui reconnaît l'anisotropie, correspondaient tous deux bien aux MSD expérimentaux (Fig. 4C). Cependant, nous savons déjà qu'un bon ajustement des TMS est un test faible des modèles de migration cellulaire (Fig. 1). La décroissance en deux étapes de l'ACF et la distribution de vitesse exponentielle ont été qualitativement et quantitativement mieux prédites par le modèle APRW que le modèle PRW (Fig. 4 et E). De plus, les profils de vitesse anisotropes observés et les distributions des déplacements angulaires, qui étaient anticipés de manière inexacte par le modèle PRW, ont été correctement prédits par le modèle APRW (Fig. 4 F–H). Ensemble, nos résultats indiquent que le modèle APRW décrit avec succès les modèles de motilité hétérogènes et anisotropes des cellules migratrices dans la matrice 3D.

Motifs diffusifs et effets de la densité de collagène.

Nous avons démontré que le modèle APRW caractérise correctement la motilité cellulaire dans la matrice 3D à une concentration fixe de collagène I. En tant que test plus complet du modèle APRW, nous avons ensuite étudié comment les caractéristiques statistiques de la migration cellulaire 3D étaient modulées par les changements de densité de collagène (Fig. 5). Les MSD, les distributions de déplacement, les fonctions d'autocorrélation et la distribution angulaire ont été bien ajustés sur une large gamme de densité de collagène avec le modèle APRW de migration 3D (Fig. 5UNE et la figure S5). Nous notons la grande amélioration des ajustements des profils anisotropes des distributions de vitesse et de déplacement angulaire par rapport au modèle PRW et au modèle PRW qui prend en compte l'hétérogénéité cellulaire.

Le modèle APRW caractérise la migration cellulaire 3D à différentes densités de collagène. Les profils de migration cellulaire dans des matrices de différentes concentrations de collagène ont été analysés à l'aide du modèle APRW, qui intègre l'hétérogénéité cellulaire. (UNE) La qualité du modèle correspond à la motilité cellulaire HT1080 dans des matrices de densité de collagène de 1, 1,5, 2, 4 et 6 mg/mL. La qualité de l'ajustement a été notée par la racine carrée de l'erreur quadratique moyenne (RMSE) et a été normalisée par la valeur RMSE du modèle PRW dérivée des MSD moyennes d'ensemble. PDF(v) et PDF() sont les fonctions de densité de probabilité de la vitesse v et le déplacement angulaire , respectivement, évalué à 2 et 20 min, et v(??) est l'amplitude de la vitesse à différents angles. (B–F) Valeurs moyennes du temps de persistance le long de l'axe principal de migration (B), le temps de persistance le long de l'axe de migration non primaire (C), diffusivité cellulaire le long de l'axe primaire de migration (), diffusivité cellulaire globale (E) et l'indice anisotrope (F) de cellules HT1080 dans des matrices de concentration croissante de collagène. Les barres d'erreur représentent SEM. Au moins 60 cellules ont été suivies pendant 16 h toutes les 2 min pour chaque concentration de collagène.

Les cellules d'une matrice de collagène I 3D se sont déplacées de manière plus persistante à une concentration de 1 mg/mL, le temps de persistance moyen le long de la direction de migration primaire diminuait avec l'augmentation de la densité de collagène (Fig. 5 B et C). La migration cellulaire dans des matrices de collagène à 1 mg/mL a également montré la plus forte diffusivité, mesurée par tot = ∼ MSDlongue fois/4??: la diffusivité cellulaire moyenne a diminué de façon monotone avec la concentration de collagène avant de plafonner à 4 mg/mL (Fig. 5 et E). Le rapport des diffusivités le long des directions de migration primaire et non primaire (que nous appelons l'indice anisotrope ??) dépendait également de la concentration de collagène (Fig. 5F). En somme, ces résultats montrent que les valeurs moyennes des descripteurs de la migration cellulaire 3D, y compris le temps de persistance, la diffusivité et l'indice anisotrope, sont étroitement régulées par la densité de collagène et que le modèle APRW décrit bien la migration 3D sur une large gamme de concentrations de collagène.

Motifs de diffusion cellulaire et stratégies de recherche en 3D.

Nous avons ensuite identifié des relations fonctionnelles entre les différents descripteurs de la migration cellulaire 3D grâce à une analyse corrélative systématique. Nous avons constaté que certains de ces descripteurs de la motilité cellulaire étaient corrélés les uns aux autres. Par exemple, le temps de persistance et la diffusivité étaient fortement corrélés pour les motilités cellulaires dans des matrices de 1 et 4 mg/mL avec des coefficients de corrélation de 0,81 et 0,70, respectivement (Fig. 6UNE). Le degré d'interdépendance entre les cinq principaux descripteurs de la motilité, y compris la diffusivité totale (tot), le temps de persistance et la diffusivité le long de l'axe primaire (Pp et p), axe de migration non primaire (Pnp et np), l'indice anisotrope ?? et leurs profils de corrélation mutuelle, ont été évalués à l'aide de cartes thermiques (Fig. 6B) et des schémas de réseau de corrélation (Fig. 6C) en fonction de la densité de collagène.

Corrélation entre vitesse et persistance au niveau unicellulaire. (UNE) Le temps de persistance et la diffusivité le long de l'axe de migration primaire de la migration des cellules individuelles sont corrélés pour la motilité cellulaire 3D dans 1 (La gauche) et 4 mg/mL de matrices de collagène I (Droit). ?? est le coefficient de corrélation de Spearman. (B) Les cartes thermiques montrent des coefficients de corrélation entre différents descripteurs de motilité cellulaire au niveau d'une cellule unique pour la migration cellulaire 3D dans des matrices de collagène de concentration différente. Ces descripteurs de motilité pour les cellules individuelles ont été obtenus en utilisant le modèle APRW incorporant l'hétérogénéité cellulaire. Le code couleur correspond à différentes valeurs du coefficient de corrélation de Spearman. (C) Graphiques en réseau montrant des cartes corrélatives parmi la diffusivité cellulaire globale et d'autres descripteurs de la migration cellulaire au niveau d'une seule cellule dans des matrices de concentration croissante de collagène. Les paramètres appariés avec un coefficient de corrélation entre 0,5-0,6, 0,6-0,8 et >0,8 sont liés respectivement par des lignes claires fines, claires épaisses et gris foncé épaisses. Une corrélation négative est représentée par une fine ligne brune. La topologie du réseau a changé avec l'augmentation de la densité de collagène. Même ensemble de données primaires que dans la figure 5.

Certaines corrélations attendues entre les descripteurs de migration ont été observées, telles que la forte corrélation entre la diffusivité totale et la diffusivité primaire ou non primaire (par exemple, voir les lignes épaisses entre tot et p et, dans une moindre mesure, entre tot et np Figure 6C), car la diffusivité totale est une combinaison pondérée des deux. Ceux-ci constituent des témoins positifs. Cependant, notre analyse a révélé une forte dépendance entre les variables indépendantes a priori, dont le temps de persistance et la diffusivité le long de l'axe principal de migration (Pp et p Figure 6C) et une forte association entre la diffusivité primaire et la diffusivité non primaire (p et np Figure 6C) dans un large éventail de conditions.

Ces résultats suggèrent l'existence de contraintes sous-jacentes à la migration cellulaire définies par des voies moléculaires robustes communes qui régulent la motilité cellulaire 3D, indépendamment des changements de densité de collagène. De plus, comme le temps et la vitesse persistants sont corrélés dans un large éventail de conditions, ils ne sont pas contrôlés par des processus purement stochastiques. Nous avons également trouvé que la relation de l'indice anisotrope ?? avec d'autres descripteurs de migration (c'est-à-dire la connectivité élevée du point bleu avec d'autres points dans le réseau hexagonal Fig. 6C) a changé qualitativement avec la concentration de collagène. En effet, l'indice anisotrope était négativement corrélé avec la diffusivité le long de l'axe mineur de migration à la condition de 1 mg/mL alors qu'il était fortement corrélé positivement avec la diffusivité totale à 6 mg/mL. collagène sont mécaniquement distincts. Collectivement, ces analyses indiquent que les stratégies d'exploration de la matrice par les cellules sont étroitement régulées par la densité de collagène.


Résultats

Les isoprénoïdes remplissent de nombreuses fonctions biochimiques chez les plantes : par exemple, en tant que composants des membranes (stérols), en tant que pigments photosynthétiques (caroténoïdes et chlorophylles) et en tant qu'hormones (gibbérellines). Les isoprénoïdes sont synthétisés par condensation des intermédiaires à cinq carbones isopentényl diphosphate (IPP) et diméthylallyl diphosphate (DMAPP). Chez les plantes supérieures, il existe deux voies distinctes pour la formation de l'IPP et du DMAPP, l'une dans le cytosol et l'autre dans le chloroplaste. La voie cytosolique, souvent décrite comme la voie du mévalonate ou du MVA, part de l'acétyl-CoA pour former l'IPP via plusieurs étapes, dont le mévalonate intermédiaire (MVA). En revanche, la voie plastidiale (non mévalonate ou MEP) implique la condensation du pyruvate et du glycéraldéhyde 3-phosphate via plusieurs intermédiaires pour former l'IPP et le DMAPP. Alors que la voie MVA est responsable de la synthèse des stérols, des sesquiterpènes et de la chaîne latérale de l'ubiquinone, la voie MEP est utilisée pour la synthèse des isoprènes, des caroténoïdes et des chaînes latérales de la chlorophylle et de la plastoquinone. Bien que les deux voies fonctionnent indépendamment dans des conditions normales, une interaction entre elles a été rapportée à plusieurs reprises [16, 17].

Le flux réduit à travers la voie MVA après traitement par la lovastatine peut être partiellement compensé par la voie MEP. Cependant, l'inhibition de la voie MEP dans les semis conduit à des niveaux réduits de caroténoïdes et de chlorophylles, indiquant un transport principalement unidirectionnel des intermédiaires isoprénoïdes du chloroplaste au cytosol [16, 18], bien que certains rapports indiquent qu'une importation d'intermédiaires isoprénoïdes dans le chloroplaste a également lieu [19-21].

Application du GGM standard aux voies isoprénoïdes dans Arabidopsis thaliana

Pour mieux comprendre les interactions entre les deux voies au niveau transcriptionnel, les modèles d'expression génique ont été surveillés dans diverses conditions expérimentales à l'aide de 118 puces à ADN GeneChip (Affymetrix) (voir les fichiers de données supplémentaires 1 et 2). Pour construire le réseau de régulation génétique, nous nous sommes concentrés sur 40 gènes, dont 16 étaient affectés à la voie cytosolique, 19 à la voie plastidale et cinq codent pour des protéines situées dans la mitochondrie. Ces 40 gènes comprennent non seulement des gènes de fonction connue mais également des gènes dont les protéines codées présentent une homologie considérable avec des protéines de fonction connue. Pour référence, nous adoptons la notation de [22] (voir tableau 1).

Le réseau d'interaction génétique entre ces gènes a d'abord été construit à l'aide de GGM avec sélection en amont selon le critère d'information bayésien (BIC) [23]. Ceci a été réalisé avec le programme MIM 3.1 [24] (voir Matériels et méthodes pour plus de détails). Le réseau obtenu avait 178 (sur 780) arêtes - trop pour distinguer les structures biologiquement pertinentes. Par conséquent, un rééchantillonnage bootstrap a été appliqué pour déterminer la confiance statistique des bords dans le modèle (figure 1b). Pour les probabilités d'arêtes bootstrap, seul un niveau de coupure aussi élevé que 0,8 a conduit à un nombre raisonnablement faible d'arêtes sélectionnées (31 arêtes, figure 2). Cependant, une comparaison entre les probabilités bootstrap-edge et les coefficients de corrélation par paires a suggéré que pour un niveau de coupure aussi élevé, de nombreux vrais bords peuvent être manqués. Par exemple, le gène AACT2 semble être complètement indépendant de tous les gènes du modèle bien qu'il soit fortement corrélé avec MK, MPDC1 et FPPS2 (voir le fichier de données supplémentaires 4 pour les modèles de corrélation).

GGM bootstrap de la voie des isoprénoïdes. (une) Comparaison entre les coefficients de corrélation absolus par paire et la présence d'arêtes. Les points à 0 et 1 indiquent respectivement les bords absents et présents. (b) Histogramme des probabilités de bord bootstrap. (c) Comparaison entre les coefficients de corrélation absolus par paire et les probabilités de contour bootstrap pour les 780 contours possibles.

GGM bootstrap de la voie des isoprénoïdes avec une coupure à 0,8. Les bords pleins non orientés reliant les gènes individuels (dans les cases) représentent le GGM. Les bords pointillés marquent le réseau métabolique et ne font pas partie du GGM. L'ombrage gris indique les liens métaboliques avec les voies en aval.

Ce phénomène avait déjà été observé dans une étude de simulation de Friedman et al. [25] et peut être lié à l'apparition étonnamment fréquente d'arêtes avec un faible coefficient de corrélation absolu par paire mais une estimation de bootstrap élevée (Figure 1c). Bien qu'il n'y ait pas d'explication concise pour ce modèle, une conjecture serait que le conditionnement simultané sur de nombreuses variables introduit de nombreux bords parasites avec peu de corrélation absolue par paire mais une corrélation partielle absolue élevée dans le modèle. Notre modification pour les GGM est d'améliorer cet inconvénient.

Application de nos approches GGM modifiées

Comme décrit plus en détail dans Matériaux et méthodes, notre approche vise à modéliser les dépendances entre deux gènes en prenant en compte séparément l'effet des autres gènes. Dans l'espoir d'identifier une co-régulation directe entre les gènes, une frontière est tracée entre deux gènes je et j lorsque leur corrélation par paires n'est pas l'effet d'un troisième gène. Chaque bord a donc une interprétation claire.

Nous avons développé deux versions de notre méthode : une approche fréquentiste dans laquelle chaque arête est testée pour la présence ou l'absence et une approche de vraisemblance avec des paramètres ?? je, qui décrivent la probabilité d'une arête entre je et j dans un graphe aléatoire latent. L'un des principaux avantages de la deuxième version par rapport aux modèles graphiques complets est que l'on peut facilement tester à grande échelle dans quelle mesure des gènes supplémentaires peuvent être incorporés dans le réseau. Cela permet la sélection de gènes candidats supplémentaires pour le réseau de manière rapide et efficace.

Nous avons appliqué et testé nos approches GGM modifiées en construisant un réseau régulateur des 40 gènes dans les voies isoprénoïdes dans A. thaliana et en y attachant 795 gènes supplémentaires provenant de 56 autres voies métaboliques. La figure 3 montre le modèle de réseau obtenu à partir de l'approche GGM modifiée fréquentiste. Parce que nous trouvons un module avec des gènes fortement interconnectés dans chacune des deux voies, nous divisons le graphe en deux sous-graphes, chacun affichant le sous-réseau d'un module et ses voisins. Notre découverte fournit un autre exemple que dans une voie de nombreux gènes consécutifs ou étroitement positionnés sont potentiellement régulés conjointement [26].

Dépendances entre les gènes des voies isoprénoïdes selon la méthode GGM modifiée fréquentiste. (une) Sous-graphe du module génique dans la voie MEP (b) sous-graphe du module génique dans la voie MVA. Pour une explication de ce que les bords et l'ombrage indiquent, voir la légende de la figure 2.

Dans la voie MEP, les gènes DXR, TCM, CMK et MECPS sont presque entièrement connectés (panneau supérieur de la figure 3). De ce groupe de gènes, il y a quelques bords aux gènes dans la voie MVA. Parmi ces gènes, AACT1 et HMGR1 forment des candidats pour la diaphonie entre le MEP et la voie MVA car ils n'ont plus de connexion avec la voie MVA. Leur corrélation avec DXR, TCM, CMK et MECPS est toujours négatif.

De même, les gènes AACT2, HMGS, HMGR2, MK, MPDC1, FPPS1 et FPPS2 partagent de nombreux bords dans la voie MVA (panneau inférieur de la figure 3). Le sous-groupe AACT2, MK, MPDC1 et FPPS2 est complètement interconnecté. À partir de ces gènes, nous trouvons des limites à IPPI1 et GGPPS12 dans le parcours MEP. Tandis que IPPI1 est positivement corrélé avec AACT2, MK, MPDC1 et FPPS2, GGPPS12 affiche une corrélation négative avec les quatre gènes.

Contrairement au modèle graphique conventionnel, nous pouvions maintenant identifier le lien entre AACT2 et MK, MPDC1 et FPPS2. En général, nous avons trouvé un meilleur accord entre la corrélation absolue par paires et les arêtes sélectionnées (approche fréquentiste) ou les paramètres de probabilité ?? (approche de graphe aléatoire latent). Les figures 4a et 4b montrent les arêtes sélectionnées et ??-valeurs en fonction de la corrélation absolue par paires.

Comparaison des coefficients de corrélation absolus par paire et des approches GGM modifiées. (une) Arêtes sélectionnées dans l'approche GGM modifiée fréquentiste (0 et 1 désignent respectivement les arêtes absentes et présentes). (b) ??-valeurs dans l'approche du graphe aléatoire latent. (c) ??-valeurs après avoir attaché 795 gènes d'autres voies.

Attacher des gènes de voie supplémentaires au réseau

Après la construction du réseau génétique des isoprénoïdes, 795 gènes supplémentaires provenant de 56 voies métaboliques ont été incorporés. Parmi ceux-ci se trouvaient des gènes des voies en aval des deux voies de biosynthèse des isoprénoïdes, telles que la biosynthèse des phytostérols, le métabolisme des mono- et diterpènes, le métabolisme des porphyrines/chlorophylles, la biosynthèse des caroténoïdes, la biosynthèse des plastoquinones par exemple. En utilisant la deuxième version de notre méthode, c'est-à-dire l'approche du graphe aléatoire latent, nous avons comparé ??-valeurs pour toutes les paires de gènes du réseau avec et sans attachement de ces gènes supplémentaires (Figure 4b et 4c). Comme prévu, les paramètres ?? pour les probabilités de bord diminué si des gènes supplémentaires ont été inclus dans le réseau isoprénoïde (voir Matériaux et méthodes). Après addition, si pour une paire de gènes je, j, ?? jediminué de plus de 0,3, on a supposé que la dépendance entre je et j pourrait être « expliqué » par certains des gènes supplémentaires.

Pour trouver ces gènes parmi tous les candidats testés en plus k, GGM avec des gènes je, j et k ont été formés. Un gène k a été considéré comme expliquant la dépendance entre je et j lorsqu'un bord entre je et j n'était pas pris en charge dans le GGM, c'est-à-dire lorsque l'hypothèse nulle ??je|k= 0 a été accepté dans le test du rapport de vraisemblance correspondant. k a ensuite été pris pour « bien s'attacher » à la paire de gènes je, j.

Ainsi, pour chaque paire de gènes je, j dont le paramètre ?? jediminué de plus de 0,3, nous avons obtenu une liste de gènes bien attachés. Les gènes apparaissant de manière significativement fréquente dans ces listes de gènes bien attachés étaient supposés bien se connecter au réseau génétique complet. Nous avons testé la significativité par randomisation : pour chaque paire de gènes je, j, une liste randomisée de gènes bien attachés a été formée avec la même taille que la liste de gènes d'origine. Pour explorer quelles voies s'attachent de manière significative aux voies MVA et MEP, la portion de gènes de chacune des 56 voies a été additionnée sur toutes les paires de gènes je, j. Ces sommes ont ensuite été comparées pour les gènes attachés à l'origine et les sommes des gènes attachés au hasard dans 100 ensembles de données.

Le tableau 2 montre les voies dont les gènes se sont avérés s'attacher de manière significativement fréquente à la voie MVA, à la voie MEP ou aux deux voies. Fait intéressant, parmi les 56 voies métaboliques considérées, nous constatons principalement que les gènes des voies en aval s'intègrent bien dans le réseau isoprénoïde. Ces résultats suggèrent un lien régulateur étroit entre les gènes de biosynthèse des isoprénoïdes et les groupes de gènes en aval. D'une part, nous trouvons des connexions fortes entre la voie MEP et les voies plastoquinone, caroténoïde et chlorophylle (soutenu expérimentalement par [15, 16, 27]). D'autre part, les voies de biosynthèse de la plastoquinone et des phytostérols semblent être étroitement liées au réseau génétique de la voie MVA.

Au niveau métabolique, nos résultats sont corroborés par des expériences de marquage antérieures utilisant du glucose [1-13 C], qui ont révélé que les stérols étaient formés via la voie MVA, tandis que les isoprénoïdes plastidiques (β-carotène, lutéine, phytol et plastoquinone-9) étaient synthétisé en utilisant des intermédiaires de la voie MEP [27]. De plus, l'incorporation de [1- 13 C]- et [2,3,4,5- 13 C4]1-désoxy-D-xylulose en β-carotène, lutéine et phytol a indiqué que les voies de biosynthèse des caroténoïdes et de la chlorophylle procèdent d'intermédiaires obtenus via la voie MEP [28].

En revanche, une connexion étroite entre les voies MVA et MEP n'a pas pu être détectée. Cela suggère que la diaphonie au niveau transcriptionnel peut être restreinte à des gènes uniques dans les deux voies.

Dans une autre étape d'analyse, nous avons examiné les paires de gènes auxquelles les quatre voies identifiées (plastoquinone, caroténoïde, chlorophylle et phytostérols) sont attachées. Les gènes de la voie de la plastoquinone étaient principalement liés aux gènes DXR, TCM, CMK, GGPPS11, GGPPS12, AACT1, HMGR1 et FPPS1, soutenant l'hypothèse que AACT1 et HMGR1 sont impliqués dans la communication entre les voies MEP et MVA.

Gènes de la voie des caroténoïdes attachés à DXPS2, HDS, HDR, GGPPS11, DPPS2 et PPDS2, alors que la biosynthèse de la chlorophylle semble être liée à DXPS2, DXPS3, DXR, CMK, TCM, HDS, HDR, GGPPS11 et GGPPS12. Les gènes de la voie des phytostérols s'attachent à FPPS1, HMGS, DPPS2, PPDS1 et PPDS2.

L'incorporation de 795 gènes supplémentaires dans le réseau génétique des isoprénoïdes n'aurait pas été possible avec les GGM standard car le modèle graphique aurait dû être nouvellement ajusté pour chaque gène supplémentaire. En outre, le regroupement hiérarchique n'aurait pas été un outil approprié pour détecter les similitudes dans les modèles de corrélation entre les deux métabolismes isoprénoïdes et leurs voies en aval. La figure 5 montre le regroupement hiérarchique des 40 gènes isoprénoïdes et 795 gènes de voies supplémentaires sur la base de la mesure de distance 1 - |?? je|, où ?? jedésigne la corrélation par paires entre les gènes je et j.

Regroupement hiérarchique de 40 gènes impliqués dans la voie des isoprénoïdes et de 795 gènes d'autres voies. Le clustering est représenté sous la forme d'une carte thermique, dans laquelle le rouge et le vert représentent respectivement les valeurs d'expression élevées et faibles. Les lignes représentent les gènes et les colonnes représentent les hybridations. Les positions des gènes de la voie MEV (m) et des voies plastoquinone et phytostérol (+) sont indiquées dans la colonne de gauche de l'axe de la carte thermique sur le côté droit de la figure. Les positions des gènes de la voie MEP (n) et des voies plastoquinone, caroténoïde et chlorophylle (+) sont indiquées dans la colonne de droite de l'axe.

Les positions des gènes de la voie MVA (étiquetés « m ») et des gènes de la voie non mévalonate (étiquetés « n »), respectivement, sont indiquées à droite de la figure. Le symbole + représente les positions des gènes des voies en aval identifiées dans le tableau 2, la ligne verticale étant tracée pour distinguer les gènes en aval de la voie mévalonate et de la voie non mévalonate. À partir de la figure 5, on peut facilement voir qu'il n'y a pas de modèle clair d'association (positionnelle) entre les gènes de la biosynthèse des isoprénoïdes et les voies en aval dans le regroupement hiérarchique.

Étude de simulation

Pour une comparaison indépendante entre les approches GGM modifiées et conventionnelles, nous avons simulé des données d'expression génique avec 40 gènes et 100 observations. Ce cadre de simulation correspond aux données de la biosynthèse des isoprénoïdes et n'est considéré qu'à titre d'exemple à ce stade. Une vaste étude de simulation est actuellement en cours et sera présentée ailleurs.

Suite à des découvertes récentes sur la topologie des réseaux métaboliques et protéiques [29, 30], nous avons simulé des réseaux sans échelle dans lesquels la fraction de nœuds avec k les arêtes se désintègrent comme une loi de puissance ∝ k -?? . Pour les réseaux métaboliques et protéiques, ?? est généralement estimée entre 2 et 3, ce qui se traduirait par des réseaux très clairsemés avec moins de bords que de nœuds dans nos paramètres de simulation. Pour permettre des réseaux plus denses, nous avons généré 100 graphiques chacun pour ?? = 0,5, 1,5 et 2,5. Avec 40 nœuds, ces graphes comprenaient alors 88,3, 49,7 et 30,5 arêtes en moyenne. Pour chaque bord, la dépendance conditionnelle des paires de gènes correspondantes a été modélisée avec une variable aléatoire latente dans un modèle d'équation structurelle comme décrit dans [31]. Les détails supplémentaires sont de nature technique et sont omis ici. L'utilisation de variables aléatoires latentes nous a permis de modéliser des coefficients de corrélation partielle selon la structure de réseau définie précédemment tout en assurant une définition positive de la matrice de corrélation partielle complète. Cette matrice a ensuite été transformée en une matrice de covariance , à partir de laquelle des données d'expression génique synthétique avec 100 observations ont été échantillonnées selon une distribution normale multivariée N(0,Σ).

Les performances des approches de modélisation graphique ont été surveillées en utilisant le taux de vrais et de faux positifs dans les courbes de caractéristiques de l'opérateur du récepteur (ROC) (voir [11] pour une brève introduction). Pour le modèle graphique standard, l'amorçage aurait pris trop de temps, nous avons donc classé toutes les arêtes en fonction de leur suppression séquentielle dans le processus de sélection arrière. La figure 6a montre les courbes ROC pour la modélisation graphique avec sélection en arrière et les approches de modélisation graphique modifiée (approche fréquentiste et graphe aléatoire latent). Nous avons également inclus la courbe ROC pour l'inférence de réseau avec des coefficients de corrélation par paires. On peut voir que les approches GGM modifiées surpassent la modélisation graphique conventionnelle. La méthode fréquentiste et la méthode du graphe aléatoire latent montrent toutes deux des performances similaires. En outre, il convient de noter qu'une mesure simple telle que la corrélation par paires peut être assez puissante pour détecter les dépendances conditionnelles entre les gènes.

Performance des différentes approches GGM. (une) courbes ROC et (b) la proportion de fronts vrais positifs en fonction du nombre de fronts sélectionnés pour les différentes stratégies de modélisation graphique. Ligne noire, ligne rouge GGM standard, ligne bleue d'approche GGM modifiée fréquentiste, ligne verte d'approche GGM modifiée par graphique aléatoire latent, corrélation par paires. Réseaux clairsemés avec moins d'arêtes en tant que nœuds (?? = 2.5) sont représentés dans la colonne de gauche, les réseaux avec approximativement autant d'arêtes que de nœuds (?? = 1.5) sont représentés dans la colonne du milieu, et les réseaux avec environ deux fois plus d'arêtes que de nœuds (?? = 0,5) sont dans la colonne de droite.

Les courbes ROC représentent le taux de vrais positifs en fonction du taux de faux négatifs. Cependant, dans notre contexte où les fronts faux positifs sont de loin plus nombreux que les vrais positifs, la proportion de vrais positifs parmi les fronts sélectionnés est également intéressante (Figure 6b). A noter que cette proportion est le taux complémentaire de fausses découvertes 1-FDR [32]. La figure 6b fournit une preuve supplémentaire que les approches GGM modifiées ont de meilleures performances que le GGM standard.

Application à l'utilisation du galactose dans Saccharomyces cerevisiae

Pour une évaluation plus approfondie, nous avons appliqué notre approche à l'ensemble de données d'utilisation du galactose de [14] pour détecter les gènes régulés par le galactose dans Saccharomyces cerevisiae. Ideker et al. [14] ont utilisé des cartes auto-organisées pour regrouper 997 gènes avec des changements d'expression significatifs dans 20 expériences de perturbation systématique de la voie du galactose. Sur les neuf gènes du galactose à l'étude, deux sous-groupes avec trois et quatre gènes, respectivement, ont été trouvés dans deux des 16 groupes. Neuf des 87 gènes de ces deux groupes portaient des sites de liaison à GAL4p et sont donc des gènes candidats à la régulation par le facteur de transcription GAL4p. Parmi ces gènes candidats, GCY1 et PCL10 sont connus pour être des cibles de GAL4p [33], et YMR318C a été impliqué dans une autre étude sur le site de liaison [34].

Après avoir incorporé tous les gènes de levure dans notre réseau des neuf gènes du galactose, 13 gènes se sont avérés s'attacher de manière significative. Parmi ceux-ci, GCY1 et PCL10 ont également été détectés. De plus, trois des 11 gènes candidats restants (MLF3, YEL057C et YPL066W) avaient des sites de liaison à GAL4p. Ces gènes ont également été identifiés dans [14]. Ce résultat montre une fois de plus qu'avec notre approche, nous sommes non seulement capables de modéliser la dépendance entre les gènes mais aussi de trouver des gènes dont les profils d'expression correspondent bien aux gènes d'origine dans le modèle. Contrairement à [14], nous n'avons pas eu à nous fier à des groupes de gènes avec une forte occurrence de gènes de galactose pour trouver ces gènes.


Fonction de distribution de probabilité normale

La fonction de densité de probabilité de la distribution normale est :

La fonction de densité de probabilité est essentiellement la probabilité qu'une variable aléatoire continue prenne une valeur.

La distribution normale est une courbe en cloche où moyenne=mode=médiane.

  • Si vous tracez la courbe de distribution de probabilité à l'aide de sa fonction de densité de probabilité calculée, l'aire sous la courbe pour une plage donnée donne la probabilité que la variable cible se trouve dans cette plage.
  • Cette courbe de distribution de probabilité est basée sur une fonction de distribution de probabilité qui elle-même est calculée sur un certain nombre de paramètres tels que la moyenne ou l'écart type de la variable.
  • Nous pourrions utiliser cette fonction de distribution de probabilité pour trouver la chance relative qu'une variable aléatoire prenne une valeur dans une plage. Par exemple, nous pourrions enregistrer les rendements quotidiens d'une action, les regrouper dans des compartiments appropriés, puis trouver la probabilité que l'action réalise un gain de 20 à 40 % à l'avenir.

Plus l'écart type est grand, plus la volatilité de l'échantillon est grande.


Résumé

Les voies biologiques peuvent être modélisées comme un système non linéaire décrit par un ensemble d'équations différentielles ordinaires (ODE) non linéaires. Un défi central dans la modélisation informatique des systèmes biologiques est la détermination des paramètres du modèle. Dans de tels cas, l'estimation de ces variables ou paramètres à partir d'autres mesures facilement obtenues peut être extrêmement utile. Par exemple, les données génomiques dynamiques de séries chronologiques peuvent être utilisées pour développer des modèles représentant des réseaux de régulation génétique dynamiques, qui peuvent être utilisés pour concevoir des stratégies d'intervention pour guérir les principales maladies et pour mieux comprendre le comportement des systèmes biologiques. Malheureusement, les mesures biologiques sont généralement fortement affectées par des erreurs qui masquent les caractéristiques importantes des données. Par conséquent, ces mesures bruitées doivent être filtrées pour améliorer leur utilité dans la pratique. Cet article aborde le problème de l'estimation de l'état et des paramètres de phénomènes biologiques modélisés par des systèmes S en utilisant des approches bayésiennes, où le système observé non linéaire est supposé progresser selon un modèle d'espace d'état probabiliste. Les performances de diverses techniques d'estimation d'état conventionnelles et de pointe sont comparées. Ces techniques incluent le filtre de Kalman étendu (EKF), le filtre de Kalman non parfumé (UKF), le filtre à particules (PF) et le filtre à particules amélioré développé (IPF). Plus précisément, deux études comparatives sont réalisées. Dans la première étude comparative, les variables d'état (l'enzyme CadA, la protéine de transport CadB, la protéine régulatrice CadC et la lysine Lys pour un modèle du système Cad chez E. coli (CSEC)) sont estimées à partir de mesures bruitées de ces variables, et les diverses techniques d'estimation sont comparées en calculant l'erreur quadratique moyenne (RMSE) d'estimation par rapport aux données sans bruit. Dans la deuxième étude comparative, les variables d'état ainsi que les paramètres du modèle sont estimés simultanément. Dans ce cas, en plus de comparer les performances des différentes techniques d'estimation d'état, l'effet du nombre de paramètres du modèle estimés sur la précision et la convergence de ces techniques est également évalué. Les résultats des deux études comparatives montrent que l'UKF offre une précision plus élevée que l'EKF en raison de la capacité limitée de l'EKF à estimer avec précision la matrice de moyenne et de covariance des états estimés grâce à la linéarisation du modèle de processus non linéaire. Les résultats montrent également que l'IPF apporte une amélioration significative par rapport à PF car, contrairement à la PF qui dépend du choix de la distribution d'échantillonnage utilisée pour estimer la distribution a posteriori, l'IPF donne un choix optimal de la distribution d'échantillonnage, qui tient également compte de la distribution observée. Les données. Les résultats de la deuxième étude comparative montrent que, pour toutes les techniques, l'estimation d'un plus grand nombre de paramètres du modèle affecte la précision de l'estimation ainsi que la convergence des états et paramètres estimés. Cependant, l'IPF peut toujours fournir à la fois des avantages liés à la convergence et à la précision par rapport aux autres méthodes d'estimation.



Commentaires:

  1. Ojo

    Cette variante ne m'approche pas.

  2. Jeanina

    Exactement! La bonne idée, elle vous convient.

  3. Mazulkis

    Votre sujet est assez difficile pour un débutant.

  4. Vincente

    Je crois que tu avais tort. Je suis sûr. Nous devons discuter.

  5. Burhardt

    Ce message plutôt précieux

  6. Samugor

    Je pense que vous faites une erreur. Je propose d'en discuter. Envoyez-moi un courriel à PM, nous parlerons.

  7. Mochni

    Je crois que vous vous trompez. Je suis sûr. Discutons-en. Envoyez-moi un e-mail en MP, nous parlerons.



Écrire un message