Dans un article que je lisais récemment, je suis tombé sur le morceau suivant dans leur section d'analyse des données:
Le tableau de données a ensuite été divisé en tissus et lignées cellulaires, et les deux sous-tableaux ont été polis séparément (les lignes et les colonnes ont été ajustées de manière itérative pour avoir la médiane 0) avant d'être réunies en un seul tableau. Nous avons finalement sélectionné pour le sous-ensemble de gènes dont l'expression variait d'au moins 4 fois la médiane de cet ensemble d'échantillons dans au moins trois des échantillons testés.
Je dois dire que je ne suit pas vraiment le raisonnement ici. Je me demandais si vous pouviez m'aider à répondre aux deux questions suivantes:
Pourquoi est-il souhaitable / utile d'ajuster la médiane dans les ensembles de données? Pourquoi cela devrait-il être fait séparément pour différents types d'échantillons?
Comment cela ne modifie-t-il pas les données expérimentales? Est-ce une façon connue de choisir un certain nombre de gènes / variables à partir d'un grand ensemble de données, ou est-ce plutôt ad hoc?
Merci,
la source
Réponses:
Tukey Median Polish, algorithme est utilisé dans la normalisation RMA des puces à ADN. Comme vous le savez peut-être, les données de puces à ADN sont assez bruyantes, elles ont donc besoin d'un moyen plus robuste d'estimer les intensités de sonde en tenant compte des observations pour toutes les sondes et puces à ADN. Il s'agit d'un modèle typique utilisé pour normaliser les intensités des sondes à travers les réseaux.
i = 1 , … , I
Où est l' intensité de PM transformée l o g pour la sonde i t h sur le réseau j t h . ϵ i j sont des bruits de fond et ils peuvent être supposés correspondre à du bruit dans une régression linéaire normale. Cependant, une hypothèse distributive sur ϵ peut être restrictive, donc nous utilisons le médian polonais de Tukey pour obtenir les estimations de ^ μ i et ^ α j . Il s'agit d'une méthode robuste de normalisation à travers les tableaux, car nous voulons séparer le signal, l'intensité due à la sonde, de l'effet du tableau,Ouije j l o g jet h jt h ϵje j ϵ μje^ αj^ . Nous pouvons obtenir le signal en normalisant pour l'effet tableau ^ α j pour tous les tableaux. Ainsi, il ne nous reste que les effets de sonde plus un peu de bruit aléatoire.α αj^
Le lien que j'ai cité précédemment utilise le polish médian de Tukey pour estimer les gènes différentiellement exprimés ou les gènes "intéressants" en les classant par effet de sonde. Cependant, le document est assez ancien, et probablement à cette époque, les gens essayaient encore de comprendre comment analyser les données de puces à ADN. Le document sur les méthodes empiriques bayésiennes non paramétriques d'Efron a été publié en 2001, mais il est possible qu'il n'ait pas été largement utilisé.
Cependant, nous comprenons maintenant beaucoup de choses sur les microréseaux (statistiquement) et sommes assez sûrs de leur analyse statistique.
Les données de microréseau sont assez bruyantes et RMA (qui utilise le polonais médian) est l'une des méthodes de normalisation les plus populaires, peut-être en raison de sa simplicité. D'autres méthodes populaires et sophistiquées sont: GCRMA, VSN. Il est important de normaliser car l'intérêt est l'effet sonde et non l' effet tableau.
Comme vous vous en doutez, l'analyse aurait pu bénéficier de certaines méthodes qui tirent parti de l'emprunt d'informations entre les gènes. Il peut s'agir de méthodes bayésiennes ou empiriques bayésiennes. Le papier que vous lisez est peut-être ancien et ces techniques n'existaient pas jusque-là.
Concernant votre deuxième point, oui ils modifient probablement les données expérimentales. Mais, je pense, cette modification est pour une meilleure cause, donc justifiable. La raison étant
a) Les données de microréseau sont assez bruyantes. Lorsque l'intérêt est l'effet de sonde, la normalisation des données par RMA, GCRMA, VSN, etc. est nécessaire et peut tirer parti de toute structure spéciale dans les données est bonne. Mais j'éviterais de faire la deuxième partie. C'est principalement parce que si nous ne connaissons pas la structure à l'avance, il vaut mieux ne pas imposer beaucoup d'hypothèses.
b) La plupart des expériences de puces à ADN sont de nature exploratoire, c'est-à-dire que les chercheurs tentent de se limiter à quelques ensembles de gènes «intéressants» pour une analyse ou des expériences supplémentaires. Si ces gènes ont un signal fort, des modifications telles que des normalisations ne devraient pas (substantiellement) affecter les résultats finaux.
Par conséquent, les modifications peuvent être justifiées. Mais je dois faire remarquer qu'exagérer les normalisations peut conduire à de mauvais résultats.
la source
Vous pouvez trouver des indices dans les pages 4 et 5 de ce
L'avantage d'utiliser la médiane est la robustesse à un petit nombre de valeurs aberrantes; l'inconvénient est que vous jetez des informations potentiellement utiles s'il n'y a pas de valeurs aberrantes.
la source
On dirait que vous lisez un article contenant une analyse de l'expression différentielle des gènes. Après avoir fait des recherches sur les puces à puces à ADN, je peux partager le peu de connaissances (si tout va bien) que j'ai sur l'utilisation du polish médian.
L'utilisation d'un polissage médian lors de l'étape de récapitulation du prétraitement des microréseaux est en quelque sorte un moyen standard de débarrasser les données des valeurs aberrantes avec des puces de sonde de correspondance parfaite uniquement (au moins pour RMA).
Le polissage médian des données de microréseaux est l'endroit où vous avez l'effet de puce et l'effet de sonde comme lignes et colonnes:
pour chaque jeu de sondes (composé de n numéros de la même sonde) sur x puces:
où iv sont des valeurs d'intensité
En raison de la variabilité des intensités des sondes, presque toutes les analyses de données de microréseaux sont prétraitées en utilisant une sorte de correction de fond et de normalisation avant la synthèse.
voici quelques liens vers les fils de discussion de la liste de diffusion bioC qui parlent de l'utilisation du polissage médian vs d'autres méthodes:
https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html
https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html
Les données des tissus et des lignées cellulaires sont généralement analysées séparément, car lorsque les cellules sont cultivées, leurs profils d'expression changent considérablement par rapport aux échantillons de tissus collectés. Sans avoir plus de papier, il est difficile de dire si le traitement des échantillons séparément était approprié ou non.
Les étapes de normalisation, de correction d'arrière-plan et de résumé dans le pipeline d'analyse sont toutes des modifications des données expérimentales, mais dans leur état non traité, les effets de puce, les effets de lot, les effets de traitement éclipseraient tout signal d'analyse. Ces expériences de puces à ADN génèrent des listes de gènes qui sont candidats pour des expériences de suivi (qPCR, etc.) pour confirmer les résultats.
En ce qui concerne l'ad hoc, demandez à 5 personnes quelle différence de pli est requise pour qu'un gène soit considéré différentiellement exprimé et vous obtiendrez au moins 3 réponses différentes.
la source