L'utilisation du vernis médian pour la sélection des fonctionnalités

Dans un article que je lisais récemment, je suis tombé sur le morceau suivant dans leur section d'analyse des données:

Le tableau de données a ensuite été divisé en tissus et lignées cellulaires, et les deux sous-tableaux ont été polis séparément (les lignes et les colonnes ont été ajustées de manière itérative pour avoir la médiane 0) avant d'être réunies en un seul tableau. Nous avons finalement sélectionné pour le sous-ensemble de gènes dont l'expression variait d'au moins 4 fois la médiane de cet ensemble d'échantillons dans au moins trois des échantillons testés.

Je dois dire que je ne suit pas vraiment le raisonnement ici. Je me demandais si vous pouviez m'aider à répondre aux deux questions suivantes:

Pourquoi est-il souhaitable / utile d'ajuster la médiane dans les ensembles de données? Pourquoi cela devrait-il être fait séparément pour différents types d'échantillons?
Comment cela ne modifie-t-il pas les données expérimentales? Est-ce une façon connue de choisir un certain nombre de gènes / variables à partir d'un grand ensemble de données, ou est-ce plutôt ad hoc?

Merci,

feature-selection median genetics posdef
la source

Pouvez-vous nous expliquer quel type de données consultez-vous? Je pense qu'à en juger par ce que vous avez cité - pour moi - la méthode semble très ad hoc.

suncoolsu

@suncoolsu: ce sont des données de microréseaux, si vous connaissez le concept. Sinon, je pourrais peut-être le résumer ainsi; quels gènes sont exprimés, dans quelle mesure dans les échantillons étudiés. Voici une meilleure explication: en.wikipedia.org/wiki/Gene_expression_profiling

posdef

@suncoolsu Presque certainement des données d'analyse d'expression génétique.

kriegar

Ok - je n'étais pas sûr, le séquençage de nouvelle génération devient également populaire.

suncoolsu

Réponses:

Tukey Median Polish, algorithme est utilisé dans la normalisation RMA des puces à ADN. Comme vous le savez peut-être, les données de puces à ADN sont assez bruyantes, elles ont donc besoin d'un moyen plus robuste d'estimer les intensités de sonde en tenant compte des observations pour toutes les sondes et puces à ADN. Il s'agit d'un modèle typique utilisé pour normaliser les intensités des sondes à travers les réseaux.

{Oui}_{je j} = μ_{je} + α_{j} + ϵ_{je j}

$Y_{ij} = \mu_{i} + \alpha_{j} + \epsilon_{ij}$

je = 1, \dots, je j = 1, \dots, J

$i=1,\ldots,I \qquad j=1,\ldots, J$

Où est l' intensité de PM transformée pour la sonde sur le réseau . sont des bruits de fond et ils peuvent être supposés correspondre à du bruit dans une régression linéaire normale. Cependant, une hypothèse distributive sur peut être restrictive, donc nous utilisons le médian polonais de Tukey pour obtenir les estimations de et . Il s'agit d'une méthode robuste de normalisation à travers les tableaux, car nous voulons séparer le signal, l'intensité due à la sonde, de l'effet du tableau, $Y_{ij}$ $log$ $i^{th}$ $j^{th}$ $\epsilon_{ij}$ $\epsilon$ $\hat{\mu_i}$ $\hat{\alpha_j}$ . Nous pouvons obtenir le signal en normalisant pour l'effet tableau pour tous les tableaux. Ainsi, il ne nous reste que les effets de sonde plus un peu de bruit aléatoire. $\alpha$ $\hat{\alpha_j}$

Le lien que j'ai cité précédemment utilise le polish médian de Tukey pour estimer les gènes différentiellement exprimés ou les gènes "intéressants" en les classant par effet de sonde. Cependant, le document est assez ancien, et probablement à cette époque, les gens essayaient encore de comprendre comment analyser les données de puces à ADN. Le document sur les méthodes empiriques bayésiennes non paramétriques d'Efron a été publié en 2001, mais il est possible qu'il n'ait pas été largement utilisé.

Cependant, nous comprenons maintenant beaucoup de choses sur les microréseaux (statistiquement) et sommes assez sûrs de leur analyse statistique.

Les données de microréseau sont assez bruyantes et RMA (qui utilise le polonais médian) est l'une des méthodes de normalisation les plus populaires, peut-être en raison de sa simplicité. D'autres méthodes populaires et sophistiquées sont: GCRMA, VSN. Il est important de normaliser car l'intérêt est l'effet sonde et non l' effet tableau.

Comme vous vous en doutez, l'analyse aurait pu bénéficier de certaines méthodes qui tirent parti de l'emprunt d'informations entre les gènes. Il peut s'agir de méthodes bayésiennes ou empiriques bayésiennes. Le papier que vous lisez est peut-être ancien et ces techniques n'existaient pas jusque-là.

Concernant votre deuxième point, oui ils modifient probablement les données expérimentales. Mais, je pense, cette modification est pour une meilleure cause, donc justifiable. La raison étant

a) Les données de microréseau sont assez bruyantes. Lorsque l'intérêt est l'effet de sonde, la normalisation des données par RMA, GCRMA, VSN, etc. est nécessaire et peut tirer parti de toute structure spéciale dans les données est bonne. Mais j'éviterais de faire la deuxième partie. C'est principalement parce que si nous ne connaissons pas la structure à l'avance, il vaut mieux ne pas imposer beaucoup d'hypothèses.

b) La plupart des expériences de puces à ADN sont de nature exploratoire, c'est-à-dire que les chercheurs tentent de se limiter à quelques ensembles de gènes «intéressants» pour une analyse ou des expériences supplémentaires. Si ces gènes ont un signal fort, des modifications telles que des normalisations ne devraient pas (substantiellement) affecter les résultats finaux.

Par conséquent, les modifications peuvent être justifiées. Mais je dois faire remarquer qu'exagérer les normalisations peut conduire à de mauvais résultats.

suncoolsu
la source

+1 C'est une bien meilleure réponse que ma tentative. Merci.

kriegar

@posdef. Je me demande si un statisticien a participé à l'analyse statistique du document.

suncoolsu

merci pour votre réponse complète. Je pense que le fait qu'il s'agit d'une étape de prétraitement n'est pas bien expliqué (ou simplement supposé bien connu) dans le document. En parlant de cela, l'article est publié en 2000 (dans Nature), donc je suppose qu'ils avaient au moins un statisticien à regarder leurs méthodes, sinon impliqués dans l'écriture. Mais bien sûr, je ne peux que spéculer .. :)

posdef

@posdef. Ok- cool répond à beaucoup de questions. 2000 était le moment où les gens cherchaient encore à analyser les données des puces à ADN. FDR n'était pas fantaisiste à l'époque :-)

suncoolsu

Vous pouvez trouver des indices dans les pages 4 et 5 de ce

y_{je, j} = m + {une}_{je} + b_{j} + e_{je, j}

$y_{i,j} = m + a_i + b_j + e_{i,j}$

m

$m$

a_{i}

$a_i$

b_{j}

$b_j$

e_{i, j}

$e_{i,j}$

$m$ $a_i$ $b_j$

L'avantage d'utiliser la médiane est la robustesse à un petit nombre de valeurs aberrantes; l'inconvénient est que vous jetez des informations potentiellement utiles s'il n'y a pas de valeurs aberrantes.

Henri
la source

a_{i}

$a_i$

b_{j}

$b_j$

e_{i, j}

$e_{i,j}$

n_{i, j} = n_{i} q_{j} + e_{i, j}

$n_{i,j} = n_i \,q_j + e_{i,j}$

l o g (n_{i, j}) = l o g (n) + l o g (p_{i}) + l o g (q_{j}) + e_{i, j}

$log(n_{i,j}) = log(n) + log(p_i) + log(q_j) + e_{i,j}$

@Henry Quelles informations sont "rejetées" avec le polish médian lorsqu'il n'y a pas de "valeurs aberrantes" (et qu'entendez-vous exactement par "valeurs aberrantes" de toute façon)? Après tout, vous pouvez reconstruire les données exactement au moyen de la grande médiane, des médianes des lignes et des colonnes et des résidus, qui constituent tous la sortie du polissage médian. Si vous voulez dire que les résidus sont rejetés, dans quel sens le "polissage moyen" (équivalent à l'OLS) est-il différent à cet égard?

whuber

@whuber: Les résidus sont conservés dans les deux cas. Le polissage moyen tient compte de la distance des observations par rapport au centre (en un sens, il équilibre les poids des résidus) tandis que le polissage médian ne regarde que si elles sont au-dessus ou en dessous du centre (dans un sens, il équilibre le nombre de résidus). Ainsi, les informations de poids ne sont pas utilisées lors de l'utilisation de la médiane comme centre; cela peut être bon lorsque certains des poids / résidus importants sont si douteux que le résultat pour le centre ne peut pas être fiable, mais implique de ne pas utiliser les informations sinon.

Henry

@Henry Si vous pouvez récupérer toutes les données d'origine à partir du polonais, comment les "informations" ne sont-elles pas "utilisées"? BTW, le médian polonais ne se comporte pas comme vous semblez le décrire: ses résidus sont les différences de valeurs , pas de rangs, des données.

whuber

On dirait que vous lisez un article contenant une analyse de l'expression différentielle des gènes. Après avoir fait des recherches sur les puces à puces à ADN, je peux partager le peu de connaissances (si tout va bien) que j'ai sur l'utilisation du polish médian.

L'utilisation d'un polissage médian lors de l'étape de récapitulation du prétraitement des microréseaux est en quelque sorte un moyen standard de débarrasser les données des valeurs aberrantes avec des puces de sonde de correspondance parfaite uniquement (au moins pour RMA).

Le polissage médian des données de microréseaux est l'endroit où vous avez l'effet de puce et l'effet de sonde comme lignes et colonnes:

pour chaque jeu de sondes (composé de n numéros de la même sonde) sur x puces:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

où iv sont des valeurs d'intensité

En raison de la variabilité des intensités des sondes, presque toutes les analyses de données de microréseaux sont prétraitées en utilisant une sorte de correction de fond et de normalisation avant la synthèse.

voici quelques liens vers les fils de discussion de la liste de diffusion bioC qui parlent de l'utilisation du polissage médian vs d'autres méthodes:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

Les données des tissus et des lignées cellulaires sont généralement analysées séparément, car lorsque les cellules sont cultivées, leurs profils d'expression changent considérablement par rapport aux échantillons de tissus collectés. Sans avoir plus de papier, il est difficile de dire si le traitement des échantillons séparément était approprié ou non.

Les étapes de normalisation, de correction d'arrière-plan et de résumé dans le pipeline d'analyse sont toutes des modifications des données expérimentales, mais dans leur état non traité, les effets de puce, les effets de lot, les effets de traitement éclipseraient tout signal d'analyse. Ces expériences de puces à ADN génèrent des listes de gènes qui sont candidats pour des expériences de suivi (qPCR, etc.) pour confirmer les résultats.

En ce qui concerne l'ad hoc, demandez à 5 personnes quelle différence de pli est requise pour qu'un gène soit considéré différentiellement exprimé et vous obtiendrez au moins 3 réponses différentes.

kriegar
la source

Merci pour les mises à jour de votre réponse, je pense que je commence à me faire une idée maintenant. Donc si je comprends bien, le polissage médian est utilisé pour évaluer la variabilité technique en ce qui concerne la sonde et la puce? ... avant que l'expérience ne se résume à 1 matrice contenant les valeurs d'expression des gènes dans différentes conditions?

posdef

@posdef de ma compréhension oui. Pour chaque jeu de sondes sur une puce (sondes de la même séquence), il y a des sondes dispersées partout. plmimagegallery.bmbolstad.com pour quelques pseudo images de puces. En plus de la variabilité au sein d'une seule puce, il existe une variabilité entre les puces. En raison de la variabilité technique, des algorithmes sont exécutés sur les valeurs d'intensité brutes pour obtenir une "valeur d'expression" unique pour l'ensemble de sondes. La matrice de ces valeurs est ensuite apte à déterminer si les gènes sont différentiellement exprimés dans des conditions différentes.

kriegar