Le pouvoir en protéomique?

9

Les subventions nécessitent souvent une analyse de puissance pour prendre en charge une taille d'échantillon proposée. En protéomique (et la plupart des -omiques), il y a de 100 à 1000 caractéristiques / variables mesurées sur 10 échantillons (peut-être 100, mais peu probable). En outre, il est connu que certaines de ces unités de mesure (par exemple, les dénombrements spectraux des protéines) ne sont pas normalement distribuées et nous utiliserons donc un test non paramétrique pour l'analyse. J'ai vu la puissance d'une taille d'échantillon déterminée en supposant une seule mesure et en supposant un test t, mais je ne pense pas que ce soit complètement correct. Un autre problème avec les comptages spectraux est précisément que chacune des centaines de caractéristiques est à des échelles très différentes avec des erreurs très différentes (les valeurs plus grandes ont moins d'erreur). [Ce problème est bien décrit dans le modèle de changement de pli limite, Mutch et al., 2002 ]

Quelle serait la façon appropriée de déterminer la puissance d'une taille d'échantillon proposée compte tenu de certaines hypothèses de FDR et d'un changement de pli acceptable? En utilisant l' outil ici, j'ai pu déterminer étant donné les éléments suivants:

  • 300 gènes
  • 3 faux positifs
  • 1.4 différences de pli
  • 0,8 puissance souhaitée
  • 0,7 stdev

nécessite une taille d'échantillon par groupe de 49.

C'était pratique car je propose une conception 50v50, sachez que 1,4 fois le changement est assez accepté, 1% FDR est très bien, et je mesurerai probablement 300 protéines dans cette expérience. Ce problème de calcul de la puissance ou de la taille de l'échantillon continuera de se produire, il serait donc bien d'avoir une approche référencée en place.

EDIT: J'ai lu où un collègue a proposé de modéliser les comptes spectraux à partir de distributions binominales négatives en utilisant la fonction de vraisemblance suivie d'un test de Wald. Utilise essentiellement les données préliminaires pour obtenir des estimations de la variance des protéines, puis calculer les changements de pli détectables entre les groupes pour chaque quantile. Il existe également une entrée FDR (alpha). Ainsi, étant donné une puissance> 80% et une taille d'échantillon définie, ils peuvent déterminer les changements de pli détectables pour la variance la plus faible de 25%, la variance la plus petite de 50% et la variance la plus élevée de 25%. Le problème est que je ne sais pas comment ils ont fait ça. Je ne sais pas si le partage de cette approche aidera quelqu'un avec une réponse possible.

Ben
la source
Quelques autres ressources que j'ai trouvées à ce sujet: Levin 2011 Dicker et al., 2010
Ben
1
Cette calculatrice MD Anderson me semble trop optimiste. Combien de comparaisons sont effectuées? (Je suis trop rouillé sur les puces à ADN: 300 gènes dans une conception 50v50 signifie que vous faites combien de comparaisons ??) Lorsque vous définissez la calculatrice FDR sur 3 faux positifs, dites-vous que vous définissez une erreur de faux positif afin que seulement 3 devraient être des faux positifs sous le zéro? C'est trop strict pour plus de 60 comparaisons.
AdamO
1
Je peux vous montrer comment cela se ferait dans R mais j'ai juste besoin de quelques informations sur la biologie.
AdamO

Réponses:

1

Dans les applications (en particulier les applications éthiques, où vous devez faire une étude de puissance), j'aime utiliser cette référence [Wang et Chen 2004], car elle explique bien le concept derrière un calcul de puissance pour les données à haut débit (quelles que soient les données) .

En substance, en plus des paramètres habituels (α, β, N, taille d'effet), vous utilisez deux paramètres supplémentaires, λ et η. Ce dernier, η, est le nombre supposé de gènes véritablement modifiés, et λ est la fraction des gènes véritablement modifiés que vous souhaitez pouvoir détecter. Il est assez simple d'étendre tous les calculs de puissance connus à des données à haut débit en utilisant cette approche.

Wang, Sue-Jane et James J. Chen. "Taille de l'échantillon pour identifier les gènes différentiellement exprimés dans les expériences de puces à ADN." Journal of Computational Biology 11.4 (2004): 714-726.

janvier
la source