Le chevauchement entre deux échantillons d'expression génique est-il significatif?

J'ai réalisé une expérience pour étudier la réponse d'une levure (qui contient 5000 gènes) au stress provoqué par un choc thermique. J'ai une liste de 48 gènes qui sont surexprimés à 37ºC et une autre liste de 145 gènes qui sont surexprimés à 42ºC. Il y a 38 gènes qui sont surexprimés dans les deux.

Par chance, je ne m'attendais qu'à un seul gène surexprimé dans les deux, comment puis-je calculer si le chevauchement que j'ai obtenu est significatif? Comment puis-je obtenir la valeur ? Je ne connais rien aux logiciels biostatistiques ou mathématiques. Merci beaucoup!!! Toute aide sera la bienvenue :) $p$

statistical-significance microarray Laura
la source

Vous pouvez construire un diagramme de Venn pour montrer le chevauchement.

Michael R. Chernick

Mais comment puis-je calculer la valeur p?

Laura

Une valeur de p est toujours calculée par rapport à une hypothèse. Quelle est l'hypothèse que vous souhaitez étudier ici? Que différents gènes sont surexprimés à différentes températures?

MånsT

L'hypothèse est que les gènes surexprimés à 37 ° C sont également surexprimés à 42 ° C. Et il semble que cela pourrait être le cas parce que 38 gènes (sur 48 gènes au total) sont surexprimés à la fois à 37ºC et 42ºC.

Laura

Ce n'est pas une hypothèse statistique qui peut être testée. Je ne pense pas que vous recherchiez des valeurs p. Je pense que vous voulez mesurer le degré de chevauchement.

Michael R. Chernick

Réponses:

Le tableau ressemble à ceci

                37 deg C
42 deg C     yes      no
yes          38       97
no           10      4855

oui et non se réfèrent à des cas surexprimés ou non J'ai exécuté le test exact de Fisher en SAS La sortie est collée ci-dessous:

Laura Gene expression data 


The FREQ Procedure


Statistics for Table of Group by expressed

Fisher's Exact Test 
Cell (1,1) Frequency (F) 4855 
Left-sided Pr <= F 1.0000 
Right-sided Pr >= F 4.776E-53 

Table Probability (P) 8.132E-51 
Two-sided Pr <= P 4.776E-53 
Sample Size = 5000

Vous voyez ici que la valeur de p pour le test exact de Fisher est très petite et bien inférieure à 0,0001.

Cela montre exactement ce que vous avez déclaré que les 38 surexprimés observés aux deux températures sont bien supérieurs à ce que vous attendez sous l'indépendance qui, comme vous l'avez déclaré, serait de 1,296.

Michael R. Chernick
la source

Le test exact mentionné par Michael est probablement la façon dont je recommanderais d'utiliser pour résoudre le problème (le moins d'hypothèses). Pour référence, le test statistique commun correspondant serait un $\chi^2$ test d'indépendance .

russellpierce
la source

Le test du chi carré est également non paramétrique, mais nécessite une théorie asymptotique. Le test de Fisher a une hypothèse supplémentaire de marges fixes que le chi carré et les autres tests du tableau de contingence ne supposent pas.

Michael R. Chernick

@Laura Vous avez eu un problème de test bien défini. Je suis désolé qu'il ait fallu tant de discussions avant et arrière pour le trouver.

Michael R. Chernick

Merci beaucoup Michael! Maintenant, je connais le test que je dois utiliser et comment saisir les données. Encore deux petites questions: existe-t-il une calculatrice de test exacte Fischer en ligne? Parce que je n'ai pas SAS et je voudrais calculer plus de valeur p. Et dans votre tableau, quelle est la valeur de p que je dois considérer? Peut-être la probabilité des deux côtés? Merci encore!!! :)

Laura

Laura ... allez avec le Pr à deux faces. quantitativeskills.com/sisa/statistics/fishrhlp.htm (lien "aller à la procédure"). La calculatrice en ligne manque de fidélité pour vous donner une valeur de p aussi basse.

russellpierce