Pouvez-vous reproduire ce résultat de test chi carré?

7

Chez Skeptics.StackExchange , une réponse cite une étude sur l'hypersensibilité électromagnétique:

Je doute de certaines des statistiques utilisées et j'apprécierais une certaine expertise pour vérifier qu'elles sont utilisées de manière appropriée.

La figure 5a montre les résultats d'un sujet tentant de détecter le moment où un générateur de champ électromagnétique était allumé.

Voici une version simplifiée:

 Actual:   Yes  No
Detected:
  Yes       32  19
  No       261 274

Ils affirment avoir utilisé un test du chi carré et trouvé une signification (p <0,05, sans préciser ce qu'est p.)

Les fréquences des réponses somatiques et comportementales en présence et en l'absence du champ ont été évaluées à l'aide du test du chi carré (2 × 2 tableaux) ou de l'extension Freeman – Halton du test de probabilité exacte de Fisher (2 × 3 tableaux; Freeman & Halton, 1951).

Je vois plusieurs problèmes.

  • Ils ont exclu certaines des données - voir Tableau 5b - où ils ont laissé l'appareil éteint pendant de longues périodes. Je ne vois pas la justification de la séparation de ces données.

  • Ils semblent prétendre que le résultat est statistiquement significatif lorsque l'appareil réel était allumé, mais pas quand il ne l'était pas. (Je me trompe peut-être; ce n'est pas clair.) Ce n'est pas un résultat que le test du chi carré peut donner, n'est-ce pas?

  • Lorsque j'ai essayé de reproduire ce test avec une calculatrice en ligne, je l'ai trouvé statistiquement insignifiant.

Voici ma vraie question: ai-je raison de dire cela?: Un test chi carré à deux queues utilisant le test exact de Fisher est la bonne façon d'analyser ces données ET ce n'est PAS statistiquement significatif.

Pensée étrange
la source
Les variables "détectées" et "réelles" sont-elles observées dans la même unité? Si c'est le cas, je dirais que c'est un problème de symétrie.
Momo
@Momo: Je pense que la réponse est oui. Il y a eu 600 procès. Dans 300, l'appareil était réellement allumé et dans les 300 autres, l'appareil était éteint. On a demandé au sujet si elle pouvait détecter le rayonnement électromagnétique, et a répondu Oui ou Non. Dans 14 cas, elle n'a pas répondu et ils ont été exclus. Dans 535 cas, elle a dit non, ce qui signifie que sa sensibilité était faible (si elle existait). Vous ne savez pas comment cela crée un problème de symétrie - des liens que je pourrais lire pour en savoir plus?
Oddthinking
OK merci. Je viens de réaliser que le problème de symétrie semble être une expression qui n'est pas utilisée en anglais, donc désolé pour cela. Ce que je veux dire par là, c'est que les classifications croisées ne sont pas dérivées d'unités indépendantes mais que la même unité a été demandée à plusieurs reprises et qu'il s'agit donc d'une mesure appariée ou répétée.
Momo
2
Pour mémoire: Il y avait une lettre à l'éditeur concernant ce document. Il a remis en question certaines des classifications (post-hoc?) De la gravité utilisées dans le tableau 3a (expérience 1 et 2), averti des risques de biais de publication et de la nécessité de répliquer. Il ne s'est pas plaint des données du tableau 5.
Oddthinking
2
Il convient également de noter que ce tableau a tout de même l'air d'apparaître "significatif": si une seule détection avait été mal classée, le test de Fisher (qui est le plus approprié à utiliser) retournerait une valeur de p de 10,9%. Si l'allégation est extraordinaire ou controversée, il faudrait des preuves beaucoup plus solides que cela pour accepter une conclusion d'association positive.
whuber

Réponses:

3

Il me semble qu'il y a trois choses qui ne vont pas dans la conclusion.

Tout d'abord, comme l'a dit @caracal: ils signalent leur «importance» à l'aide d'un test unilatéral, sans dire qu'ils le font. La plupart des gens, je pense, recommandent d'utiliser presque toujours des tests bilatéraux. Certes, il n'est pas acceptable d'utiliser un test unilatéral sans le dire.

Deuxièmement, l'effet est minime. Lorsqu'il y avait un signal, le sujet (il n'y en avait qu'un) le détectait 11% du temps (32/293). En l'absence de signal, elle a détecté un signal 6,5% du temps. Cette différence semble assez petite. Et le sujet n'a pas pu détecter le signal 89% du temps!

Troisièmement, comme l'a souligné @oddthinking, certains rapports de données sélectifs n'ont pas été correctement expliqués ou justifiés (je n'ai pas lu attentivement le document, donc je répète simplement ce qui était dans le message d'origine).

Harvey Motulsky
la source
0

Un test exact de Fisher sur le tableau donné donne, selon ce code

actual <- c(rep("Y", 32), rep("N", 19), rep("Y", 261), rep("N", 274))
det <- c(rep("Y", 51), rep("N", 535))
table(det,actual) 
fisher.test(det,actual)

ap = 0,08

Peter Flom
la source
3
diriez-vous qu'un test de Fisher est approprié pour ce tableau de contingence?
Momo
2
Mais c'est la valeur p bilatérale. Je suppose que l'hypothèse était unilatérale (p("yes"|yes)>p("yes"|no), donnant une valeur de p de 0,039.
caracal
@caracal: Voulez-vous élaborer votre raisonnement et en faire une réponse?
Oddthinking
@Oddthinking Désolé, je n'ai actuellement pas le temps de parcourir le document et de réfléchir aux questions d'échantillonnage / de conception expérimentale pertinentes pour la question.
caracal