Que veut dire Fisher par cette citation?

14

Je continue de voir cette célèbre citation partout, mais je n'arrive pas à comprendre la partie soulignée à chaque fois.

Un homme qui «rejette» provisoirement une hypothèse, conformément à la pratique habituelle, lorsque la signification est au niveau de 1% ou plus, se trompera certainement dans pas plus de 1% de ces décisions. Car lorsque l'hypothèse est correcte, il se trompe dans seulement 1% de ces cas, et lorsqu'elle est incorrecte, il ne se trompera jamais de rejet. [...] Cependant, le calcul est absurdement académique, car en fait aucun travailleur scientifique n'a un niveau de signification fixe auquel d'année en année, et en toutes circonstances, il rejette les hypothèses; il se penche plutôt sur chaque cas particulier à la lumière de son témoignage et de ses idées.Il ne faut pas oublier que les cas choisis pour appliquer un test sont manifestement un ensemble hautement sélectionné et que les conditions de sélection ne peuvent pas être spécifiées même pour un seul travailleur; ni que dans l'argument utilisé, il serait clairement illégitime pour quelqu'un de choisir le niveau de signification réel indiqué par un procès particulier comme s'il avait l'habitude de toute sa vie de n'utiliser que ce niveau.

(Méthodes statistiques et inférence scientifique, 1956, p. 42-45)

Plus précisément, je ne comprends pas

  1. Pourquoi les cas choisis pour appliquer un test sont-ils "hautement sélectionnés"? Supposons que vous vous demandiez si la taille moyenne des personnes dans une zone est inférieure à 165 cm et décidez de réaliser un test. Pour autant que je sache, la procédure standard consiste à prélever des échantillons aléatoires dans la zone et à mesurer leur hauteur. Comment cela peut-il être hautement sélectionné?
  2. Supposons que les cas soient hautement sélectionnés, mais comment cela est-il lié au choix du niveau de signification? Examinons à nouveau l'exemple ci-dessus, si votre méthode d'échantillonnage (ce que je suppose être ce que Fisher appelle des conditions de sélection ) est biaisée et favorise en quelque sorte les personnes de grande taille, alors toute la recherche est ruinée et la détermination subjective du niveau de signification ne peut pas la sauver.
  3. p
nalzok
la source

Réponses:

15

Voici ma paraphrase de ce que dit Fisher dans votre citation en gras. Il ne faut pas oublier qu'il faut beaucoup de choses pour choisir quelle hypothèse tester, à tel point que même pour la décision d'une seule personne, vous ne pouvez pas tout préciser. Il ne faut pas non plus oublier que, pour les raisons énoncées ci-dessus, vous ne pouvez pas décider du niveau de signification d'un essai particulier toujours de la même manière, comme une habitude à vie.

  1. Une hypothèse scientifique est sélectionnée comme devant être testée par rapport à de nombreuses autres hypothèses concurrentes en raison des biais du chercheur et de son état actuel des connaissances. Les hypothèses sont «hautement sélectionnées», pas les échantillons; les hypothèses sont les cas où nous appliquons des tests.

  2. Le processus de sélection des hypothèses affecte notre niveau de signification. Si nous sommes très sûrs d'une hypothèse, cela devrait rendre le niveau de signification moins rigoureux pour nous satisfaire. En cas de doute, la charge de la preuve est plus élevée. D'autres facteurs entrent également en jeu, tels que l'erreur de type I étant pire que le type II dans les essais de médicaments.

  3. Je pense que lorsqu'il dit «indiqué par», il veut simplement dire «choisi pour». Oui, c'est une valeur prédéfinie où nous rejetons l'hypothèse si la valeur p est plus extrême.

Drew N
la source
10

Les cas auxquels Fisher fait référence ne sont pas des observations mais des tests. Autrement dit, nous sélectionnons les hypothèses à tester. Nous ne testons pas seulement des hypothèses aléatoires - nous les basons sur l'observation, la littérature, les théories scientifiques, etc.

Si vous avez fait l' essai des hypothèses aléatoires, le nombre de fois que vous vous trompez (dans la première phrase de votre citation) serait de 1% (ou quelle que soit la valeur choisie). Par exemple, si nous testons des hypothèses comme

  • La parité du numéro de sécurité sociale d'une personne est liée à son QI

  • Les personnes aux cheveux blonds jettent mieux les frisbees que les personnes aux cheveux noirs

  • Le temps pour obtenir une réponse sur la validation croisée est lié au nombre de syllabes dans votre prénom.

Et testé un tas d'entre eux à 1%, nous rejetterions le null environ 1% du temps, et le ferions incorrectement. (À moins, bien sûr, que je sois sur quelque chose avec le non-sens ci-dessus).

J'ai vu une fois un article sur la couleur des cheveux et le lancer de frisbee - et il a trouvé une différence! Donc, j'appelle ce genre de chose "recherche Frisbee".

Mais la partie que j'aime le plus de la citation est la suivante:

car en fait aucun travailleur scientifique n'a un niveau de signification fixe auquel, d'année en année, et en toutes circonstances, il rejette les hypothèses; il se penche plutôt sur chaque cas particulier à la lumière de son témoignage et de ses idées.

Il doit tourner dans sa tombe.

Peter Flom - Réintégrer Monica
la source
4
C'est une bonne réponse, mais j'hésite à considérer la "recherche sur le frisbee" comme de mauvaises choses. Tant que les méthodologies sont utilisées correctement (en tenant compte de la taille de l'effet, etc.), je considérerais le résultat plausible. Je veux dire, on pense que la couleur des cheveux n'a rien à voir avec le lancer du frisbee, mais il a été admis que la Terre était au centre de l'univers jusqu'à il y a des centaines d'années! Nous pouvons critiquer les gens pour avoir mal agi, mais nous ne devons blâmer personne pour avoir posé des questions. Cela étant dit, je conviens que certaines hypothèses sont moins utiles que d'autres, mais elles peuvent tout de même être correctes .
nalzok
Et il peut également s'agir d'erreurs de type I.
Peter Flom - Réintègre Monica
1
EN RELATION
jkdev
2

En essayant de voir l'arrière-plan de la citation, je suis arrivé à une version du livre (je ne sais pas quelle est la version) qui a une citation légèrement différente

https://archive.org/details/in.ernet.dli.2015.134555/page/n47

Les tentatives qui ont été faites pour expliquer la pertinence des tests d'importance dans la recherche scientifique, en se référant à des fréquences hypothétiques de déclarations possibles, fondées ou erronées, semblent donc manquer la nature essentielle de ces tests. Un homme qui "rejette" provisoirement une hypothèse, conformément à la pratique habituelle, lorsque la signification est au niveau de 1% ou plus, se trompera certainement dans pas plus de 1% de ces décisions. Car lorsque l'hypothèse est correcte, il se trompe dans seulement 1% de ces cas, et lorsqu'elle est incorrecte, il ne se trompera jamais de rejet. Cette déclaration d'inégalité peut donc être faite. Cependant, le calcul est absurdement académique, car en fait aucun travailleur scientifique n'a un niveau de signification fixe auquel d'année en année, et en toutes circonstances, il rejette les hypothèses; il se penche plutôt sur chaque cas particulier à la lumière de son témoignage et de ses idées. En outre, le calcul est basé uniquement sur une hypothèse qui, à la lumière des éléments de preuve, n'est souvent pas du tout considérée comme vraie, de sorte que la probabilité réelle d'une décision erronée, en supposant qu'une telle phrase ait un sens, peut être beaucoup moins que la fréquence spécifiant le niveau de signification. Pour un homme pratique, également, qui rejette une hypothèse, il s'agit, bien entendu, d'indifférence quant à la probabilité qu'il pourrait être amené à accepter faussement l'hypothèse, car dans son cas, il ne l'accepte pas. n'est souvent pas considérée comme vraie du tout, de sorte que la probabilité réelle d'une décision erronée, en supposant qu'une telle phrase ait un sens, peut être bien inférieure à la fréquence spécifiant le niveau de signification. Pour un homme pratique, également, qui rejette une hypothèse, il s'agit, bien entendu, d'indifférence quant à la probabilité qu'il pourrait être amené à accepter faussement l'hypothèse, car dans son cas, il ne l'accepte pas. n'est souvent pas considérée comme vraie du tout, de sorte que la probabilité réelle d'une décision erronée, en supposant qu'une telle phrase ait un sens, peut être bien inférieure à la fréquence spécifiant le niveau de signification. Pour un homme pratique, également, qui rejette une hypothèse, il s'agit, bien entendu, d'indifférence quant à la probabilité qu'il pourrait être amené à accepter faussement l'hypothèse, car dans son cas, il ne l'accepte pas.

Cela me semble une critique d'utiliser l'expression mathématique des possibilités de rejet, erreurs de type I, comme argument rigoureux. Ces expressions ne sont souvent pas une bonne expression de ce qui est pertinent et elles ne sont pas non plus rigoureuses.

  1. Pourquoi les cas choisis pour appliquer un test sont-ils "hautement sélectionnés"?

    Cela semble se rapporter à la phrase

    De plus, le calcul est basé uniquement sur une hypothèse qui, à la lumière des preuves, n'est souvent pas du tout considérée comme vraie.

    Nous ne sommes pas indifférents à l'hypothèse qui est testée, et souvent une hypothèse qui est testée n'est pas considérée comme vraie.

  2. comment cela est-il lié au choix du niveau de signification?

    Cela concerne

    de sorte que la probabilité réelle d'une décision erronée, en supposant qu'une telle phrase ait un sens, peut être bien inférieure à la fréquence spécifiant le niveau de signification

    La valeur de p est juste la fréquence de faire une erreur lorsque l'hypothèse nulle est vraie. Mais la fréquence réelle de l'erreur sera différente (inférieure).

  3. quel est "le niveau de signification réel indiqué par un essai particulier" se référant à

    Je crois que cette partie fait référence à une sorte de piratage de la valeur p. Changer le niveau de signification, alpha, après que les observations se sont produites afin de faire correspondre la valeur de p observée, et prétendre que c'était la valeur de coupure depuis le début.

Sextus Empiricus
la source