Quel est le point de vue fréquentiste sur l'histoire du voltmètre?

15

Quel est le point de vue fréquentiste sur l'histoire du voltmètre et ses variations? L'idée sous-jacente est qu'une analyse statistique qui fait appel à des événements hypothétiques devrait être révisée si l'on apprenait plus tard que ces événements hypothétiques n'auraient pas pu se produire comme prévu.

La version de l'histoire sur Wikipedia est fournie ci-dessous.

Un ingénieur tire un échantillon aléatoire de tubes électroniques et mesure leur tension. Les mesures vont de 75 à 99 volts. Un statisticien calcule la moyenne de l'échantillon et un intervalle de confiance pour la vraie moyenne. Plus tard, le statisticien découvre que le voltmètre ne lit que jusqu'à 100, de sorte que la population semble être «censurée». Cela nécessite une nouvelle analyse, si le statisticien est orthodoxe. Cependant, l'ingénieur dit qu'il a un autre relevé de compteur à 1000 volts, qu'il aurait utilisé si une tension avait été supérieure à 100. C'est un soulagement pour le statisticien, car cela signifie que la population n'était effectivement pas censurée après tout. Mais, le lendemain, l'ingénieur informe le statisticien que ce deuxième compteur ne fonctionnait pas au moment de la mesure. Le statisticien constate que l'ingénieur n'aurait pas retardé les mesures avant la fixation du compteur et l'informe que de nouvelles mesures sont nécessaires. L'ingénieur est stupéfait. "Ensuite, vous me poserez des questions sur mon oscilloscope".

L'histoire est évidemment censée être idiote, mais je ne vois pas clairement quelles libertés sont prises avec la méthodologie à laquelle elle se moque. Je suis sûr que dans ce cas, un statisticien appliqué ne se soucierait pas de cela, mais qu'en est-il d'un fréquentateur universitaire hardcore?

En utilisant une approche fréquentiste dogmatique, aurions-nous besoin de répéter l'expérience? Pouvons-nous tirer des conclusions des données déjà disponibles?

Pour aborder également le point plus général soulevé par l'histoire, si nous voulons utiliser les données que nous avons déjà, la révision nécessaire des résultats hypothétiques pourrait-elle être faite pour s'adapter au cadre fréquentiste?

Praxéolitique
la source
4
L'approche fréquentiste permet également de conditionner, donc je ne suis pas certain que le raisonnement trouvé dans la citation soit tout à fait adéquat.
Xi'an
@ Xi'an Même si nous avons intégré la censure de l'échantillon ou la probabilité que le deuxième voltmètre soit cassé dans nos calculs, il y a le problème que nous changeons la conception de l'expérience après qu'elle ait eu lieu . Je ne sais pas si cela peut être concilié avec les méthodes fréquentistes.
Praxeolitic
6
Peut-être vérifiez cette entrée sur le principe de conditionnalité . Bien que n'étant pas un fréquentiste, je ne suis pas un grand fan de cette histoire car elle semble impliquer l'intégration sur tous les événements hypothétiques possibles sans définir la portée de ceux-ci. C'est plutôt caricature.
Xi'an
5
Cela mérite en effet une discussion et des réponses réfléchies. Mais veuillez noter que "si le statisticien est orthodoxe" et n'est pas incompétent ou avide de travail supplémentaire, elle déclarera que, comme aucune des observations originales n'a été censurée, son choix initial de procédure (vraisemblablement admissible) reste admissible et donc il n'y a aucune base pour changes le. La base théorique qui sous-tend les statistiques «fréquentistes» - la théorie de la décision - n'a aucune utilité pour ce «principe de vraisemblance».
whuber
1
Je sais ce que je ferais, à condition qu'il y ait suffisamment de données. Je ferais un histogramme. Je regarderais l'histogramme. S'il y avait une limite claire à 99 faisant un histogramme tronqué unilatéral à ce moment-là, je soupçonnerais qu'il était tronqué. J'examinerais également les données connues pour ne pas être tronquées et inspecterais leurs formes de courbe, et voir si je peux obtenir un modèle de probabilité pour l'adapter, par exemple, une distribution gamma, ou autre chose. Je voudrais ensuite revenir aux données tronquées (par hypothèse) et voir si le reste est également distribué gamma (ou autre). Ensuite, je dois expliquer: "Pourquoi gamma?" Si oui, j'ai terminé.
Carl

Réponses:

4

Dans l' inférence fréquentiste , nous voulons déterminer la fréquence à laquelle quelque chose se serait produit si un processus stochastique donné avait été réalisé à plusieurs reprises. C'est le point de départ de la théorie des valeurs de p, des intervalles de confiance, etc. Cependant, dans de nombreux projets appliqués, le processus "donné" n'est pas vraiment donné, et le statisticien doit faire au moins un travail de spécification et de modélisation. Cela peut être un problème étonnamment ambigu, comme c'est le cas dans ce cas.

Modélisation du processus de génération de données

Sur la base des informations fournies, notre meilleur candidat semble être le suivant:

  1. Si le compteur 100V indique 100V, l'ingénieur mesure à nouveau avec le compteur 1000V s'il est opérationnel. Sinon, il marque simplement 100V et passe à autre chose.

Mais n'est-ce pas un peu injuste pour notre ingénieur? En supposant qu'il est ingénieur et pas seulement technicien, il comprend probablement pourquoi il doit mesurer à nouveau lorsque le premier compteur indique 100 V; c'est parce que le compteur est saturé à la limite supérieure de sa plage, donc n'est plus fiable. Alors peut-être que l'ingénieur ferait vraiment

  1. Si le compteur 100 V indique 100, l'ingénieur mesure à nouveau avec le compteur 1000 V s'il est opérationnel. Sinon, il marque simplement 100 V, ajoute un signe plus pour indiquer la mesure saturée et passe à autre chose.

Ces deux processus sont cohérents avec les données dont nous disposons, mais ce sont des processus différents et ils produisent des intervalles de confiance différents. Le processus 2 est celui que nous préférerions en tant que statisticiens. Si les tensions sont souvent bien au-dessus de 100 V, le processus 1 a un mode de défaillance potentiellement catastrophique dans lequel les mesures sont parfois gravement sous-estimées, car les données sont censurées à notre insu. L'intervalle de confiance s'élargira en conséquence. Nous pourrions atténuer cela en demandant à l'ingénieur de nous dire quand son compteur 1000V ne fonctionne pas, mais c'est vraiment juste une autre façon de s'assurer que nos données sont conformes au processus 2.

Si le cheval a déjà quitté la grange et que nous ne pouvons pas déterminer quand les mesures sont et ne sont pas censurées, nous pourrions essayer de déduire des données les moments où le compteur 1000V ne fonctionne pas. En introduisant une règle d'inférence dans le processus, nous créons effectivement un nouveau processus 1.5 distinct de 1 et 2. Notre règle d'inférence fonctionnerait parfois et parfois non, de sorte que l'intervalle de confiance du processus 1.5 serait de taille intermédiaire par rapport aux processus 1 et 2.

En théorie, il n'y a rien de mal ou de suspect à propos d'une statistique unique ayant trois intervalles de confiance différents associés à trois processus stochastiques plausiblement représentatifs différents. En pratique, peu de consommateurs de statistiques souhaitent trois intervalles de confiance différents. Ils en veulent un, celui qui est basé sur ce qui se serait réellement passé, si l'expérience avait été répétée plusieurs fois. Donc, typiquement, la statisticienne appliquée considère les connaissances du domaine qu'elle a acquises au cours du projet, fait une supposition éclairée et présente l'intervalle de confiance associé au processus qu'elle a deviné. Ou elle travaille avec le client pour formaliser le processus, il n'est donc pas nécessaire de deviner à l'avenir.

Comment répondre aux nouvelles informations

Malgré l'insistance du statisticien dans l'histoire, l'inférence fréquentiste n'exige pas que nous répétions les mesures lorsque nous obtenons de nouvelles informations suggérant que le processus stochastique générateur n'est pas tout à fait ce que nous avions initialement conçu. Cependant, si le processus va se répéter, nous devons nous assurer que toutes les répétitions sont cohérentes avec le processus du modèle supposé par l'intervalle de confiance. Nous pouvons le faire en modifiant le processus ou en changeant notre modèle.

Si nous modifions le processus, nous devrons peut-être éliminer les données antérieures qui ont été collectées de manière non cohérente avec ce processus. Mais ce n'est pas un problème ici, car toutes les variations de processus que nous envisageons ne sont différentes que lorsque certaines données sont supérieures à 100 V, et cela ne s'est jamais produit dans ce cas.

Quoi que nous fassions, le modèle et la réalité doivent être alignés. Ce n'est qu'alors que le taux d'erreur fréquentiste théoriquement garanti sera ce que le client obtient réellement lors de l'exécution répétée du processus.

L'alternative bayésienne

D'un autre côté, si tout ce qui nous intéresse vraiment, c'est la plage probable de la vraie moyenne pour cet échantillon, nous devrions rejeter complètement le fréquentisme et rechercher les personnes qui vendent la réponse à cette question - les Bayésiens. Si nous empruntons cette voie, tous les marchandages sur les contrefactuels deviennent inutiles; tout ce qui compte, c'est la priorité et la probabilité. En échange de cette simplification, nous perdons tout espoir de garantir un taux d'erreur sous la répétition de "l'expérience".

Pourquoi l'agitation?

Cette histoire a été construite pour faire ressembler les statisticiens fréquentistes à des histoires stupides sans raison. Honnêtement, qui se soucie de ces contrefactuels stupides? La réponse, bien sûr, est que tout le monde devrait s'en soucier. Des domaines scientifiques d'une importance vitale souffrent actuellement d'une grave crise de réplication , ce qui suggère que la fréquence des fausses découvertes est beaucoup plus élevée que prévu dans la littérature scientifique. L'un des moteurs de cette crise, bien qu'il ne soit en aucun cas le seul , est la montée du p-hacking , qui est lorsque les chercheurs jouent avec de nombreuses variantes d'un modèle, contrôlant différentes variables, jusqu'à ce qu'elles prennent de l'importance.

Le piratage informatique a été largement vilipendé dans les médias scientifiques populaires et la blogosphère, mais peu de gens comprennent réellement ce qui ne va pas dans le piratage informatique et pourquoi. Contrairement à l'opinion statistique populaire, il n'y a rien de mal à regarder vos données avant, pendant et après le processus de modélisation. Ce qui ne va pas, c'est de ne pas rapporter les analyses exploratoires et comment elles ont influencé le cours de l'étude. Ce n'est qu'en examinant l'ensemble du processus que nous pourrons même éventuellement déterminer quel modèle stochastique est représentatif de ce processus et quelle analyse fréquentiste est appropriée pour ce modèle, le cas échéant.

Prétendre qu'une certaine analyse fréquentiste est appropriée est une affirmation très sérieuse. Faire cette affirmation implique que vous vous liez à la discipline du processus stochastique que vous avez choisi, ce qui implique tout un système de contrefactuels sur ce que vous auriez fait dans différentes situations. Vous devez réellement vous conformer à ce système pour que la garantie fréquentiste s'applique à vous. Très peu de chercheurs, en particulier ceux dans les domaines qui mettent l'accent sur l'exploration ouverte, se conforment au système et ne signalent pas scrupuleusement leurs écarts; c'est pourquoi nous avons maintenant une crise de réplication entre nos mains. (Certains chercheurs respectés ont fait valoir que cette attente est irréaliste, une position avec laquelle je sympathise, mais qui dépasse le cadre de cet article.)

Il peut sembler injuste que nous critiquions des articles publiés sur la base d'une affirmation sur ce qu'ils auraient fait si les données avaient été différentes. Mais c'est la nature (quelque peu paradoxale) du raisonnement fréquentiste: si vous acceptez le concept de la valeur p, vous devez respecter la légitimité de modéliser ce qui aurait été fait avec des données alternatives. (Gelman et Loken, 2013)

Dans les études qui sont relativement simples et / ou standardisées, comme les essais cliniques, nous pouvons ajuster pour des choses comme les comparaisons multiples ou séquentielles et maintenir le taux d'erreur théorique; dans des études plus complexes et exploratoires, un modèle fréquentiste peut être inapplicable car le chercheur peut ne pas être pleinement conscient de toutes les décisions prises , encore moins les enregistrer et les présenter explicitement. Dans de tels cas, le chercheur doit (1) être honnête et franc sur ce qui a été fait; (2) présentent des valeurs de p avec de fortes mises en garde, ou pas du tout; (3) envisager de présenter d'autres sources de données, telles que la plausibilité préalable de l'hypothèse ou une étude de réplication de suivi.

Paul
la source
Cela semble être une bonne réponse, mais je devrai le digérer mentalement demain.
Praxeolitic
par la description du problème tel qu'il est énoncé, il semble que si un ingénieur prétend qu'il faisait toujours votre option # 2
Aksakal
Peut-être, mais il ne l'a pas dit explicitement. De grandes erreurs peuvent être commises lorsque les gens devinent ce que les autres pensent plutôt que de discuter explicitement.
Paul
Dans les cours de statistique appliquée, trop peu d'importance est accordée au formalisme de ce que signifie l'estimation des paramètres. Supposons que nous prévoyons de lancer une pièce et d'enregistrer la fréquence des têtes. En entrant, nous supposons tacitement que la distribution réelle est Bernoulli avec p = q = 0,5. Après 1 000 flips, nous nous demandons «quelle est la probabilité que ce soit une bonne pièce» en comparant la réalité à la théorie / hypothèse. Mais dans la plupart des sciences, les gens supposent que les choses sont normalement distribuées, puis utilisent des tests t. Mais cela n'a aucun sens si les retours ne sont pas normalement distribués.
eSurfsnake
1

Il semble une erreur logique. Que le compteur de 1000 volts fonctionne ou non, l'ingénieur dit "si des relevés auraient été supérieurs à 100, j'aurais utilisé l'autre compteur". Mais comment aurait-il pu savoir que la tension était> 100 sans avoir utilisé le 1000 voltmètre?

Je ne pense pas que ce puzzle soit suffisamment bien formulé pour poser une question philosophique utile. Pratiquement, je suis d'accord avec la réponse que la bonne chose est de faire un histogramme et de voir s'il a l'air tronqué.

Mais, en tout cas, rien dans la question ne traite des questions qui importent, comme: (1) quelle est la distribution connue (ou soupçonnée) des lectures, et pourquoi? Y a-t-il une raison de croire qu'ils sont normalement distribués? (2) Si cette question ne reçoit pas de réponse, comment a-t-on estimé un intervalle de confiance?

Pour aller à l'extrême, une certaine «tension» est mesurée. Supposons que l'alimentation ne puisse pas fournir plus de 100 volts. Si cela était vrai, il ne pouvait sans doute pas y avoir de mesures supérieures à 100 volts, donc le compteur n'est pas pertinent.

Il y a beaucoup plus - en termes de priorités, de contraintes, etc. - qui entrent dans l'estimation et similaires que la question ne le couvre. Cela ne ressemble pas au paradoxe du «Monty Hall», qui est net et propre.

eSurfsnake
la source
1
Le but de l'histoire est de critiquer les interprétations des probabilités qui s'appuient sur des événements hypothétiques en étendant ces interprétations à un extrême absurde. Les problèmes que vous mentionnez sont hors de propos. Soi-disant l'ingénieur aurait su changer les voltmètres si nécessaire (par exemple, voit une lecture de "100") et le statisticien a sinon des raisons d'utiliser l'approche qu'il utilise (par exemple, il se trouve qu'il sait déjà que la distribution normale est une bonne modèle pour ces lectures).
Praxeolitic