Quel est le point de vue fréquentiste sur l'histoire du voltmètre et ses variations? L'idée sous-jacente est qu'une analyse statistique qui fait appel à des événements hypothétiques devrait être révisée si l'on apprenait plus tard que ces événements hypothétiques n'auraient pas pu se produire comme prévu.
La version de l'histoire sur Wikipedia est fournie ci-dessous.
Un ingénieur tire un échantillon aléatoire de tubes électroniques et mesure leur tension. Les mesures vont de 75 à 99 volts. Un statisticien calcule la moyenne de l'échantillon et un intervalle de confiance pour la vraie moyenne. Plus tard, le statisticien découvre que le voltmètre ne lit que jusqu'à 100, de sorte que la population semble être «censurée». Cela nécessite une nouvelle analyse, si le statisticien est orthodoxe. Cependant, l'ingénieur dit qu'il a un autre relevé de compteur à 1000 volts, qu'il aurait utilisé si une tension avait été supérieure à 100. C'est un soulagement pour le statisticien, car cela signifie que la population n'était effectivement pas censurée après tout. Mais, le lendemain, l'ingénieur informe le statisticien que ce deuxième compteur ne fonctionnait pas au moment de la mesure. Le statisticien constate que l'ingénieur n'aurait pas retardé les mesures avant la fixation du compteur et l'informe que de nouvelles mesures sont nécessaires. L'ingénieur est stupéfait. "Ensuite, vous me poserez des questions sur mon oscilloscope".
L'histoire est évidemment censée être idiote, mais je ne vois pas clairement quelles libertés sont prises avec la méthodologie à laquelle elle se moque. Je suis sûr que dans ce cas, un statisticien appliqué ne se soucierait pas de cela, mais qu'en est-il d'un fréquentateur universitaire hardcore?
En utilisant une approche fréquentiste dogmatique, aurions-nous besoin de répéter l'expérience? Pouvons-nous tirer des conclusions des données déjà disponibles?
Pour aborder également le point plus général soulevé par l'histoire, si nous voulons utiliser les données que nous avons déjà, la révision nécessaire des résultats hypothétiques pourrait-elle être faite pour s'adapter au cadre fréquentiste?
la source
Réponses:
Dans l' inférence fréquentiste , nous voulons déterminer la fréquence à laquelle quelque chose se serait produit si un processus stochastique donné avait été réalisé à plusieurs reprises. C'est le point de départ de la théorie des valeurs de p, des intervalles de confiance, etc. Cependant, dans de nombreux projets appliqués, le processus "donné" n'est pas vraiment donné, et le statisticien doit faire au moins un travail de spécification et de modélisation. Cela peut être un problème étonnamment ambigu, comme c'est le cas dans ce cas.
Modélisation du processus de génération de données
Sur la base des informations fournies, notre meilleur candidat semble être le suivant:
Mais n'est-ce pas un peu injuste pour notre ingénieur? En supposant qu'il est ingénieur et pas seulement technicien, il comprend probablement pourquoi il doit mesurer à nouveau lorsque le premier compteur indique 100 V; c'est parce que le compteur est saturé à la limite supérieure de sa plage, donc n'est plus fiable. Alors peut-être que l'ingénieur ferait vraiment
Ces deux processus sont cohérents avec les données dont nous disposons, mais ce sont des processus différents et ils produisent des intervalles de confiance différents. Le processus 2 est celui que nous préférerions en tant que statisticiens. Si les tensions sont souvent bien au-dessus de 100 V, le processus 1 a un mode de défaillance potentiellement catastrophique dans lequel les mesures sont parfois gravement sous-estimées, car les données sont censurées à notre insu. L'intervalle de confiance s'élargira en conséquence. Nous pourrions atténuer cela en demandant à l'ingénieur de nous dire quand son compteur 1000V ne fonctionne pas, mais c'est vraiment juste une autre façon de s'assurer que nos données sont conformes au processus 2.
Si le cheval a déjà quitté la grange et que nous ne pouvons pas déterminer quand les mesures sont et ne sont pas censurées, nous pourrions essayer de déduire des données les moments où le compteur 1000V ne fonctionne pas. En introduisant une règle d'inférence dans le processus, nous créons effectivement un nouveau processus 1.5 distinct de 1 et 2. Notre règle d'inférence fonctionnerait parfois et parfois non, de sorte que l'intervalle de confiance du processus 1.5 serait de taille intermédiaire par rapport aux processus 1 et 2.
En théorie, il n'y a rien de mal ou de suspect à propos d'une statistique unique ayant trois intervalles de confiance différents associés à trois processus stochastiques plausiblement représentatifs différents. En pratique, peu de consommateurs de statistiques souhaitent trois intervalles de confiance différents. Ils en veulent un, celui qui est basé sur ce qui se serait réellement passé, si l'expérience avait été répétée plusieurs fois. Donc, typiquement, la statisticienne appliquée considère les connaissances du domaine qu'elle a acquises au cours du projet, fait une supposition éclairée et présente l'intervalle de confiance associé au processus qu'elle a deviné. Ou elle travaille avec le client pour formaliser le processus, il n'est donc pas nécessaire de deviner à l'avenir.
Comment répondre aux nouvelles informations
Malgré l'insistance du statisticien dans l'histoire, l'inférence fréquentiste n'exige pas que nous répétions les mesures lorsque nous obtenons de nouvelles informations suggérant que le processus stochastique générateur n'est pas tout à fait ce que nous avions initialement conçu. Cependant, si le processus va se répéter, nous devons nous assurer que toutes les répétitions sont cohérentes avec le processus du modèle supposé par l'intervalle de confiance. Nous pouvons le faire en modifiant le processus ou en changeant notre modèle.
Si nous modifions le processus, nous devrons peut-être éliminer les données antérieures qui ont été collectées de manière non cohérente avec ce processus. Mais ce n'est pas un problème ici, car toutes les variations de processus que nous envisageons ne sont différentes que lorsque certaines données sont supérieures à 100 V, et cela ne s'est jamais produit dans ce cas.
Quoi que nous fassions, le modèle et la réalité doivent être alignés. Ce n'est qu'alors que le taux d'erreur fréquentiste théoriquement garanti sera ce que le client obtient réellement lors de l'exécution répétée du processus.
L'alternative bayésienne
D'un autre côté, si tout ce qui nous intéresse vraiment, c'est la plage probable de la vraie moyenne pour cet échantillon, nous devrions rejeter complètement le fréquentisme et rechercher les personnes qui vendent la réponse à cette question - les Bayésiens. Si nous empruntons cette voie, tous les marchandages sur les contrefactuels deviennent inutiles; tout ce qui compte, c'est la priorité et la probabilité. En échange de cette simplification, nous perdons tout espoir de garantir un taux d'erreur sous la répétition de "l'expérience".
Pourquoi l'agitation?
Cette histoire a été construite pour faire ressembler les statisticiens fréquentistes à des histoires stupides sans raison. Honnêtement, qui se soucie de ces contrefactuels stupides? La réponse, bien sûr, est que tout le monde devrait s'en soucier. Des domaines scientifiques d'une importance vitale souffrent actuellement d'une grave crise de réplication , ce qui suggère que la fréquence des fausses découvertes est beaucoup plus élevée que prévu dans la littérature scientifique. L'un des moteurs de cette crise, bien qu'il ne soit en aucun cas le seul , est la montée du p-hacking , qui est lorsque les chercheurs jouent avec de nombreuses variantes d'un modèle, contrôlant différentes variables, jusqu'à ce qu'elles prennent de l'importance.
Le piratage informatique a été largement vilipendé dans les médias scientifiques populaires et la blogosphère, mais peu de gens comprennent réellement ce qui ne va pas dans le piratage informatique et pourquoi. Contrairement à l'opinion statistique populaire, il n'y a rien de mal à regarder vos données avant, pendant et après le processus de modélisation. Ce qui ne va pas, c'est de ne pas rapporter les analyses exploratoires et comment elles ont influencé le cours de l'étude. Ce n'est qu'en examinant l'ensemble du processus que nous pourrons même éventuellement déterminer quel modèle stochastique est représentatif de ce processus et quelle analyse fréquentiste est appropriée pour ce modèle, le cas échéant.
Prétendre qu'une certaine analyse fréquentiste est appropriée est une affirmation très sérieuse. Faire cette affirmation implique que vous vous liez à la discipline du processus stochastique que vous avez choisi, ce qui implique tout un système de contrefactuels sur ce que vous auriez fait dans différentes situations. Vous devez réellement vous conformer à ce système pour que la garantie fréquentiste s'applique à vous. Très peu de chercheurs, en particulier ceux dans les domaines qui mettent l'accent sur l'exploration ouverte, se conforment au système et ne signalent pas scrupuleusement leurs écarts; c'est pourquoi nous avons maintenant une crise de réplication entre nos mains. (Certains chercheurs respectés ont fait valoir que cette attente est irréaliste, une position avec laquelle je sympathise, mais qui dépasse le cadre de cet article.)
Dans les études qui sont relativement simples et / ou standardisées, comme les essais cliniques, nous pouvons ajuster pour des choses comme les comparaisons multiples ou séquentielles et maintenir le taux d'erreur théorique; dans des études plus complexes et exploratoires, un modèle fréquentiste peut être inapplicable car le chercheur peut ne pas être pleinement conscient de toutes les décisions prises , encore moins les enregistrer et les présenter explicitement. Dans de tels cas, le chercheur doit (1) être honnête et franc sur ce qui a été fait; (2) présentent des valeurs de p avec de fortes mises en garde, ou pas du tout; (3) envisager de présenter d'autres sources de données, telles que la plausibilité préalable de l'hypothèse ou une étude de réplication de suivi.
la source
Il semble une erreur logique. Que le compteur de 1000 volts fonctionne ou non, l'ingénieur dit "si des relevés auraient été supérieurs à 100, j'aurais utilisé l'autre compteur". Mais comment aurait-il pu savoir que la tension était> 100 sans avoir utilisé le 1000 voltmètre?
Je ne pense pas que ce puzzle soit suffisamment bien formulé pour poser une question philosophique utile. Pratiquement, je suis d'accord avec la réponse que la bonne chose est de faire un histogramme et de voir s'il a l'air tronqué.
Mais, en tout cas, rien dans la question ne traite des questions qui importent, comme: (1) quelle est la distribution connue (ou soupçonnée) des lectures, et pourquoi? Y a-t-il une raison de croire qu'ils sont normalement distribués? (2) Si cette question ne reçoit pas de réponse, comment a-t-on estimé un intervalle de confiance?
Pour aller à l'extrême, une certaine «tension» est mesurée. Supposons que l'alimentation ne puisse pas fournir plus de 100 volts. Si cela était vrai, il ne pouvait sans doute pas y avoir de mesures supérieures à 100 volts, donc le compteur n'est pas pertinent.
Il y a beaucoup plus - en termes de priorités, de contraintes, etc. - qui entrent dans l'estimation et similaires que la question ne le couvre. Cela ne ressemble pas au paradoxe du «Monty Hall», qui est net et propre.
la source