Pourquoi continuer à enseigner et à utiliser les tests d'hypothèses (avec tous ses concepts difficiles et lesquels comptent parmi les péchés les plus statistiques) pour des problèmes comportant un estimateur d'intervalle (confiance, bootstrap, crédibilité ou autre)? Quelle est la meilleure explication (le cas échéant) à donner aux étudiants? Seulement la tradition? Les points de vue seront les bienvenus.
hypothesis-testing
confidence-interval
teaching
Washington S. Silva
la source
la source
Réponses:
Ceci est mon opinion personnelle, donc je ne suis pas sûr que cela puisse être considéré comme une réponse.
Pourquoi devrions-nous enseigner les tests d'hypothèses?
En résumé, une très grande raison est probablement que, dans le temps qu'il vous a fallu pour lire cette phrase, des centaines, voire des milliers (ou des millions) de tests d'hypothèses ont été réalisés dans un rayon de moins de 10 pieds de votre position.
Votre téléphone portable utilise définitivement un test du rapport de probabilité pour déterminer s'il se trouve ou non à portée d'une station de base. Le matériel WiFi de votre ordinateur portable fait de même pour communiquer avec votre routeur.
Le micro-ondes que vous utilisiez pour réchauffer automatiquement ce morceau de pizza âgé de deux jours utilisait un test d'hypothèse pour déterminer à quel moment votre pizza était suffisamment chaude.
Le système antipatinage de votre voiture est entré en action lorsque vous lui avez donné trop d'essence sur une route verglacée ou que le système d'avertissement de pression des pneus vous a fait savoir que le pneu de votre passager arrière était anormalement bas et que vos phares se sont allumés automatiquement vers 5 heures: 19h au crépuscule
Votre iPad rend cette page au format paysage en fonction des lectures (bruyantes) de l'accéléromètre.
Votre compagnie de carte de crédit a fermé votre carte lorsque "vous" avez acheté une télévision à écran plat dans un magasin Best Buy au Texas et une bague en diamant de 2 000 $ chez Zales dans un centre commercial de l'État de Washington quelques heures après l'achat d'un repas, d'essence et d'un film près de chez vous dans la banlieue de Pittsburgh.
Les centaines de milliers de bits qui ont été envoyés pour rendre cette page dans votre navigateur chaque individuellement subi un test d'hypothèse pour déterminer si elles étaient très probablement un 0 ou un 1 (en plus une étonnante correction d' erreurs).
Regardez un peu à votre droite ces sujets "liés".
Toutes ces choses "sont arrivées" en raison de tests d'hypothèses . Pour beaucoup de ces choses, une estimation d'intervalle de certains paramètres pourrait être calculée. Mais, en particulier pour les processus industriels automatisés, l'utilisation et la compréhension des tests d'hypothèses sont cruciales.
Sur un plan statistique plus théorique, l’important concept de puissance statistique découle assez naturellement d’un cadre fondé sur la théorie de la décision / la vérification d’hypothèses. De plus, je crois que "même" un pur mathématicien peut apprécier la beauté et la simplicité du lemme de Neyman-Pearson et de sa preuve.
Cela ne veut pas dire que le test d'hypothèse est bien enseigné ou compris. En gros, ce n'est pas. Et, bien que je sois d’accord pour dire que, en particulier dans le domaine des sciences médicales, la présentation d’estimations par intervalles ainsi que la taille des effets et les notions de signification pratique par opposition à statistique sont presque toujours préférables à tout test d’hypothèse formelle, cela ne signifie pas que le test d’hypothèse et les les concepts ne sont pas importants et intéressants en soi.
la source
J'enseigne les tests d'hypothèse pour un certain nombre de raisons. L’un est historique, qu’ils devront comprendre un grand nombre de recherches antérieures qu’ils ont lues et comprendre le point de vue de la vérification des hypothèses. Deuxièmement, même à l’époque moderne, certains chercheurs l’utilisent encore, souvent de manière implicite, lorsqu’ils effectuent d’autres types d’analyses statistiques.
Mais quand je l'enseigne, je l'enseigne dans le cadre de la construction de modèles, que ces hypothèses et estimations font partie des modèles de construction. De cette façon, il est relativement facile de comparer des modèles plus complexes et théoriquement intéressants. La recherche oppose plus souvent les théories les unes aux autres plutôt qu’une théorie contre rien.
Les péchés des tests d'hypothèses ne sont pas inhérents aux calculs, et à l'utilisation correcte de ces calculs. Là où ils se trouvent principalement, il y a une confiance excessive et une interprétation erronée. Si une vaste majorité de chercheurs naïfs utilisait exclusivement l'estimation d'intervalle sans aucune reconnaissance des relations avec ces éléments, nous appelons hypothèses, nous pourrions appeler cela un péché.
la source
la source
Je pense que cela dépend de la vérification des hypothèses dont vous parlez. Le test d'hypothèse "classique" (Neyman-Pearson) est considéré comme défectueux car il ne conditionne pas de manière appropriée ce qui s'est réellement passé lorsque vous avez effectué le test . Il est plutôt conçu pour fonctionner "indépendamment" de ce que vous avez réellement vu à long terme. Toutefois, le non-respect des conditions peut conduire à des résultats trompeurs dans chaque cas. C'est simplement parce que la procédure "ne se soucie pas" du cas individuel, à long terme.
L’hypothèse peut être testée dans le cadre théorique de la décision, ce qui, à mon avis, est un moyen bien plus efficace de le comprendre. Vous pouvez reformuler le problème en deux décisions:
Le cadre décisionnel est beaucoup plus facile à comprendre, car il sépare clairement les concepts de "que ferez-vous?" et "quelle est la vérité?" (via vos informations préalables).
Vous pouvez même appliquer la "théorie de la décision" (DT) à votre question. Mais pour mettre fin aux tests d’hypothèses, DT déclare que vous devez disposer d’une autre décision. La question est donc la suivante: si le test d’hypothèse est abandonné, qu’est-ce qui doit le remplacer? Je ne peux pas penser à une réponse à cette question. Je ne peux que penser à d'autres moyens de faire des tests d'hypothèses.
(REMARQUE: dans le contexte du test d'hypothèse, les données, la distribution d'échantillonnage, la distribution antérieure et la fonction de perte sont toutes des informations préalables car elles ont été obtenues avant la prise de décision.)
la source
Si j’étais un frequentiste convaincu, je vous rappellerais que les intervalles de confiance sont assez régulièrement des tests d’hypothèses inversés, c’est-à-dire lorsque l’intervalle de 95% est simplement une autre façon de décrire tous les points qu’un test impliquant vos données ne rejetterait pas au .05 niveau. Dans ces situations, une préférence pour l'un plutôt que pour l'autre est une question d'exposition plutôt que de méthode.
Bien sûr, l’exposition est importante, mais je pense que ce serait un très bon argument. Il est judicieux et explicite d'expliquer les deux approches en tant que reformulations de la même inférence à partir de points de vue différents. (Le fait que tous les estimateurs d'intervalle ne soient pas des tests inversés est donc un fait inélégant, mais pas particulièrement gênant, sur le plan pédagogique).
La décision de conditionner les observations, comme indiqué ci-dessus, a des conséquences bien plus graves. Cependant, même en retrait, le Frequentist pouvait toujours observer qu'il existait de nombreuses situations (peut-être pas la majorité) dans lesquelles le conditionnement des observations serait imprudent ou peu éclairant. Pour ceux-là, la configuration HT / CI est (et ne correspond pas à "sont") exactement ce qui est souhaité et devrait être enseignée comme telle.
la source
En enseignant les tests d’hypothèses de Neyman Pearson aux tout premiers étudiants en statistiques, j’ai souvent essayé de le situer dans son contexte initial: celui de la prise de décisions. Ensuite, l'infrastructure des erreurs de type 1 et de type 2 a toutes un sens, tout comme l'idée que vous pourriez accepter l'hypothèse nulle.
Nous devons prendre une décision, nous pensons que le résultat de notre décision peut être amélioré par la connaissance d'un paramètre, nous ne disposons que d'une estimation de ce paramètre. Nous devons encore prendre une décision. Alors quelle est la meilleure décision à prendre dans le contexte d’une estimation du paramètre?
Il me semble que dans son contexte initial (prendre des décisions face à l'incertitude), le test d'hypothèse NP est parfaitement logique. Voir par exemple N & P 1933, en particulier p. 291.
Neyman et Pearson. Sur le problème des tests les plus efficaces des hypothèses statistiques. Transactions philosophiques de la Royal Society of London. Série A, contenant des papiers à caractère mathématique ou physique (1933) vol. 231 pages 289-337
la source
Le test d'hypothèse est un moyen utile de poser beaucoup de questions: l'effet d'un traitement est-il nul ou non? La capacité entre des énoncés tels que ceux-ci et un modèle ou une procédure statistique (y compris la construction d'un estimateur par intervalles) est importante pour les praticiens, je pense.
Il convient également de mentionner qu'un intervalle de confiance (au sens traditionnel du terme) n'est pas en soi moins «sujet au péché» que le test d'hypothèses - combien d'élèves en intro stats connaissent la définition réelle d'un intervalle de confiance?
Le problème n’est peut-être pas le test d’hypothèse ou l’estimation d’intervalle, mais bien les versions classiques de la même chose; la formulation bayésienne les évite assez bien.
la source
La raison est prise de décision. Dans la plupart des décisions, vous le faites ou non. Vous pouvez continuer à regarder des intervalles toute la journée, à la fin il y a un moment où vous décidez de le faire ou non.
Les tests d'hypothèses s'intègrent parfaitement dans cette simple réalité de OUI / NON.
la source