Pourquoi continuer à enseigner et à utiliser les tests d'hypothèses (lorsque des intervalles de confiance sont disponibles)?

56

Pourquoi continuer à enseigner et à utiliser les tests d'hypothèses (avec tous ses concepts difficiles et lesquels comptent parmi les péchés les plus statistiques) pour des problèmes comportant un estimateur d'intervalle (confiance, bootstrap, crédibilité ou autre)? Quelle est la meilleure explication (le cas échéant) à donner aux étudiants? Seulement la tradition? Les points de vue seront les bienvenus.

Washington S. Silva
la source
Dupliquer?
csgillespie
4
Ces citations sont très appropriées. Tous les modèles sont faux, mais certains sont utiles.
Mpiktas

Réponses:

60

Ceci est mon opinion personnelle, donc je ne suis pas sûr que cela puisse être considéré comme une réponse.

Pourquoi devrions-nous enseigner les tests d'hypothèses?

En résumé, une très grande raison est probablement que, dans le temps qu'il vous a fallu pour lire cette phrase, des centaines, voire des milliers (ou des millions) de tests d'hypothèses ont été réalisés dans un rayon de moins de 10 pieds de votre position.

Votre téléphone portable utilise définitivement un test du rapport de probabilité pour déterminer s'il se trouve ou non à portée d'une station de base. Le matériel WiFi de votre ordinateur portable fait de même pour communiquer avec votre routeur.

Le micro-ondes que vous utilisiez pour réchauffer automatiquement ce morceau de pizza âgé de deux jours utilisait un test d'hypothèse pour déterminer à quel moment votre pizza était suffisamment chaude.

Le système antipatinage de votre voiture est entré en action lorsque vous lui avez donné trop d'essence sur une route verglacée ou que le système d'avertissement de pression des pneus vous a fait savoir que le pneu de votre passager arrière était anormalement bas et que vos phares se sont allumés automatiquement vers 5 heures: 19h au crépuscule

Votre iPad rend cette page au format paysage en fonction des lectures (bruyantes) de l'accéléromètre.

Votre compagnie de carte de crédit a fermé votre carte lorsque "vous" avez acheté une télévision à écran plat dans un magasin Best Buy au Texas et une bague en diamant de 2 000 $ chez Zales dans un centre commercial de l'État de Washington quelques heures après l'achat d'un repas, d'essence et d'un film près de chez vous dans la banlieue de Pittsburgh.

Les centaines de milliers de bits qui ont été envoyés pour rendre cette page dans votre navigateur chaque individuellement subi un test d'hypothèse pour déterminer si elles étaient très probablement un 0 ou un 1 (en plus une étonnante correction d' erreurs).

Regardez un peu à votre droite ces sujets "liés".

Toutes ces choses "sont arrivées" en raison de tests d'hypothèses . Pour beaucoup de ces choses, une estimation d'intervalle de certains paramètres pourrait être calculée. Mais, en particulier pour les processus industriels automatisés, l'utilisation et la compréhension des tests d'hypothèses sont cruciales.


Sur un plan statistique plus théorique, l’important concept de puissance statistique découle assez naturellement d’un cadre fondé sur la théorie de la décision / la vérification d’hypothèses. De plus, je crois que "même" un pur mathématicien peut apprécier la beauté et la simplicité du lemme de Neyman-Pearson et de sa preuve.

Cela ne veut pas dire que le test d'hypothèse est bien enseigné ou compris. En gros, ce n'est pas. Et, bien que je sois d’accord pour dire que, en particulier dans le domaine des sciences médicales, la présentation d’estimations par intervalles ainsi que la taille des effets et les notions de signification pratique par opposition à statistique sont presque toujours préférables à tout test d’hypothèse formelle, cela ne signifie pas que le test d’hypothèse et les les concepts ne sont pas importants et intéressants en soi.

cardinal
la source
2
Merci pour la liste intéressante d’exemples. Compte tenu de l'objectif de la question: contribuer au débat sur la révision de nos cours de statistiques, nous essaierons d'obtenir plus de détails sur la mise en œuvre de tests sur des appareils modernes, ce qui peut être une grande motivation pour nos étudiants en génie.
Washington S. Silva
3
La plupart de vos exemples n’ont pas besoin de test d’hypothèse classique (impliquant un niveau de confiance fixe), mais d’une procédure de décision.
kjetil b halvorsen
1
Cher @kjetil: Pour être honnête, un vote négatif semble un peu sévère. En effet, la question ne demande rien de spécifique sur les tests d'hypothèses classiques , et ma réponse ne fait pas cette hypothèse non plus! ( Les tests d'hypothèses sont interprétés de manière large ici et avec une bonne raison.)
Cardinal
1
Je dois acheter un micro-ondes à réchauffage automatique.
Jmbejara
2
C’est une réponse très éloquente, mais je vous serais très reconnaissant si vous expliquiez un peu plus pourquoi toutes ces choses sont des "tests d’hypothèses". Je comprends que tous vos exemples concernent des décisions binaires automatisées. J'imagine que dans la plupart des cas, une valeur est mesurée et ensuite comparée à un seuil afin de décider si elle est au-dessus ou au-dessous (et donc d'arriver à la décision). Cela constitue-t-il déjà un "test d'hypothèse" pour vous ou vouliez-vous dire autre chose? J'imagine que lorsque OP a demandé pourquoi les tests d'hypothèses sont encore enseignés, ils ne se sont pas référés au simple seuillage.
Amibe dit de réintégrer Monica
29

J'enseigne les tests d'hypothèse pour un certain nombre de raisons. L’un est historique, qu’ils devront comprendre un grand nombre de recherches antérieures qu’ils ont lues et comprendre le point de vue de la vérification des hypothèses. Deuxièmement, même à l’époque moderne, certains chercheurs l’utilisent encore, souvent de manière implicite, lorsqu’ils effectuent d’autres types d’analyses statistiques.

Mais quand je l'enseigne, je l'enseigne dans le cadre de la construction de modèles, que ces hypothèses et estimations font partie des modèles de construction. De cette façon, il est relativement facile de comparer des modèles plus complexes et théoriquement intéressants. La recherche oppose plus souvent les théories les unes aux autres plutôt qu’une théorie contre rien.

Les péchés des tests d'hypothèses ne sont pas inhérents aux calculs, et à l'utilisation correcte de ces calculs. Là où ils se trouvent principalement, il y a une confiance excessive et une interprétation erronée. Si une vaste majorité de chercheurs naïfs utilisait exclusivement l'estimation d'intervalle sans aucune reconnaissance des relations avec ces éléments, nous appelons hypothèses, nous pourrions appeler cela un péché.

John
la source
+1, merci Bien argumenté. Mais dans les cours d'initiation, il n'y a pas de sélection de modèle, au sens strict. Vous pouvez citer d'autres contextes appropriés pour l'introduction du test d'hypothèse? Est-il acceptable de signaler le résultat d'un test sans estimation de la puissance?
Washington S. Silva
2
N'avoir aucune sélection de modèle dans les cours d'introduction n'est pas une nécessité. Si vous envisagez de changer de cours, considérez-le comme un bon point de départ.
Jean
20

PPPP

Frank Harrell
la source
2
Je ne voudrais pas que dans certains domaines, "Le seul endroit ..." et "inclure ANOVA ..." signifie que vous venez de couvrir une quantité énorme de la boîte à outils statistique.
Fomite
4
Je pense qu'il y a beaucoup à dire sur ce poste. Étant donné que de nombreux chercheurs veulent surtout connaître les tendances de leurs données, je me suis souvent demandé si nous pouvions raisonnablement mettre de côté beaucoup de statistiques et simplement utiliser des graphiques de données. (Bien sûr, cela suppose que les intrigues se dérouleraient avec habileté et perspicacité, et que les tests d'hypothèses seraient moins probants si nous pouvions en dire autant à leur sujet.)
gung - Reinstate Monica
1
Je suis en désaccord avec la citation "L'absence de preuve n'est pas une preuve d'absence". L'absence de preuve d'un effet n'est pas une preuve de l' absence d'effet, mais elle constitue certainement une preuve contre cet effet. La question est davantage de savoir combien de preuves contre l'effet d'un résultat non significatif a. Le problème avec les grandes valeurs p, je pense, est que dans le cas de la distribution normale, les grandes valeurs p sont la preuve de l'hypothèse, car elles sont une fonction monotone de la qualité de l'ajustement. Et parce que la distribution normale est si commune, les gens voient cela et extrapolent
probabilitéz-
5
P
11

Je pense que cela dépend de la vérification des hypothèses dont vous parlez. Le test d'hypothèse "classique" (Neyman-Pearson) est considéré comme défectueux car il ne conditionne pas de manière appropriée ce qui s'est réellement passé lorsque vous avez effectué le test . Il est plutôt conçu pour fonctionner "indépendamment" de ce que vous avez réellement vu à long terme. Toutefois, le non-respect des conditions peut conduire à des résultats trompeurs dans chaque cas. C'est simplement parce que la procédure "ne se soucie pas" du cas individuel, à long terme.

L’hypothèse peut être testée dans le cadre théorique de la décision, ce qui, à mon avis, est un moyen bien plus efficace de le comprendre. Vous pouvez reformuler le problème en deux décisions:

  1. H0
  2. HA

Le cadre décisionnel est beaucoup plus facile à comprendre, car il sépare clairement les concepts de "que ferez-vous?" et "quelle est la vérité?" (via vos informations préalables).

Vous pouvez même appliquer la "théorie de la décision" (DT) à votre question. Mais pour mettre fin aux tests d’hypothèses, DT déclare que vous devez disposer d’une autre décision. La question est donc la suivante: si le test d’hypothèse est abandonné, qu’est-ce qui doit le remplacer? Je ne peux pas penser à une réponse à cette question. Je ne peux que penser à d'autres moyens de faire des tests d'hypothèses.

(REMARQUE: dans le contexte du test d'hypothèse, les données, la distribution d'échantillonnage, la distribution antérieure et la fonction de perte sont toutes des informations préalables car elles ont été obtenues avant la prise de décision.)

probabilislogic
la source
Mon objectif en la matière était de recueillir des avis d’experts afin d’enrichir le débat sur la révision des cours de statistiques en cours à l’institut où je travaille au Brésil. L'objectif est atteint, avec des opinions aussi bien placées que celles de @ cardinal, @Andrew Robinson, @probabilityislogic et @JMS. Il est clair que les tests d'hypothèses (via NP, DT ou Byes) devraient être très bien enseignés, mais la difficulté de construire des cours de manière appropriée, étant donné l'universalité de l'enseignement de la statistique, est tout aussi complexe, voire plus complexe que la technique elle-même. Nous vous remercions de votre contribution.
Washington S. Silva
1
J'aime la théorie de la décision, si elle est appliquée rigoureusement à l'aide de méthodes bayésiennes intégrant des fonctions de perte / utilité raisonnables. Si de telles fonctions ne sont pas disponibles, j'ai tendance à privilégier l'estimation par intervalles.
Frank Harrell
@FrankHarrell - Je suis d'accord, mais je classerais encore l'estimation d'intervalle comme une sorte de "théorie de la décision" où la fonction d'utilité est généralement basée sur le contenu de l'information (les conclusions qui utilisent mieux l'information que nous avons sont meilleures) - et ceci est optimisé par la distribution postérieure elle-même, et éventuellement une prédiction postérieure si la prédiction est intéressante. L'estimation d'intervalle fournit un résumé pratique de la postérieur. Et de bons intervalles de confiance (basés sur le MLE, par exemple) fournissent une très bonne approximation lorsque les informations en dehors des données disponibles sont rares
probabilislogic
vous utilisez généralement une estimation d'intervalle lorsque vous n'avez pas de décision spécifique à l'esprit (ce qui est probablement la principale raison pour laquelle vous ne disposez pas d'une fonction de perte raisonnable) et que vous devez donc prendre en charge de nombreux scénarios différents.
probabilityislogic
9

Si j’étais un frequentiste convaincu, je vous rappellerais que les intervalles de confiance sont assez régulièrement des tests d’hypothèses inversés, c’est-à-dire lorsque l’intervalle de 95% est simplement une autre façon de décrire tous les points qu’un test impliquant vos données ne rejetterait pas au .05 niveau. Dans ces situations, une préférence pour l'un plutôt que pour l'autre est une question d'exposition plutôt que de méthode.

Bien sûr, l’exposition est importante, mais je pense que ce serait un très bon argument. Il est judicieux et explicite d'expliquer les deux approches en tant que reformulations de la même inférence à partir de points de vue différents. (Le fait que tous les estimateurs d'intervalle ne soient pas des tests inversés est donc un fait inélégant, mais pas particulièrement gênant, sur le plan pédagogique).

La décision de conditionner les observations, comme indiqué ci-dessus, a des conséquences bien plus graves. Cependant, même en retrait, le Frequentist pouvait toujours observer qu'il existait de nombreuses situations (peut-être pas la majorité) dans lesquelles le conditionnement des observations serait imprudent ou peu éclairant. Pour ceux-là, la configuration HT / CI est (et ne correspond pas à "sont") exactement ce qui est souhaité et devrait être enseignée comme telle.

conjuguéprior
la source
Formellement, tout test d'hypothèse avec borne alpha sur le taux d'erreur de type I peut être transformé en un intervalle de confiance avec paramètre de couverture (1-alpha) et inversement, non? Je ne pense pas qu'il faille être un fréquentiste hardcore pour croire que cela est impliqué dans les définitions. :-)
Keith Winstein Le
3
@ Keith Pas de discussion sur les définitions, mais vous devez être un Frequentist pour les considérer comme des éléments de mathématiques plus intéressants et peut-être pratiques. En d’autres termes, si vous pensez que les propriétés théoriques de l’échantillonnage sont essentielles pour l’inférence statistique, vous voudrez (ou devriez) également aimer les intervalles de confiance et les tests d’hypothèse car, comme nous en convenons, ils ont cette symétrie. Le mien était une réponse au contraste des questionneurs entre les «bons» IC et les «mauvais» HT. En les regroupant, j'ai voulu me recentrer sur les contrastes évoqués dans d'autres réponses.
conjugateprior
7

En enseignant les tests d’hypothèses de Neyman Pearson aux tout premiers étudiants en statistiques, j’ai souvent essayé de le situer dans son contexte initial: celui de la prise de décisions. Ensuite, l'infrastructure des erreurs de type 1 et de type 2 a toutes un sens, tout comme l'idée que vous pourriez accepter l'hypothèse nulle.

Nous devons prendre une décision, nous pensons que le résultat de notre décision peut être amélioré par la connaissance d'un paramètre, nous ne disposons que d'une estimation de ce paramètre. Nous devons encore prendre une décision. Alors quelle est la meilleure décision à prendre dans le contexte d’une estimation du paramètre?

Il me semble que dans son contexte initial (prendre des décisions face à l'incertitude), le test d'hypothèse NP est parfaitement logique. Voir par exemple N & P 1933, en particulier p. 291.

Neyman et Pearson. Sur le problème des tests les plus efficaces des hypothèses statistiques. Transactions philosophiques de la Royal Society of London. Série A, contenant des papiers à caractère mathématique ou physique (1933) vol. 231 pages 289-337

Andrew Robinson
la source
4

Le test d'hypothèse est un moyen utile de poser beaucoup de questions: l'effet d'un traitement est-il nul ou non? La capacité entre des énoncés tels que ceux-ci et un modèle ou une procédure statistique (y compris la construction d'un estimateur par intervalles) est importante pour les praticiens, je pense.

Il convient également de mentionner qu'un intervalle de confiance (au sens traditionnel du terme) n'est pas en soi moins «sujet au péché» que le test d'hypothèses - combien d'élèves en intro stats connaissent la définition réelle d'un intervalle de confiance?

Le problème n’est peut-être pas le test d’hypothèse ou l’estimation d’intervalle, mais bien les versions classiques de la même chose; la formulation bayésienne les évite assez bien.

JMS
la source
2
@JMS, "combien d'élèves de statistiques d'introduction connaissent la définition réelle d'un intervalle de confiance?" Ou, diplômés de doctorat, d'ailleurs.
cardinal
Assez! Incidemment, je voulais dire ne pas creuser le dos aux étudiants ou aux praticiens de toutes tendances. Mais il est un peu fou d’attendre la gymnastique mentale de quelqu'un qui ne s’est pas inscrit à des travaux avancés en statistiques.
JMS
2
Combien de personnes peuvent dire la vraie définition des IC? Et combien de personnes les utilisent systématiquement avec cette définition? C'est trop difficile de ne pas penser "le paramètre est susceptible d'être dans ledit intervalle" - même si vous savez que ce n'est pas ce qu'un IC est.
probabilityislogic
Il est recommandé de ne pas perdre de temps dans les statistiques
Washington S. Silva Le
1
Ce que j’ai essayé d’exprimer, c’est que les tests d’hypothèses non accompagnés d’estimations de puissance sont très discutables et que les estimations par intervalles n’ont pas cette source supplémentaire de complications.
Washington S. Silva
2

La raison est prise de décision. Dans la plupart des décisions, vous le faites ou non. Vous pouvez continuer à regarder des intervalles toute la journée, à la fin il y a un moment où vous décidez de le faire ou non.

Les tests d'hypothèses s'intègrent parfaitement dans cette simple réalité de OUI / NON.

Aksakal
la source