Après avoir suivi un cours de statistique et ensuite essayé d'aider d'autres étudiants, j'ai remarqué qu'un sujet qui inspire beaucoup de bousculades au bureau est l'interprétation des résultats de tests d'hypothèses statistiques. Il semble que les étudiants apprennent facilement à effectuer les calculs requis par un test donné, mais s’arrêtent à interpréter les résultats. De nombreux outils informatiques rapportent les résultats de tests en termes de "valeurs p" ou "valeurs t".
Comment expliqueriez-vous les points suivants aux étudiants qui suivent leur premier cours en statistiques:
Que signifie une "valeur p" par rapport à l'hypothèse testée? Existe-t-il des cas où l'on devrait rechercher une valeur p élevée ou une valeur p faible?
Quelle est la relation entre une valeur p et une valeur t?
Réponses:
Comprendre -valuep
Supposons que vous souhaitiez vérifier l'hypothèse selon laquelle la taille moyenne des étudiants de votre université est de pieds pouces. Vous collectez des hauteurs de étudiants sélectionnés au hasard et calculez la moyenne de l'échantillon (supposons qu'elle se trouve à pieds pouces). En utilisant une formule / routine statistique appropriée, vous calculez la valeur de votre hypothèse et vous dites qu'elle se situe à .7 100 5 9 p 0,065 7 100 5 9 p 0.06
Afin d’interpréter correctement , nous devons garder à l’esprit plusieurs choses:p=0.06
La première étape du test d’hypothèses classiques consiste à supposer que l’hypothèse considérée est vraie. (Dans notre contexte, nous supposons que la hauteur moyenne réelle est de ft pouces.)75 7
Imaginez que vous effectuiez le calcul suivant: Calculez la probabilité que la moyenne de l'échantillon soit supérieure à ft pouces en supposant que notre hypothèse est en fait correcte (voir le point 1).95 9
En d’autres termes, nous voulons savoir
Le calcul de l'étape 2 correspond à ce qu'on appelle la . Par conséquent, une valeur de signifierait que si nous répétions notre expérience plusieurs fois (chaque fois que nous sélectionnons étudiants au hasard et que nous calculons la moyenne de l'échantillon), nous pouvons nous attendre à voir un échantillon fois sur moyenne supérieure ou égale à ft pouces.p 0,06 100 6 100 5 9p p 0.06 100 6 100 5 9
Compte tenu de ce qui précède, devrions-nous conserver notre hypothèse selon laquelle notre hypothèse est vraie (voir l'étape 1)? Eh bien, un indique que l'une des deux choses s'est produite:p=0.06
ou
La manière traditionnelle de choisir entre (A) et (B) consiste à choisir une valeur de coupure arbitraire pour . Nous choisissons (A) si et (B) si .p > 0,05 p < 0,05p p>0.05 p<0.05
la source
Un dialogue entre un enseignant et un étudiant attentif
Soumis humblement, convaincu que pas assez de crayons ont été utilisés jusqu'à présent dans ce fil. Un bref résumé illustré apparaît à la fin.
Étudiant : Que signifie une valeur de p? Beaucoup de gens semblent s'accorder pour dire que c'est la chance que nous "voyions une moyenne d'échantillon supérieure ou égale à" une statistique ou "la probabilité d'observer ce résultat ... étant donné que l'hypothèse nulle est vraie" ou "la statistique de mon échantillon est tombé sur une distribution "simulée" et même "la probabilité d'observer une statistique de test au moins aussi grande que celle calculée en supposant que l'hypothèse nulle soit vraie" .
Enseignant : Bien compris, toutes ces déclarations sont correctes dans de nombreuses circonstances.
Étudiant : Je ne vois pas comment la plupart d'entre eux sont pertinents. Ne nous avez-vous pas une hypothèse nulle et une hypothèse alternative ? Comment sont-ils impliqués dans ces idées de "plus grand ou égal à" ou de "au moins aussi grand" ou du très populaire "plus extrême"?H AH0 HA
Enseignant : Parce que cela peut sembler compliqué en général, cela nous aiderait-il d'explorer un exemple concret?
Étudiant : bien sûr. Mais s'il vous plaît, faites-en un réaliste mais simple si vous le pouvez.
Enseignant : Cette théorie des tests d’hypothèses a historiquement commencé avec la nécessité pour les astronomes d’analyser les erreurs d’observation. Un jour, je parcourais de vieux documents où un scientifique a décrit ses efforts pour réduire l’erreur de mesure dans son appareil. Il avait pris de nombreuses mesures d'une étoile dans une position connue et avait enregistré leurs déplacements devant ou derrière cette position. Pour visualiser ces déplacements, il a dessiné un histogramme qui - une fois lissé - ressemblait à celui-ci.
Etudiant : Je me souviens du fonctionnement des histogrammes: l’axe vertical s’appelle "Densité" pour me rappeler que les fréquences relatives des mesures sont représentées par la surface plutôt que par la hauteur.
Enseignant : C'est vrai. Une valeur "inhabituelle" ou "extrême" serait située dans une région avec une zone assez petite. Voici un crayon. Pensez-vous que vous pourriez colorier une région dont la superficie n’est que le dixième du total?
Étudiant : bien sûr; c'est facile. [Couleurs dans la figure.]
Enseignant : Très bien! Cela ressemble à environ 10% de la région pour moi. Rappelez-vous cependant que les seules zones de l'histogramme qui importent sont celles situées entre les lignes verticales: elles représentent la probabilité ou la probabilité que le déplacement soit situé entre ces lignes sur l'axe horizontal. Cela signifie que vous deviez colorier jusqu'au fond et que cela représenterait plus de la moitié de la surface, n'est-ce pas?
Étudiant : Oh, je vois. Laissez-moi réessayer. Je vais vouloir colorer là où la courbe est vraiment basse, n'est-ce pas? C'est le plus bas aux deux extrémités. Dois-je colorier un seul domaine ou est-ce que je peux le scinder en plusieurs parties?
Enseignant : Utiliser plusieurs parties est une bonne idée. Où seraient-ils?
Étudiant (montrant): ici et ici. Ce crayon n'étant pas très net, j'ai utilisé un stylo pour vous montrer les lignes que j'utilise.
Enseignant : Très bien! Laissez-moi vous raconter le reste de l'histoire. Le scientifique a apporté quelques améliorations à son appareil, puis il a pris des mesures supplémentaires. Il a écrit que le déplacement du premier n'était que de , ce qui, à son avis, était un bon signe, mais étant un scientifique avisé, il a procédé à plusieurs mesures afin de vérifier. Malheureusement, ces autres mesures ont été perdues (le manuscrit est interrompu à ce stade) et tout ce que nous avons, c'est ce nombre unique, .0,10.1 0.1
Étudiant : C'est dommage. Mais cela ne vaut-il pas mieux que le nombre important de déplacements dans votre silhouette?
Enseignant : C'est la question à laquelle j'aimerais que vous répondiez. Pour commencer, que devrions-nous poser comme ?H0
Etudiant : Eh bien, un sceptique se demanderait si les améliorations apportées à l’appareil avaient un effet quelconque. Le fardeau de la preuve incombe au scientifique: il voudrait montrer que le sceptique est faux. Cela me fait penser que l'hypothèse nulle est plutôt mauvaise pour le scientifique: elle indique que toutes les nouvelles mesures, y compris la valeur de nous connaissons, doivent se comporter comme décrit dans le premier histogramme. Ou peut-être même pire que cela: ils pourraient être encore plus dispersés.0.1
Professeur : Allez, tu vas bien.
Etudiant : Et l’alternative est donc que les nouvelles mesures soient moins dispersées, non?
Enseignant : Très bien! Pouvez-vous me dessiner à quoi ressemblerait un histogramme moins étendu? Voici une autre copie du premier histogramme; vous pouvez dessiner dessus comme référence.
Élève (dessin): J'utilise un stylo pour tracer le nouvel histogramme et je colore la zone située en dessous. J'ai fait en sorte que la majeure partie de la courbe soit proche de zéro sur l'axe horizontal et que, par conséquent, la plus grande partie de sa surface soit proche d'une valeur (horizontale) égale à zéro: c'est ce que signifie être moins étalé ou plus précis.
Enseignant : C'est un bon début. Mais rappelez-vous qu'un histogramme indiquant les chances devrait avoir une surface totale de . La surface totale du premier histogramme est donc de . Quelle est la superficie de votre nouvel histogramme?11 1
Étudiant : moins de la moitié, je pense. Je vois que c'est un problème, mais je ne sais pas comment le résoudre. Que devrais-je faire?
Enseignant : L'astuce consiste à rendre le nouvel histogramme plus élevé que l'ancien afin que sa surface totale soit égale à . Ici, je vais vous montrer une version générée par ordinateur pour illustrer.1
Etudiant : Je vois: vous l'avez étiré verticalement pour que sa forme ne change pas vraiment, mais maintenant la zone rouge et la zone grise (y compris la partie sous le rouge) sont identiques.
Enseignant : D'accord. Vous regardez une image de l'hypothèse nulle (en bleu, étalée) et une partie de l'hypothèse alternative (en rouge, avec un étalement moins important).
Étudiant : Qu'entendez-vous par "partie" de l'alternative? N'est-ce pas simplement l' hypothèse alternative?
Enseignant : Les statisticiens et la grammaire ne semblent pas se mélanger. :-) Sérieusement, ce qu'ils entendent par une "hypothèse" est généralement un ensemble de grandes possibilités. Ici, l’alternative (comme vous l’avez si bien dit auparavant) est que les mesures sont "moins étalées" qu’auparavant. Mais combien moins ? Il y a beaucoup de possibilités. Ici, laissez-moi vous en montrer un autre. Je l'ai dessiné avec des tirets jaunes. C'est entre les deux précédents.
Etudiant : Je vois: vous pouvez avoir différentes quantités de spread mais vous ne savez pas à l'avance à quel point la spread sera réellement. Mais pourquoi avez-vous créé les ombres amusantes sur cette image?
Enseignant : Je voulais souligner où et comment les histogrammes diffèrent. Je les ai ombrés en gris lorsque les histogrammes alternatifs sont inférieurs au zéro et en rouge lorsque les alternatives sont plus élevés .
Étudiant : Pourquoi est-ce important?
Enseignant : Vous rappelez-vous comment vous avez coloré le premier histogramme dans les deux queues? [Regardant dans les journaux.] Ah, le voici. Colorions cette image de la même manière.
Etudiant : Je me souviens: ce sont les valeurs extrêmes. J'ai trouvé les endroits où la densité nulle était aussi petite que possible et colorée dans 10% de la superficie.
Enseignant : Parlez-moi des alternatives dans ces zones extrêmes.
Etudiant : C'est difficile à voir, parce que le crayon l'a recouvert, mais il semble qu'il n'y ait presque aucune chance pour qu'une alternative soit dans les zones que j'ai colorées. Leurs histogrammes sont exactement en regard de l’axe des valeurs et il n’ya aucune place sous eux.
Enseignant : Continuons cette pensée. Si je vous disais, de façon hypothétique, qu'une mesure présentait un déplacement de et vous demandait de choisir lequel de ces trois histogrammes était celui qui venait le plus vraisemblablement, lequel choisirait-il?−2
Étudiant : Le premier - le bleu. C'est le plus répandu et c'est le seul où semble avoir une chance de se produire.−2
Enseignant : Et qu'en est-il de la valeur de dans le manuscrit?0.1
Étudiant : Hmmm… c'est une autre histoire. Les trois histogrammes sont assez haut au-dessus du sol à .0.1
Professeur : OK, assez bien. Mais supposons que je vous ai dit que la valeur se situait autour de , comme entre et . Est-ce que cela vous aide à lire certaines probabilités sur ces graphiques?0 0,20.1 0 0.2
Étudiant : Bien sûr, parce que je peux utiliser des zones. Il me suffit d'estimer les zones situées sous chaque courbe entre et . Mais cela semble assez difficile.0,20 0.2
Enseignant : Tu n'as pas besoin d'aller aussi loin. Pouvez-vous juste dire quelle zone est la plus grande?
Étudiant : Celui qui se trouve sous la courbe la plus haute, bien sûr. Les trois zones ont la même base, donc plus la courbe est haute, plus il y a de surface en dessous et à la base. Cela signifie que l'histogramme le plus haut - celui que j'ai dessiné, avec les tirets rouges - est le plus probable pour un déplacement de . Je pense que je vois où vous voulez en venir, mais je suis un peu inquiet: n'ai-je pas à regarder tous les histogrammes pour toutes les alternatives, pas seulement le ou les deux présentés ici? Comment pourrais-je faire cela?0.1
Enseignant : Vous savez bien tracer des motifs, alors dites-moi: à mesure que l'appareil de mesure est de plus en plus précis, qu'advient-il de son histogramme?
Etudiant : Ça devient plus étroit - oh, et il faut que ça grandisse aussi, donc sa surface totale reste la même. Cela rend assez difficile la comparaison des histogrammes. Les alternatives sont toutes supérieures au droit nul à , c'est évident. Mais pour d’autres valeurs, les alternatives sont parfois plus élevées et parfois plus basses! Par exemple, [pointant vers une valeur proche de ], ici mon histogramme rouge est le plus bas, l'histogramme jaune est le plus haut et l'histogramme nul d'origine est entre eux. Mais sur la droite, le zéro est le plus élevé.3 / quatre0 3/4
Enseignant : En général, comparer les histogrammes est une tâche compliquée. Pour nous aider à le faire, j'ai demandé à l'ordinateur de créer un autre graphique: il a divisé chacune des hauteurs d'histogramme (ou "densités") alternatives par la hauteur nulle de l'histogramme, créant ainsi des valeurs appelées "rapports de vraisemblance". Par conséquent, une valeur supérieure à signifie que la solution de rechange est plus probable, tandis qu'une valeur inférieure à signifie que la solution de rechange est moins probable. Il a encore trouvé une alternative: il est plus étendu que les deux autres, mais moins que l’appareil original.11 1
Enseignant (continuant): Pourriez-vous me montrer où les alternatives ont tendance à être plus probables que les nulles?
Étudiant (coloriage): ici au centre, évidemment. Et comme ce ne sont plus des histogrammes, je suppose que nous devrions regarder les hauteurs plutôt que les zones, alors je ne fais que marquer une plage de valeurs sur l’axe horizontal. Mais comment puis-je savoir dans quelle proportion colorer le milieu? Où puis-je arrêter de colorier?
Enseignant : Il n'y a pas de règle ferme. Tout dépend de la manière dont nous prévoyons d'utiliser nos conclusions et de la férocité des sceptiques. Mais asseyez - vous et pensez à ce que vous avez accompli: vous vous rendez compte maintenant que les résultats avec les grands rapports de vraisemblance sont la preuve de l'alternative et les résultats avec de petits rapports de vraisemblance sont des preuves contre l'autre. Ce que je vous demanderai de faire, c’est de colorier une zone qui, dans la mesure du possible, a une faible chance de se produire sous l’hypothèse nulle et une chance relativement grande de se produire sous les alternatives. En revenant au premier diagramme que vous avez coloré, il y a longtemps, au début de notre conversation, vous avez coloré les deux queues du zéro parce qu'elles étaient "extrêmes". Est-ce qu'ils feraient toujours un bon travail?
Étudiant : Je ne pense pas. Même s'ils étaient assez extrêmes et rares dans l'hypothèse nulle, ils sont pratiquement impossibles pour toutes les alternatives. Si ma nouvelle mesure était, disons , je pense que je me rangerais avec le sceptique et nierais toute amélioration, même si la était un résultat inhabituel dans tous les cas. Je veux changer cette coloration. Ici, laissez-moi un autre crayon.3.03.0 3.0
Enseignant : Qu'est-ce que cela représente?
Étudiant : Nous avons commencé par vous demander de ne dessiner que 10% de la surface sous l'histogramme d'origine - celui décrivant le zéro. Alors maintenant, j'ai attiré 10% de la zone où les alternatives semblent plus susceptibles de se produire. Je pense que quand une nouvelle mesure est dans ce domaine, cela nous dit que nous devons croire en la solution de rechange.
Enseignant : Et comment le sceptique devrait-il réagir à cela?
Étudiant : Un sceptique n'a jamais à admettre qu'il a tort, n'est-ce pas? Mais je pense que sa foi devrait être un peu secouée. Après tout, nous nous sommes arrangés pour que, bien qu’une mesure puisse être située dans la zone que je viens de dessiner, elle n’a que 10% de chances d’être présente lorsque la valeur nulle est vraie. Et il a plus de chance d’être présent lorsque l’alternative est vraie. Je ne peux tout simplement pas vous dire à quel point cette chance est grande, car cela dépend de la mesure dans laquelle le scientifique a amélioré l'appareil. Je sais juste que c'est plus grand. La preuve serait donc contre le sceptique.
Professeur : D'accord. Pourriez-vous résumer votre compréhension afin que nous sachions parfaitement ce que vous avez appris?
Etudiant : J'ai appris que pour comparer des hypothèses alternatives à des hypothèses nulles, nous devons comparer leurs histogrammes. Nous divisons les densités des alternatives par la densité du zéro: c'est ce que vous appelez le "ratio de vraisemblance". Pour faire un bon test, je devrais choisir un petit nombre, 10% ou tout ce qui pourrait suffire à ébranler un sceptique. Ensuite, je devrais trouver des valeurs où le rapport de probabilité est aussi élevé que possible et les colorer jusqu'à ce que 10% (ou peu importe) aient été colorés.
Enseignant : Et comment utiliseriez-vous cette coloration?
Etudiant : Comme tu me l'as rappelé plus tôt, la coloration doit être entre des lignes verticales. Les valeurs (sur l'axe horizontal) situées sous la coloration sont des preuves à l'appui de l'hypothèse nulle. Autres valeurs - eh bien, il est difficile de dire ce qu’elles pourraient signifier sans examiner de manière plus détaillée tous les histogrammes impliqués.
Enseignant : Pour en revenir à la valeur de dans le manuscrit, que concluriez-vous?0.1
Etudiant : C'est dans la zone que j'ai colorée en dernier, alors je pense que le scientifique avait probablement raison et que l'appareil était vraiment amélioré.
Enseignant : Une dernière chose. Votre conclusion était basée sur le critère de 10%, ou "taille" du test. Beaucoup de gens aiment utiliser 5% à la place. Certains préfèrent 1%. Que pourriez-vous leur dire?
Étudiant : Je ne pouvais pas faire tous ces tests à la fois! Eh bien, je pourrais peut-être en quelque sorte. Je peux voir que, quelle que soit la taille du test, je devrais commencer à colorier à partir de , ce qui est en ce sens la valeur "la plus extrême", et travailler ensuite dans les deux sens. Si je m'arrêtais bien à % - la valeur effectivement observée -, je pense que j'aurais coloré dans une zone située entre et , disons . Les gens à 5% et à 1% pouvaient dire tout de suite que je colorais trop: s'ils voulaient colorer à peine 5% ou 1%, ils le pouvaient, mais ils ne sortiraient pas aussi loin que %.0,1 0,05 0,1 0,08 0,10 0.1 0.05 0.1 0.08 0.1 . Ils n'arriveraient pas à la même conclusion que moi: ils diraient qu'il n'y a pas assez de preuves qu'un changement a réellement eu lieu.
Professeur : Vous venez de me dire ce que toutes ces citations au début veulent vraiment dire. Il devrait être évident d'après cet exemple qu'ils ne peuvent pas avoir l'intention "plus extrême", "supérieur ou égal" ou "au moins aussi grand" en ce sens qu'ils ont une valeur plus grande ou même une valeur où la densité nulle est petite. Ils signifient vraiment ces choses au sens des ratios de vraisemblance élevés que vous avez décrits. À propos, le nombre autour de que vous avez calculé s'appelle la "valeur p". Vous ne pouvez le comprendre correctement que de la manière que vous avez décrite: en ce qui concerne l’analyse des hauteurs relatives des histogrammes - les rapports de vraisemblance.0.08
Étudiant : merci. Je ne suis pas sûr de bien comprendre tout cela, mais vous m'avez donné beaucoup de matière à réflexion.
Enseignant : Si vous voulez aller plus loin, jetez un coup d'œil au lemme de Neyman-Pearson . Vous êtes probablement prêt à comprendre maintenant.
Synopsis
De nombreux tests basés sur une seule statistique, comme celle de la boîte de dialogue, l'appelleront " " ou " ". Ce sont des façons d'indiquer à quoi ressemble l'histogramme nul, mais ce ne sont que des indices: ce que nous appelons ce nombre importe peu. La construction résumée par l'étudiant, illustrée ici, montre comment elle est liée à la valeur p. La valeur p est la plus petite taille de test qui permettrait à une observation de de rejeter l'hypothèse nulle.t t = 0,1z t t=0.1
Sur cette figure, qui est agrandie pour montrer les détails, l’hypothèse nulle est tracée en bleu continu et deux alternatives typiques sont tracées avec des lignes en pointillés. La région où ces alternatives ont tendance à être beaucoup plus grandes que le zéro est ombrée. L'ombrage commence là où les probabilités relatives des alternatives sont les plus grandes (à ). L'ombrage cesse lorsque l'observation est atteinte. La valeur p est l'aire de la région ombrée sous l'histogramme nul: c'est la chance, en supposant que la valeur nulle soit vraie, d'observer un résultat dont les rapports de vraisemblance tendent à être importants quelle que soit l'alternative vraie. En particulier, cette construction dépend intimement de l'hypothèse alternative. Il ne peut être réalisé sans spécifier les alternatives possibles.t = 0,10 t=0.1
la source
Avant de toucher à ce sujet, je veille toujours à ce que les étudiants soient heureux de pouvoir se déplacer entre les pourcentages, les décimales, les probabilités et les fractions. S'ils ne sont pas complètement satisfaits de cela, ils peuvent se perdre rapidement.
J'aime expliquer pour la première fois les tests d'hypothèses (et donc les valeurs p et les statistiques de tests) via l'expérience classique du thé de Fisher. J'ai plusieurs raisons pour cela:
(i) Je pense que le fait de mener une expérience et de définir les termes au fur et à mesure est plus logique que de simplement définir tous ces termes. (ii) Vous n'avez pas besoin de vous fier explicitement aux distributions de probabilité, aux zones sous la courbe, etc. pour dépasser les points clés du test d'hypothèse. (iii) Il explique cette notion ridicule de "aussi ou plus extrême que celles observées" d'une manière assez raisonnable. (iv) Je trouve que les étudiants aiment comprendre l'histoire, les origines et l'histoire de ce qu'ils étudient pour la rendre plus réelle. que certaines théories abstraites. (v) Peu importe la discipline ou la matière des étudiants, ils peuvent se référer à l'exemple du thé (NB: Certains étudiants internationaux ont des difficultés avec cette institution particulièrement britannique du thé au lait.)
[Note: J'ai trouvé cette idée dans le merveilleux article de Dennis Lindley "L'analyse des données expérimentales: l'appréciation du thé et du vin" dans lequel il montre pourquoi les méthodes bayésiennes sont supérieures aux méthodes classiques.]
En arrière-plan, Muriel Bristol rend visite à Fisher un après-midi dans les années 1920 à la station expérimentale de Rothamsted pour une tasse de thé. Lorsque Fisher a mis le dernier lait en place, elle s'est plainte qu'elle puisse également dire si le lait était versé en premier (ou en dernier) et qu'elle préférait le premier. Pour mettre cela à l'épreuve, il a conçu son expérience thé classique où Muriel se voit présenter une paire de tasses à thé et doit identifier celle à laquelle le lait a été ajouté en premier. Ceci est répété avec six paires de tasses à thé. Elle a le choix entre Right (R) ou Wrong (W) et ses résultats sont les suivants: RRRRRW.
(a) l'hypothèse nulle (Muriel suppose) est vraie et un événement peu probable s'est produit ou,
(b) l'hypothèse nulle est fausse et Muriel a des pouvoirs discriminatoires.
La valeur p (ou valeur de probabilité) est la probabilité d'observer ce résultat (RRRRRW) étant donné que l'hypothèse nulle est vraie. Il s'agit de la faible probabilité mentionnée en (a) ci-dessus. Dans ce cas, c'est 0.016. Étant donné que les événements à faible probabilité ne se produisent que rarement (par définition), la situation (b) pourrait être une explication plus préférable de ce qui s’est passé que la situation (a). Lorsque nous rejetons l'hypothèse nulle, nous acceptons en réalité l'hypothèse opposée que nous appelons hypothèse alternative. Dans cet exemple, Muriel a des pouvoirs discriminatoires est l'hypothèse alternative.
Une considération importante est ce que nous appelons une "petite" probabilité. Quelle est la limite à laquelle nous sommes prêts à dire qu'un événement est peu probable? L'indice de référence standard est 5% (0,05) et est appelé le niveau de signification. Lorsque la valeur p est inférieure au niveau de signification, nous rejetons l'hypothèse nulle comme étant fausse et acceptons notre hypothèse alternative. Il est courant de dire qu'un résultat est "significatif" lorsque la valeur p est inférieure au niveau de signification, c'est-à-dire lorsque la probabilité que ce que nous avons observé se produise étant donné que l'hypothèse nulle est vraie est inférieure à notre seuil de coupure. Il est important de préciser que l’utilisation de 5% est totalement subjective (de même que l’utilisation des autres niveaux de signification communs de 1% et 10%).
Fisher réalisa que cela ne fonctionnait pas; chaque résultat possible avec une mauvaise paire évoquait également des pouvoirs discriminatoires. La probabilité pertinente pour la situation (a), ci-dessus, est donc 6 (0,5) ^ 6 = 0,094 (ou 6/64), ce qui n’est plus significative au seuil de signification de 5%. Pour remédier à cette situation, Fisher a fait valoir que si 1 erreur sur 6 est considérée comme une preuve de pouvoir discriminant, il en va de même, c’est-à-dire les résultats qui indiquent plus fortement des pouvoirs discriminatoires que celui observé doivent être inclus dans le calcul de la valeur p. Cela a entraîné la modification suivante du raisonnement, soit:
(a) l'hypothèse nulle (Muriel suppose) est vraie et la probabilité d'événements aussi extrêmes que celle observée ou plus extrêmes que ceux observés est faible, ou
(b) l'hypothèse nulle est fausse et Muriel a des pouvoirs discriminatoires.
Revenons à notre expérience sur le thé et nous trouvons que la valeur p sous cette configuration est 7 (0,5) ^ 6 = 0,109, ce qui n’est toujours pas significatif au seuil de 5%.
Je demande ensuite aux élèves de travailler avec d'autres exemples, tels que le tirage au sort, pour déterminer si une pièce est juste ou non. Cela nous apprend les concepts de l'hypothèse nulle / alternative, des valeurs p et des niveaux de signification. Nous passons ensuite au cas d'une variable continue et introduisons la notion de statistique test. Comme nous avons déjà traité de la distribution normale, de la distribution normale standard et de la transformation z en profondeur, il s’agit simplement de regrouper plusieurs concepts.
En plus du calcul des statistiques de test, des valeurs p et de la prise de décision (significatif / non significatif), je demande aux étudiants de travailler dans des documents publiés en complétant le jeu des blancs manquants.
la source
Aucune explication verbale ni aucun calcul ne m’ont réellement aidé à comprendre au plus profond de l’intestin quelles étaient les valeurs p, mais cela m’a vraiment mis au premier plan une fois que j’ai suivi un cours impliquant la simulation. Cela m'a donné la possibilité de voir les données générées par l'hypothèse nulle et de tracer les moyens / etc. des échantillons simulés, puis regardez où la statistique de mon échantillon est tombé sur cette distribution.
Je pense que l’avantage principal de ce logiciel est de permettre aux étudiants d’oublier un instant les distributions des statistiques de test et de calcul et de se concentrer sur les concepts abordés. Certes, il fallait que j'apprends comment simuler ce genre de choses, ce qui entraînera des problèmes pour un ensemble tout à fait différent des étudiants. Mais cela a fonctionné pour moi, et j’ai utilisé la simulation maintes fois pour expliquer avec succès les statistiques à d’autres (par exemple, "Voici à quoi ressemblent vos données; c’est à quoi ressemble une distribution de Poisson superposée. Etes-vous sûr de vouloir faire une régression de Poisson? ").
Cela ne répond pas exactement aux questions que vous avez posées, mais pour moi, du moins, cela les a rendues triviales.
la source
Une bonne définition de la valeur p est "la probabilité d'observer une statistique de test au moins aussi grande que celle calculée en supposant que l'hypothèse nulle soit vraie".
Le problème avec cela est que cela nécessite une compréhension de la "statistique de test" et de "l'hypothèse nulle". Mais c'est facile à faire comprendre. Si l'hypothèse nulle est vraie, quelque chose comme "paramètre de la population A est égal à paramètre de la population B", et que vous calculez des statistiques pour estimer ces paramètres, quelle est la probabilité de voir une statistique de test indiquant "ils sont ceci différent"?
Par exemple, si la pièce est juste, quelle est la probabilité que je voie 60 têtes sur 100 lancers? Cela teste l'hypothèse nulle, "la pièce est juste" ou "p = .5" où p est la probabilité des têtes.
La statistique de test dans ce cas serait le nombre de têtes.
Maintenant, je suppose que ce que vous appelez "valeur t" est une "statistique de test" générique, pas une valeur d'une "distribution t". Ce n'est pas la même chose, et le terme "valeur t" n'est pas (nécessairement) largement utilisé et pourrait prêter à confusion.
Ce que vous appelez "valeur t" est probablement ce que j'appelle "statistique de test". Afin de calculer une valeur p (rappelez-vous, il ne s'agit que d'une probabilité), vous avez besoin d'une distribution et d'une valeur à connecter à cette distribution qui renverra une probabilité. Une fois que vous faites cela, la probabilité que vous reveniez soit votre p-valeur. Vous pouvez voir qu'elles sont liées car sous la même distribution, différentes statistiques de test vont renvoyer différentes valeurs de p. Des statistiques de test plus extrêmes renverront des valeurs p plus basses, ce qui indiquera plus clairement que l'hypothèse nulle est fausse.
J'ai ignoré la question des valeurs p unilatérales et bilatérales ici.
la source
Imaginez que vous avez un sac contenant 900 billes noires et 100 billes blanches, c'est-à-dire que 10% des billes sont blanches. Maintenant, imaginez que vous sortiez une bille, la regardiez et enregistriez sa couleur, en retiriez une autre, enregistriez sa couleur, etc. et faites-la 100 fois. À la fin de ce processus, vous aurez un nombre pour les billes blanches qui, idéalement, s’attendrait à 10, c’est-à-dire 10% sur 100, mais peut en réalité être de 8, 13 ou peu importe simplement par hasard. Si vous répétez cette expérience de retrait de 100 billes plusieurs fois, puis que vous tracez un histogramme du nombre de billes blanches dessinées par expérience, vous obtiendrez une courbe de Bell centrée autour de 10.
Cela représente votre hypothèse de 10%: avec tout sac contenant 1000 billes dont 10% de billes blanches, si vous en sortez 100 au hasard, vous trouverez 10 billes blanches dans la sélection, à raison de 4 ou plus. La valeur p est tout au sujet de cette "donner ou prendre 4 ou plus." Supposons qu'en vous référant à la courbe de Bell créée précédemment, vous pouvez déterminer que moins de 5% du temps vous obtiendrez 5 billes blanches ou moins et qu'un autre <5% du temps représente au moins 15 billes blanches, c.-à-d. temps, votre sélection de 100 billes contiendra entre 6 et 14 billes blanches incluses.
En supposant que quelqu'un dépose un sac de 1000 billes contenant un nombre inconnu de billes blanches, nous avons les outils pour répondre à ces questions.
i) Y a-t-il moins de 100 billes blanches?
ii) Y a-t-il plus de 100 billes blanches?
iii) Le sac contient-il 100 billes blanches?
Sortez simplement 100 billes du sac et comptez combien de ces échantillons sont blancs.
a) S'il y a 6 à 14 blancs dans l'échantillon, vous ne pouvez pas rejeter l'hypothèse qu'il y a 100 billes blanches dans le sac et que les valeurs p correspondantes de 6 à 14 seront> 0,05.
b) S'il y a 5 blancs ou moins dans l'échantillon, vous pouvez rejeter l'hypothèse qu'il y a 100 billes blanches dans le sac et que les valeurs p correspondantes pour 5 ou moins seront <0,05. Vous vous attendez à ce que le sac contienne <10% de billes blanches.
c) S'il y a 15 blancs ou plus dans l'échantillon, vous pouvez rejeter l'hypothèse selon laquelle il y a 100 billes blanches dans le sac et que les valeurs p correspondantes pour 15 ou plus seront <0,05. Vous vous attendez à ce que le sac contienne plus de 10% de billes blanches.
En réponse au commentaire de Baltimark
Compte tenu de l'exemple ci-dessus, il existe environ: -
4,8% de chances d'obtenir 5 boules blanches ou moins
1,85% de chance sur 4 ou moins
0,55% de chance sur 3 ou moins
0,1% de chance sur 2 ou moins
6.25% de chance sur 15 ou plus
3,25% de chance sur 16 ou plus
1,5% de chance sur 17 ou plus
0,65% de chance sur 18 ou plus
0,25% de chance sur 19 ou plus
0,1% de chance sur 20 ou plus
0,05% de chance sur 21 ou plus
Ces nombres ont été estimés à partir d'une distribution empirique générée par une simple routine de Monte Carlo exécutée dans R et les quantiles résultants de la distribution d'échantillonnage.
Pour répondre à la question initiale, supposons que vous tiriez 5 boules blanches, il n'y a qu'environ 4,8% de chances que si le sac en marbre contient réellement 10% de boules blanches, vous ne tirez que 5 blancs sur un échantillon de 100. Cela équivaut à une valeur p <0,05. Vous devez maintenant choisir entre
i) Il y a vraiment 10% de balles blanches dans le sac et je viens d'être "malchanceux" d'en tirer si peu
ou
ii) J'ai dessiné tellement peu de boules blanches qu'il ne peut pas y avoir vraiment 10% de boules blanches (rejetez l'hypothèse de 10% de boules blanches)
la source
La valeur p ne vous dit pas quelle est la probabilité que l'hypothèse nulle soit vraie. Dans le cadre de test de signification conventionnel (Fisher), nous calculons d’abord la probabilité d’observer les données en supposant que l’hypothèse nulle est vraie, c’est la valeur p. Il semble intuitivement raisonnable de supposer que l'hypothèse nulle est probablement fausse si les données sont suffisamment improbables pour être observées sous l'hypothèse nulle. C'est tout à fait raisonnable. Les statisticiens utilisent habituellement un seuil et "rejettent l'hypothèse nulle au niveau de signification de 95%" si (1 - p)> 0,95; Cependant, il s'agit simplement d'une convention qui s'est révélée raisonnable dans la pratique - cela ne signifie pas qu'il y a moins de 5% de probabilité que l'hypothèse nulle soit fausse (et donc une probabilité de 95% que l'hypothèse alternative soit vraie).
Imagerie d'une fonction f () qui mappe la valeur p sur la probabilité que l'hypothèse alternative soit vraie. Il serait raisonnable d'affirmer que cette fonction est strictement décroissante (de sorte que plus les observations sous l'hypothèse nulle sont probables, moins l'hypothèse alternative est vraie) et qu'elle donne des valeurs comprises entre 0 et 1 (car elle donne une estimation). de probabilité). Cependant, c’est tout ce que nous savons sur f (). Par conséquent, s’il existe une relation entre p et la probabilité que l’hypothèse alternative soit vraie, elle n’est pas calibrée. Cela signifie que nous ne pouvons pas utiliser la valeur p pour faire des déclarations quantitatives sur la plausibilité des hypothèses nulll et alternatve.
Mise en garde: Il n'est pas vraiment dans le cadre fréquentiste de parler de la probabilité qu'une hypothèse soit vraie, car ce n'est pas une variable aléatoire - c'est vrai ou ce n'est pas le cas. Donc, là où j’ai parlé de la probabilité de vérité d’une hypothèse, j’ai implicitement opté pour une interprétation bayésienne. Il est incorrect de mélanger bayésien et fréquentiste. Cependant, il est toujours tentant de le faire, car ce que nous voulons réellement est une indication quantitative de la plausibilité / probabilité relative des hypothèses. Mais ce n'est pas ce que la valeur p fournit.
la source
En statistique, on ne peut jamais dire que quelque chose est absolument certain, aussi les statisticiens utilisent-ils une autre approche pour déterminer si une hypothèse est vraie ou non. Ils tentent de rejeter toutes les autres hypothèses non supportées par les données.
Pour ce faire, les tests statistiques ont une hypothèse nulle et une hypothèse alternative. La valeur p rapportée par un test statistique est la probabilité du résultat étant donné que l'hypothèse nulle était correcte. C'est pourquoi nous voulons de petites valeurs p. Plus elles sont petites, moins le résultat serait probable si l'hypothèse nulle était correcte. Si la valeur p est suffisamment petite (c'est-à-dire qu'il est très improbable que le résultat se soit produit si l'hypothèse nulle était correcte), l'hypothèse nulle est rejetée.
De cette manière, des hypothèses nulles peuvent être formulées et ensuite rejetées. Si l'hypothèse nulle est rejetée, vous acceptez l'hypothèse alternative comme la meilleure explication. Rappelez-vous cependant que l’hypothèse alternative n’est jamais certaine, puisque l’hypothèse nulle aurait pu, par hasard, générer les résultats.
la source
Je suis un peu timide pour relancer le vieux sujet, mais j'ai sauté d' ici , alors je poste ceci en réponse à la question dans le lien.
La p-valeur est un terme concret, il ne devrait pas y avoir de malentendu. Mais, il est en quelque sorte mystique que les traductions familières de la définition de p-valeur conduisent à de nombreuses interprétations erronées. Je pense que la racine du problème réside dans l'utilisation des expressions "au moins aussi défavorable que l'hypothèse nulle" ou "au moins aussi extrême que celle de votre échantillon de données" etc.
Par exemple, Wikipedia dit
Je pense qu'il vaut mieux laisser le "résultat plus extrême" à quelque chose comme un acte de langage indirect . Alors, ma prise est
x
Comme la valeur p est petite, il est très improbable que l’échantillon
x
ait été tiré dans le monde hypothétique. Par conséquent, nous concluons qu’il est très peu probable que le monde supposé soit en réalité le monde réel.la source
Je trouve utile de suivre une séquence dans laquelle vous expliquez les concepts dans l’ordre suivant: (1) Le score z et les proportions au-dessus et au-dessous du score z en supposant une courbe normale. (2) La notion de distribution d’échantillonnage et le score z pour un échantillon donné ont une moyenne lorsque l’écart-type de la population est connu (et donc le test z à un échantillon) (3) Le test t à un échantillon et la probabilité d’un moyenne de l'échantillon lorsque l'écart type de la population est inconnu (plein d'histoires sur l'identité secrète d'un certain statisticien industriel et les raisons pour lesquelles Guinness est bon pour les statistiques). (4) Le test t à deux échantillons et la distribution d'échantillonnage des différences moyennes. La facilité avec laquelle les débutants saisissent le test t est pour beaucoup dans le travail préparatoire à la préparation de ce sujet.
/ * instructeur de mode étudiant terrifié off * /
la source
J'ai également trouvé que les simulations étaient utiles pour l'enseignement.
pnorm(tstat)
nullMeans
la source
Au sens ontologique (qu'est-ce que la vérité?), Cela ne signifie rien . Tout test d'hypothèse est basé sur des hypothèses non testées . Cela fait normalement partie du test lui-même, mais également du modèle que vous utilisez (par exemple, dans un modèle de régression). Comme nous ne faisons que les assumer, nous ne pouvons pas savoir si la raison pour laquelle la valeur p est inférieure à notre seuil est que la valeur null est false. C’est un non séquentiel de déduire inconditionnellement qu’en raison d’une valeur p faible, nous devons rejeter la valeur null. Par exemple, quelque chose dans le modèle pourrait être faux.
Au sens épistémologique (que pouvons-nous apprendre?), Cela signifie quelque chose . Vous acquérez des connaissances à condition que les lieux non testés soient vrais. Puisque (du moins jusqu'à présent), nous ne pouvons pas prouver tous les édifices de la réalité, toutes nos connaissances seront nécessairement conditionnelles. Nous n'arriverons jamais à la "vérité".
la source
Je pense que des exemples impliquant des billes ou des pièces de monnaie ou une mesure de la hauteur peuvent être utiles pour la pratique du calcul, mais ils ne sont pas bons pour la construction de l'intuition. Les étudiants aiment interroger la société, non? Pourquoi ne pas utiliser un exemple politique?
Supposons qu'un candidat politique ait mené une campagne promettant qu'une politique aiderait l'économie. Elle a été élue, la politique a été adoptée et, deux ans plus tard, l’économie est en plein essor. Elle est prête à être réélue et affirme que sa politique est la raison de la prospérité de tous. Devez-vous la réélire?
Le citoyen avisé devrait dire: "Bien, c'est vrai que l'économie va bien, mais pouvons-nous vraiment attribuer cela à votre politique?" Pour véritablement répondre à cette question, nous devons examiner la question "L’économie aurait-elle bien réussi au cours des deux dernières années sans cela?" Si la réponse est oui (par exemple, l'économie est en plein essor en raison de nouveaux développements technologiques indépendants), nous rejetons l'explication des données fournie par le politicien.
Autrement dit, pour examiner une hypothèse (la politique a aidé l'économie), nous devons construire un modèle du monde où cette hypothèse est nulle (la politique n'a jamais été adoptée). Nous faisons ensuite une prédiction sous ce modèle. Nous appelons la probabilité p d'observer ces données dans ce monde alternatif . Si la valeur p est trop élevée, nous ne sommes pas convaincus par l'hypothèse: la politique ne fait aucune différence. Si la valeur p est basse, nous croyons en l’hypothèse: la politique était essentielle.
la source
la source
La valeur p n’est pas aussi mystérieuse que le prétendent la plupart des analystes. C'est une façon de ne pas avoir à calculer l'intervalle de confiance pour un test t mais simplement de déterminer le niveau de confiance avec lequel l'hypothèse nulle peut être rejetée.
ILLUSTRATION. Vous faites un test. La valeur p est égale à 0,1866 pour la variable Q et à 0,0023 pour la variable R. (Ceux-ci sont exprimés en%).
Si vous testez à un niveau de confiance de 95%, rejetez l'hypo nulle;
pour Q: 100-18,66 = 81,34%
pour R: 100-0,23 = 99,77%.
À un niveau de confiance de 95%, Q donne une confiance de 81,34% à rejeter. Cela tombe en dessous de 95% et est inacceptable. ACCEPTER NULL.
R donne une confiance de 99,77% pour rejeter null. Clairement au-dessus des 95% souhaités. Nous rejetons donc le nul.
Je viens d'illustrer la lecture de la valeur p par une «méthode inverse» pour la mesurer jusqu'au niveau de confiance auquel nous rejetons l'hypo nulle.
la source
****** La valeur p dans le test d'hypothèse mesure la sensibilité du test. Plus la valeur p est basse, plus la sensibilité est grande. si le niveau de signification est défini sur 0,05, la valeur p de 0,0001 indique une probabilité élevée que les résultats du test soient corrects. ******
la source