Que signifie le test d'hypothèse bayésien dans le cadre de la théorie de l'inférence et de la décision?

15

Mon expérience est principalement dans l'apprentissage automatique et j'essayais de comprendre ce que signifiait le test d'hypothèse bayésienne. Je suis d'accord avec l'interprétation bayésienne de la probabilité et je la connais dans le contexte des modèles graphiques probabilistes. Cependant, ce qui m'embrouille, c'est ce que le mot «hypothèse» signifie dans le contexte de l'inférence statistique.

Je pense que je suis surtout confus au sujet du vocabulaire auquel je suis habitué dans l'apprentissage automatique par rapport à ce qui est normalement utilisé dans les statistiques et l'inférence.

Dans le contexte de l' apprentissage supervisé , je pense que normalement de l'hypothèse que la fonction prédictive qui associe des exemples à ses étiquettes -à- dire h:XY . Cependant, il me semble que le terme hypothèse, dans les lectures que je fais, n'a pas le même sens. Permettez-moi de coller un extrait des lectures que je lis:

entrez la description de l'image ici

Si vous lisez attentivement, cela dit aussi:

il existe un modèle différent pour les données observées ...

étaient-ils utiliser le mot modèle. Pour moi, le mot modèle me fait penser à un ensemble de fonctions où nous sélectionnons une fonction prédictive spécifique. c'est-à-dire une classe d'hypothèses de fonction. Par exemple, pourrait être la classe d'hypothèses des fonctions quadratiques (polynôme de degré 2). Cependant, il me semble qu'ils utilisent le mot modèle et l'hypothèse comme synonymes dans cet extrait (où pour moi ce sont des mots complètement différents).Hd2

Ensuite, il mentionne que nous pouvons mettre des prieurs à l'hypothèse (une chose tout à fait raisonnable à faire dans un cadre bayésien):

pH(Hm),     m={0,1,...,M1}

on peut aussi caractériser les données avec une hypothèse courante:

py|H(|Hm),     m={0,1,...,M1}

et mettre à jour nos opinions actuelles compte tenu de certaines données (et de la règle de Baye):

pH|y(Hm|y),     m={0,1,...,M1}

Cependant, je suppose que je suis plus habitué à mettre une estimation bayésienne à un paramètre particulier (disons ) à partir d'une classe d'hypothèses plutôt qu'à l'ensemble de la classe d'hypothèses. Fondamentalement, car il semble que ces "hypothèses" ne soient pas les mêmes hypothèses du contexte d'apprentissage automatique auxquelles je suis habitué, il me semble que ces hypothèses sont plus similaires à un paramètre θ spécifique qu'à une classe d'hypothèses.θθ

À ce stade, j'étais convaincu que «hypothèse» signifiait la même chose que dans la fonction prédictive (paramétrisée par un paramètre , par exemple), mais je pense que j'avais tort ...θ

Pour aggraver ma confusion, plus tard, cette même lecture est allée de l'avant pour spécifier une "hypothèse" particulière à chaque exemple de formation qu'ils ont observé. Permettez-moi de coller un extrait de ce que je veux dire:

entrez la description de l'image ici

la raison pour laquelle cela m'embrouille est que, si j'interprète l'hypothèse comme un paramètre, alors pour moi, cela n'a aucun sens de spécifier un paramètre spécifique pour chaque valeur d'échantillon que nous voyons. À ce stade, j'ai conclu que je ne savais vraiment pas ce qu'ils voulaient dire par hypothèse, alors j'ai posé cette question.

Cependant, je n'ai pas complètement abandonné, j'ai recherché ce que signifie l'hypothèse dans les statistiques fréquentistes et j'ai trouvé la vidéo suivante de l' académie khan . Cette vidéo a beaucoup de sens pour moi (peut-être êtes-vous un fréquentateur! :) . Cependant, il semble qu'ils obtiennent un tas de données (comme un "ensemble d'échantillons") et en fonction des propriétés de l'ensemble d'échantillons, ils décident d'accepter ou de rejeter l'hypothèse nulle sur les données. Cependant, dans le contexte bayésien que je lis, il me semble que pour chaque vecteur de données [point] observé, ils le "marquent" avec une hypothèse avec le "test du rapport de vraisemblance":

entrez la description de l'image ici

La façon dont ils attribuent des hypothèses à chaque échantillon de données, semble même être un cadre d'apprentissage supervisé où nous attachons une étiquette à chaque ensemble de formation. Cependant, je ne pense pas que ce soit ce qu'ils font dans ce contexte. Que font-ils? Que signifie attribuer une hypothèse à chaque échantillon de données? Quelle est la signification d'une hypothèse? Que signifie le mot modèle?

Fondamentalement, après cette longue explication de ma confusion, quelqu'un sait-il ce que signifie le test d'hypothèse bayésienne dans ce contexte?


Si vous avez besoin d'éclaircissements ou de quoi que ce soit pour améliorer ma question ou pour que la question ait un sens, je suis plus qu'heureux de vous aider :)


Dans ma recherche d'une réponse, j'ai trouvé des choses utiles liées aux tests d'hypothèses statistiques:

Celui-ci adresse une bonne introduction au sujet si vous venez d'un arrière-plan CS (comme moi):

Qu'est-ce qu'une bonne introduction aux tests d'hypothèses statistiques pour les informaticiens?

À un moment donné, j'ai posé des questions sur les "paramètres par défaut" (que j'aurais dû définir ce que je voulais dire. Je pensais que c'était un terme standard mais ce n'est pas le cas, alors je vais y répondre) et je pense que ce que je voulais vraiment dire, c'est comment faire vous spécifiez des paramètres pour chaque hypothèse que vous avez. Par exemple, comment décidez-vous de votre hypothèse nulle et de ses paramètres. Il y a une question à ce sujet:

Comment spécifier l'hypothèse nulle dans le test d'hypothèse

Pinocchio
la source
@ Xi'an J'ai lu l'article wikipedia suivant: en.wikipedia.org/wiki/Statistical_model est-ce que cela veut dire un modèle et une hypothèse? merci pour votre patience btw :)
Pinocchio
3
J'hésite à me lancer dans cette discussion parce que je pense que votre problème est vraiment celui de comprendre ce que le test d'hypothèse signifie en principe, plutôt que spécifiquement ce qu'est le test d'hypothèse dans le cadre bayésien. Pour vous aider, je vous suggère de consulter le livre "Modes of Parametric Statistical Inference" de Geisser. books.google.ca/…
rocinante
@rocinante Je pense que je suis d'accord avec vous. Je suis définitivement confus au sujet des tests d'hypothèses en général (et le cadre bayésien n'aide pas du tout). Je vais définitivement y jeter un œil. Merci pour votre patience et votre compréhension, c'est grandement apprécié.
Pinocchio
Ce n'est pas une chose facile à comprendre parce que ce n'est pas une chose facile à articuler de manière concise. Plutôt que de penser à cela en termes abstraits (comme des cartes), peut-être que cela vous aidera si vous y réfléchissez avec un exemple plus simple.
rocinante
1
2/2 Supposons que vous ayez une pièce et que vous vouliez voir si elle est juste, alors vous la lancez 50 fois. Vous avez maintenant un ensemble de données sur lequel vous voulez faire une inférence (c'est-à-dire que la pièce est biaisée ou non). Logiquement, si la pièce est juste, environ la moitié des lancers devraient être des têtes. (Notez que ce n'est pas une dérivation des statistiques, mais votre propre raisonnement logique). Telle est votre hypothèse. Vous pouvez tester cette hypothèse de 2 manières: la voie bayésienne et la voie fréquentiste.
rocinante

Réponses:

10

Un modèle statistique est donné par une famille de distributions de probabilité. Lorsque le modèle est paramétrique, cette famille est indexée par un paramètre inconnu : F = { f ( | θ ) ; θ Θ } Si l'on veut tester une hypothèse sur θ comme H 0 :θ

F={f(|θ); θΘ}
θ , on peut considérer que deux modèles sont en opposition: F versus F 0 = { f ( | θ ) ; θ Θ 0 }H0:θΘ0F
F0={f(|θ); θΘ0}
De mon point de vue bayésien , je dessine l' inférence sur l'indice du modèle derrière les données, . Je mets donc un a priori sur cet indice, ρ 0 et ρ a , ainsi que sur les paramètres des deux modèles, π 0 ( θ )Mρ0ρaπ0(θ) sur et πΘ0 sur ( θ ) d θπa(θ) . Et je déduis ensuite la distribution postérieure de cet indice: π ( m = 0 | x ) = ρ 0 Θ 0 f ( x | θ ) π 0Θ Ledocument auquel vous avez liéva dans beaucoup plus de détails dans cette perspective et devrait être votre entrée de choix dans les tests statistiques d'hypothèses, à moins que vous ne puissiez vous permettre de parcourir tout un livre bayésien. Ou même un livre d'apprentissage automatique
π(m=0|x)=ρ0Θ0f(x|θ)π0(θ)dθρ0Θ0f(x|θ)π0(θ)dθ+(1ρ0)Θf(x|θ)πa(θ)dθ
comme celle de Kevin Murphy .

XN(θ,1)H0:θ=0θ=0N(0,1)θθN(0,dix)ρ0=1/2

π(m=0|x)=12πexp{x2/2}12πexp{x2/2}+R12πexp{(xθ)2/2}12π×10exp{θ2/20}dθ=exp{x2/2}exp{x2/2}+111exp{x2/22}
Xi'an
la source
pH(H0)F0θF0py|H(y|H0)H0H0
HmθFmHm=(θ,Fm)θFm
ϱ0H0F0ϱ0=0π0(θ)θH0 .
Xi'an
donc si l'hypothèse a est un tuple d'un modèle statistique proposé et d'un paramètre par défaut, comment le paramètre par défaut est-il choisi?
Pinocchio
θ=0
4

Excellente question. Je pense que votre confusion peut résulter de certaines des différences fondamentales entre les perspectives «fréquentiste» et «bayésienne». J'ai beaucoup d'expérience avec l'ancien et je suis nouveau pour le dernier, donc essayer quelques observations simples pourrait m'aider aussi. J'ai modifié votre question pour clarifier quelques distinctions - du moins, si je comprends bien. J'espère que ça ne vous dérange pas! Si je me trompe, vous pouvez modifier à nouveau votre question ou ajouter un commentaire sur cette réponse.

1) Au risque de paraître un peu trop élémentaire: Un modèle est une déclaration qui tente une explication de la réalité comme "Si j'avais des crêpes pour le petit déjeuner, ce doit être mardi". En tant que tel, un modèle est une hypothèse. Une citation célèbre de George Box: "Tous les modèles sont faux, certains modèles sont utiles." Pour qu'un modèle soit utile, il doit exister un moyen de le tester. Entrez le concept d'hypothèses concurrentes et la réponse à l'une de vos questions. Je dirais que «... dans le contexte de l'inférence statistique», une hypothèse est tout modèle qui peut être utile et peut être testé mathématiquement. Le test d'hypothèse est donc un moyen de décider si un modèle est utile ou non. En résumé, une hypothèse est un modèle à l'étude. Il peut s'agir de différentes valeurs de paramètres de la même fonction ou de différentes fonctions.

2) Votre vidéo Kahn est un exemple de ce que Bayesian appelle l'approche "Frequentist" des tests d'hypothèses, donc cela peut vous avoir dérouté lorsque vous essayez de l'appliquer à vos notes de cours qui sont Bayesian. J'ai essayé de trouver une distinction simple entre l'application des deux approches (qui peut être dangereuse). Je pense que je comprends assez bien la distinction philosophique. D'après ce que j'ai vu, le «Frequentist» suppose une composante aléatoire des données et teste la probabilité que les données observées reçoivent des paramètres non aléatoires. Le «bayésien» suppose que les données sont fixes et détermine la valeur la plus probable des paramètres aléatoires. Cette différence conduit à différentes méthodes de test.

Dans les tests d'hypothèse «fréquencistes», un modèle qui peut être utile est celui qui explique un certain effet, de sorte qu'il est comparé à «l'hypothèse nulle» - le modèle sans effet. On tente de mettre en place un modèle utile mutuellement exclusif au modèle sans effet. Le test porte alors sur la probabilité d'observer les données sous l'hypothèse d'aucun effet. Si cette probabilité s'avère faible, l'hypothèse nulle est rejetée et l'alternative est tout ce qui reste. (Notez qu'un puriste n'accepterait jamais l'hypothèse nulle, mais seulement "ne pas en rejeter" une. Cela peut ressembler à des anges dansant sur la tête d'une épingle mais la distinction est philosophique fondamentale) Les statistiques d'introduction commencent généralement par ce qui peut être l'exemple le plus simple: "Deux groupes sont différents."aussi grand ou plus grand que mesuré par une expérience aléatoire étant donné qu'ils ne sont pas différents. Il s'agit généralement d'un test t où l'hypothèse nulle est que la différence des moyennes est nulle. Le paramètre est donc la moyenne à une valeur fixe de zéro.

Le Bayésien dit: "Attendez une minute, nous avons fait ces mesures et elles sont différentes, alors quelle est la probabilité?" Ils calculent la probabilité pour chaque valeur du paramètre (maintenant) aléatoire et choisissent celle qui est la plus élevée comme la plus probable. Donc, dans un sens, chaque valeur possible du paramètre est un modèle distinct. Mais maintenant, ils ont besoin d'un moyen de décider si le modèle avec la plus forte probabilité est suffisamment différent pour avoir de l'importance. C'est pourquoi vos notes de cours ont introduit la fonction de coût. Pour prendre une bonne décision, il est nécessaire de supposer les conséquences d'une mauvaise décision.

3) "Que signifie attribuer une hypothèse à chaque échantillon de données?" Je ne pense pas qu'ils le soient. Soyez prudent avec ce que l'on entend par «point d'échantillonnage». Je crois qu'ils se réfèrent à un vecteur échantillon particulier et veulent savoir quelle est la probabilité de chaque hypothèse pour tous les vecteurs échantillon dans l'espace échantillon. Les équations (14) et (15) montrent comment comparer deux hypothèses pour un vecteur échantillon particulier. Ils simplifient donc un argument général de comparaison de plusieurs hypothèses en montrant comment en comparer seulement deux.

MT
la source
0

Supposons que vous ayez des données d'un ensemble de boîtes. Les données comprennent la longueur (L), la largeur (W), la hauteur (H) et le volume (V).

Si nous ne savons pas grand-chose sur les boîtes / géométrie, nous pourrions essayer le modèle:

V = a*L + b*W + c*H + e

Ce modèle comporte trois paramètres (a, b, c) qui pourraient être modifiés, plus un terme erreur / coût (e) décrivant dans quelle mesure l'hypothèse correspond aux données. Chaque combinaison de valeurs de paramètres serait considérée comme une hypothèse différente. La valeur du paramètre "par défaut" choisie est généralement zéro, ce qui dans l'exemple ci-dessus correspondrait à "aucune relation" entre V et L, W, H.

Ce que les gens font, c'est tester cette hypothèse "par défaut" en vérifiant si e est au-delà d'une certaine valeur seuil, généralement en calculant une valeur p en supposant une distribution d'erreur normale autour de l'ajustement du modèle. Si cette hypothèse est rejetée, ils trouvent alors la combinaison des paramètres a, b, c qui maximise la probabilité et présentent c'est l'hypothèse la plus probable. S'ils sont bayésiens, ils multiplient la probabilité par l'a priori pour chaque ensemble de valeurs de paramètres et choisissent la solution qui maximise la probabilité postérieure.

De toute évidence, cette stratégie n'est pas optimale dans la mesure où le modèle suppose l'additivité, et il manquera que l'hypothèse correcte soit:

V = L*W*H + e

Modifier: @Pinocchio

Peut-être que quelqu'un n'était pas d'accord avec l'affirmation selon laquelle le test d'hypothèse n'est pas optimal lorsqu'il n'y a aucune raison rationnelle de choisir une / quelques fonctions (ou comme vous le dites: "classes d'hypothèse") parmi l'infiniment possible. Bien sûr, cela est trivialement vrai, et "optimal" peut être utilisé dans le sens limité de "meilleur ajustement étant donné la fonction de coût et les choix fournis". Ce commentaire est entré dans ma réponse parce que je n'aimais pas comment la question de la spécification du modèle était passée sous silence dans vos notes de classe. C'est le principal problème auquel sont confrontés la plupart des scientifiques, pour lequel afaik il n'y a pas d'algorithme.

De plus, je ne pouvais pas comprendre les valeurs p, les tests d'hypothèse, etc. jusqu'à ce que je comprenne l'histoire, alors peut-être que cela vous aidera aussi. Il existe de multiples sources de confusion autour des tests d'hypothèses fréquentistes (je ne connais pas très bien l'histoire de la variante bayésienne).

Il y a ce que l'on appelait à l'origine "test d'hypothèse" au sens de Neyman-Pearson, "test de signification" tel que développé par Ronald Fisher, et aussi un "hybride" mal défini, jamais correctement justifié de ces deux stratégies largement utilisé dans les sciences (qui peut être désigné par hasard en utilisant soit le terme ci-dessus, soit «test de signification d'hypothèse nulle»). Bien que je ne recommanderais pas de prendre une page wikipedia comme faisant autorité, de nombreuses sources discutant de ces questions peuvent être trouvées ici . Quelques points principaux:

  1. L'utilisation d'une hypothèse «par défaut» ne fait pas partie de la procédure de test d'hypothèse d'origine, mais l'utilisateur est censé utiliser les connaissances préalables pour déterminer les modèles considérés. Je n'ai jamais vu de recommandations explicites de la part des partisans de ce modèle sur ce qu'il faut faire si nous n'avons aucune raison particulière de choisir un ensemble d'hypothèses donné à comparer. On dit souvent que cette approche convient au contrôle de la qualité, lorsqu'il existe des tolérances connues pour comparer certaines mesures.

  2. Il n'y a pas d'hypothèse alternative dans le paradigme des «tests de signification» de Fisher, seulement une hypothèse nulle, qui peut être rejetée si elle est jugée peu probable compte tenu des données. D'après ma lecture, Fisher lui-même était équivoque sur l'utilisation d'hypothèses nulles par défaut. Je ne l'ai jamais trouvé commentant explicitement la question, mais il n'a certainement pas recommandé que ce soit la seule hypothèse nulle.

  3. L'utilisation de l'hypothèse nulle par défaut est parfois interprétée comme un «abus» des tests d'hypothèse, mais elle est au cœur de la méthode hybride populaire mentionnée. L'argument est que cette pratique est souvent "un préliminaire inutile":

    "Le chercheur formule une prédiction théorique, généralement la direction d'un effet ... Lorsque les données montrent en fait le résultat directionnel prévu, cela semble confirmer l'hypothèse. Le chercheur teste une hypothèse nulle" personne de paille "que l'effet est en fait Si ce dernier ne peut pas être rejeté au niveau 0,05 (ou une variante), alors la confirmation apparente de la théorie ne peut pas être revendiquée ... Une erreur courante dans ce type de test est de confondre le niveau de signification réellement atteint (pour rejetant la personne de paille nulle) avec le niveau de confirmation atteint pour la théorie originale ... la force de la confirmation dépend en fait de [la netteté des prédictions numériques d'un chercheur], et non du niveau de signification atteint pour une personne de paille nulle. "

    L'hypothèse nulle teste la controverse en psychologie. David H Krantz. Journal de l'American Statistical Association; Déc 1999; 94, 448; 1372-1381

La vidéo de la Khan Academy est un exemple de cette méthode hybride et est coupable d'avoir commis l'erreur notée dans cette citation. D'après les informations disponibles dans cette vidéo, nous ne pouvons que conclure que les rats injectés diffèrent des rats non injectés, tandis que la vidéo affirme que nous pouvons conclure que "le médicament a certainement un certain effet". Un peu de réflexion nous amènerait à considérer que peut-être les rats testés étaient plus âgés que les non-injectés, etc. Nous devons exclure des explications alternatives plausibles avant de réclamer des preuves pour notre théorie. Moins la prédiction de la théorie est précise , plus il est difficile d'y parvenir.

Modifier 2:

Peut-être que prendre l'exemple de vos notes de diagnostic médical vous aidera. Disons qu'un patient peut être "normal" ou "en crise hypertensive".

Nous avons des informations préalables que seulement 1% des personnes sont en crise hypertensive. Les personnes en crise hypertensive ont une pression artérielle systolique qui suit une distribution normale avec une moyenne = 180 et sd = 10. Pendant ce temps, les gens normaux ont une tension artérielle d'une distribution normale avec une moyenne = 120, sd = 10. Le coût de juger une personne normale quand elle est nulle, le coût de manquer un diagnostic est de 1 et le coût dû aux effets secondaires dus au traitement est de 0,2, qu'elle soit en crise ou non. Ensuite, le code R suivant calcule le seuil (eta) et le rapport de vraisemblance. Si le rapport de vraisemblance est supérieur au seuil que nous décidons de traiter, s'il est inférieur à ce que nous ne faisons pas:

#Prior probabilities
P0=.99 #Prior probability patient is normal
P1=1-P0 #Prior probability patient is in crisis

#Hypotheses
H0<-dnorm(x=50:250, mean=120, sd=10) #H0: Patient is normal
H1<-dnorm(x=50:250, mean=180, sd=10) #H1: Patient in hypertensive crisis

#Costs
C00=0 #Decide normal when normal
C01=1 #Decide normal when in crisis
C10=.2 #Decide crisis when normal
C11=.2 #Decide crisis when in crisis

#Threshold
eta=P0*(C10-C00)/ P1*(C01-C11)

#Blood Pressure Measurements
y<-rnorm(3, 150, 20)

#Calculate Likelihood of Each Datapoint Given Each Hypothesis
L0vec=dnorm(x=y, mean=120, sd=10) #Vector of Likelihoods under H0
L1vec=dnorm(x=y, mean=180, sd=10) #Vector of Likelihoods under H1

#P(y|H) is the product of the likelihoods under each hypothesis
L0<-prod(L0vec)
L1<-prod(L1vec)

#L(y) is the ratio of the two likelihoods
LikRatio<-L1/L0


#Plot
plot(50:250, H0, type="l", col="Green", lwd=4, 
     xlab=" Systolic Blood Pressure", ylab="Probability Density Given Model",
     main=paste0("L=",signif(LikRatio,3)," eta=", signif(eta,3)))
lines(50:250, H1, col="Red", lwd=4)
abline(v=y)

#Decision
if(LikRatio>eta){
  print("L > eta  ---> Decision: Treat Patient")
}else{
  print("L < eta  ---> Do Not Treat Patient")
}

Dans le scénario ci-dessus, le seuil eta = 15,84. Si nous prenons trois mesures de la pression artérielle et obtenons 139,9237, 125,2278, 190,3765, alors le rapport de probabilité est de 27,6 en faveur de H1: Patient en crise hypertensive. Puisque 27,6 est supérieur au seuil que nous choisirions de traiter. Le graphique montre l'hypothèse normale en vert et hypertensive en rouge. Des lignes noires verticales indiquent les valeurs des observations.

enter image description here

Livide
la source
la personne qui a voté contre cela peut-elle expliquer? Quel est le problème avec cette réponse? : S
Pinocchio
@Pinocchio J'ai essayé de clarifier les choses avec un peu d'histoire dans la réponse, "le test d'hypothèse" est un sujet difficile à discuter clairement à cause de cela. Je pense avoir répondu aux questions concernant la façon dont les termes modèle / hypothèse sont utilisés, mais je ne comprends pas celle-ci: «Que signifie attribuer une hypothèse à chaque échantillon de données?
Livid
Je ne comprends pas pourquoi cette réponse a été déclassée, et pourquoi elle n'est pas plus votée. C'est vraiment excellent. Il pourrait utiliser un peu plus de définitions théoriques, mais il est clairement orienté vers un public plus large que les statisticiens. Le premier exemple d'utilisation d'un GLM a été particulièrement instructif et totalement conforme à mes (nombreuses) lectures académiques. L'essentiel est que la principale différence entre les tests d'hypothèse fréquentiste et bayésien est la comptabilité de l'a priori afin de calculer le MAP (au lieu du MLE uniquement).
gaborous
Je pourrais ajouter qu'une représentation graphique du premier exemple avec le GLM serait impressionnante et très éclairante, peut-être en utilisant une sorte de graphique à effet de levier ?
gaborous