Mon expérience est principalement dans l'apprentissage automatique et j'essayais de comprendre ce que signifiait le test d'hypothèse bayésienne. Je suis d'accord avec l'interprétation bayésienne de la probabilité et je la connais dans le contexte des modèles graphiques probabilistes. Cependant, ce qui m'embrouille, c'est ce que le mot «hypothèse» signifie dans le contexte de l'inférence statistique.
Je pense que je suis surtout confus au sujet du vocabulaire auquel je suis habitué dans l'apprentissage automatique par rapport à ce qui est normalement utilisé dans les statistiques et l'inférence.
Dans le contexte de l' apprentissage supervisé , je pense que normalement de l'hypothèse que la fonction prédictive qui associe des exemples à ses étiquettes -à- dire . Cependant, il me semble que le terme hypothèse, dans les lectures que je fais, n'a pas le même sens. Permettez-moi de coller un extrait des lectures que je lis:
Si vous lisez attentivement, cela dit aussi:
il existe un modèle différent pour les données observées ...
étaient-ils utiliser le mot modèle. Pour moi, le mot modèle me fait penser à un ensemble de fonctions où nous sélectionnons une fonction prédictive spécifique. c'est-à-dire une classe d'hypothèses de fonction. Par exemple, pourrait être la classe d'hypothèses des fonctions quadratiques (polynôme de degré 2). Cependant, il me semble qu'ils utilisent le mot modèle et l'hypothèse comme synonymes dans cet extrait (où pour moi ce sont des mots complètement différents).
Ensuite, il mentionne que nous pouvons mettre des prieurs à l'hypothèse (une chose tout à fait raisonnable à faire dans un cadre bayésien):
on peut aussi caractériser les données avec une hypothèse courante:
et mettre à jour nos opinions actuelles compte tenu de certaines données (et de la règle de Baye):
Cependant, je suppose que je suis plus habitué à mettre une estimation bayésienne à un paramètre particulier (disons ) à partir d'une classe d'hypothèses plutôt qu'à l'ensemble de la classe d'hypothèses. Fondamentalement, car il semble que ces "hypothèses" ne soient pas les mêmes hypothèses du contexte d'apprentissage automatique auxquelles je suis habitué, il me semble que ces hypothèses sont plus similaires à un paramètre θ spécifique qu'à une classe d'hypothèses.
À ce stade, j'étais convaincu que «hypothèse» signifiait la même chose que dans la fonction prédictive (paramétrisée par un paramètre , par exemple), mais je pense que j'avais tort ...
Pour aggraver ma confusion, plus tard, cette même lecture est allée de l'avant pour spécifier une "hypothèse" particulière à chaque exemple de formation qu'ils ont observé. Permettez-moi de coller un extrait de ce que je veux dire:
la raison pour laquelle cela m'embrouille est que, si j'interprète l'hypothèse comme un paramètre, alors pour moi, cela n'a aucun sens de spécifier un paramètre spécifique pour chaque valeur d'échantillon que nous voyons. À ce stade, j'ai conclu que je ne savais vraiment pas ce qu'ils voulaient dire par hypothèse, alors j'ai posé cette question.
Cependant, je n'ai pas complètement abandonné, j'ai recherché ce que signifie l'hypothèse dans les statistiques fréquentistes et j'ai trouvé la vidéo suivante de l' académie khan . Cette vidéo a beaucoup de sens pour moi (peut-être êtes-vous un fréquentateur! :) . Cependant, il semble qu'ils obtiennent un tas de données (comme un "ensemble d'échantillons") et en fonction des propriétés de l'ensemble d'échantillons, ils décident d'accepter ou de rejeter l'hypothèse nulle sur les données. Cependant, dans le contexte bayésien que je lis, il me semble que pour chaque vecteur de données [point] observé, ils le "marquent" avec une hypothèse avec le "test du rapport de vraisemblance":
La façon dont ils attribuent des hypothèses à chaque échantillon de données, semble même être un cadre d'apprentissage supervisé où nous attachons une étiquette à chaque ensemble de formation. Cependant, je ne pense pas que ce soit ce qu'ils font dans ce contexte. Que font-ils? Que signifie attribuer une hypothèse à chaque échantillon de données? Quelle est la signification d'une hypothèse? Que signifie le mot modèle?
Fondamentalement, après cette longue explication de ma confusion, quelqu'un sait-il ce que signifie le test d'hypothèse bayésienne dans ce contexte?
Si vous avez besoin d'éclaircissements ou de quoi que ce soit pour améliorer ma question ou pour que la question ait un sens, je suis plus qu'heureux de vous aider :)
Dans ma recherche d'une réponse, j'ai trouvé des choses utiles liées aux tests d'hypothèses statistiques:
Celui-ci adresse une bonne introduction au sujet si vous venez d'un arrière-plan CS (comme moi):
Qu'est-ce qu'une bonne introduction aux tests d'hypothèses statistiques pour les informaticiens?
À un moment donné, j'ai posé des questions sur les "paramètres par défaut" (que j'aurais dû définir ce que je voulais dire. Je pensais que c'était un terme standard mais ce n'est pas le cas, alors je vais y répondre) et je pense que ce que je voulais vraiment dire, c'est comment faire vous spécifiez des paramètres pour chaque hypothèse que vous avez. Par exemple, comment décidez-vous de votre hypothèse nulle et de ses paramètres. Il y a une question à ce sujet:
Comment spécifier l'hypothèse nulle dans le test d'hypothèse
la source
Réponses:
Un modèle statistique est donné par une famille de distributions de probabilité. Lorsque le modèle est paramétrique, cette famille est indexée par un paramètre inconnu : F = { f ( ⋅ | θ ) ; θ ∈ Θ } Si l'on veut tester une hypothèse sur θ comme H 0 :θ
la source
Excellente question. Je pense que votre confusion peut résulter de certaines des différences fondamentales entre les perspectives «fréquentiste» et «bayésienne». J'ai beaucoup d'expérience avec l'ancien et je suis nouveau pour le dernier, donc essayer quelques observations simples pourrait m'aider aussi. J'ai modifié votre question pour clarifier quelques distinctions - du moins, si je comprends bien. J'espère que ça ne vous dérange pas! Si je me trompe, vous pouvez modifier à nouveau votre question ou ajouter un commentaire sur cette réponse.
1) Au risque de paraître un peu trop élémentaire: Un modèle est une déclaration qui tente une explication de la réalité comme "Si j'avais des crêpes pour le petit déjeuner, ce doit être mardi". En tant que tel, un modèle est une hypothèse. Une citation célèbre de George Box: "Tous les modèles sont faux, certains modèles sont utiles." Pour qu'un modèle soit utile, il doit exister un moyen de le tester. Entrez le concept d'hypothèses concurrentes et la réponse à l'une de vos questions. Je dirais que «... dans le contexte de l'inférence statistique», une hypothèse est tout modèle qui peut être utile et peut être testé mathématiquement. Le test d'hypothèse est donc un moyen de décider si un modèle est utile ou non. En résumé, une hypothèse est un modèle à l'étude. Il peut s'agir de différentes valeurs de paramètres de la même fonction ou de différentes fonctions.
2) Votre vidéo Kahn est un exemple de ce que Bayesian appelle l'approche "Frequentist" des tests d'hypothèses, donc cela peut vous avoir dérouté lorsque vous essayez de l'appliquer à vos notes de cours qui sont Bayesian. J'ai essayé de trouver une distinction simple entre l'application des deux approches (qui peut être dangereuse). Je pense que je comprends assez bien la distinction philosophique. D'après ce que j'ai vu, le «Frequentist» suppose une composante aléatoire des données et teste la probabilité que les données observées reçoivent des paramètres non aléatoires. Le «bayésien» suppose que les données sont fixes et détermine la valeur la plus probable des paramètres aléatoires. Cette différence conduit à différentes méthodes de test.
Dans les tests d'hypothèse «fréquencistes», un modèle qui peut être utile est celui qui explique un certain effet, de sorte qu'il est comparé à «l'hypothèse nulle» - le modèle sans effet. On tente de mettre en place un modèle utile mutuellement exclusif au modèle sans effet. Le test porte alors sur la probabilité d'observer les données sous l'hypothèse d'aucun effet. Si cette probabilité s'avère faible, l'hypothèse nulle est rejetée et l'alternative est tout ce qui reste. (Notez qu'un puriste n'accepterait jamais l'hypothèse nulle, mais seulement "ne pas en rejeter" une. Cela peut ressembler à des anges dansant sur la tête d'une épingle mais la distinction est philosophique fondamentale) Les statistiques d'introduction commencent généralement par ce qui peut être l'exemple le plus simple: "Deux groupes sont différents."aussi grand ou plus grand que mesuré par une expérience aléatoire étant donné qu'ils ne sont pas différents. Il s'agit généralement d'un test t où l'hypothèse nulle est que la différence des moyennes est nulle. Le paramètre est donc la moyenne à une valeur fixe de zéro.
Le Bayésien dit: "Attendez une minute, nous avons fait ces mesures et elles sont différentes, alors quelle est la probabilité?" Ils calculent la probabilité pour chaque valeur du paramètre (maintenant) aléatoire et choisissent celle qui est la plus élevée comme la plus probable. Donc, dans un sens, chaque valeur possible du paramètre est un modèle distinct. Mais maintenant, ils ont besoin d'un moyen de décider si le modèle avec la plus forte probabilité est suffisamment différent pour avoir de l'importance. C'est pourquoi vos notes de cours ont introduit la fonction de coût. Pour prendre une bonne décision, il est nécessaire de supposer les conséquences d'une mauvaise décision.
3) "Que signifie attribuer une hypothèse à chaque échantillon de données?" Je ne pense pas qu'ils le soient. Soyez prudent avec ce que l'on entend par «point d'échantillonnage». Je crois qu'ils se réfèrent à un vecteur échantillon particulier et veulent savoir quelle est la probabilité de chaque hypothèse pour tous les vecteurs échantillon dans l'espace échantillon. Les équations (14) et (15) montrent comment comparer deux hypothèses pour un vecteur échantillon particulier. Ils simplifient donc un argument général de comparaison de plusieurs hypothèses en montrant comment en comparer seulement deux.
la source
Supposons que vous ayez des données d'un ensemble de boîtes. Les données comprennent la longueur (L), la largeur (W), la hauteur (H) et le volume (V).
Si nous ne savons pas grand-chose sur les boîtes / géométrie, nous pourrions essayer le modèle:
Ce modèle comporte trois paramètres (a, b, c) qui pourraient être modifiés, plus un terme erreur / coût (e) décrivant dans quelle mesure l'hypothèse correspond aux données. Chaque combinaison de valeurs de paramètres serait considérée comme une hypothèse différente. La valeur du paramètre "par défaut" choisie est généralement zéro, ce qui dans l'exemple ci-dessus correspondrait à "aucune relation" entre V et L, W, H.
Ce que les gens font, c'est tester cette hypothèse "par défaut" en vérifiant si e est au-delà d'une certaine valeur seuil, généralement en calculant une valeur p en supposant une distribution d'erreur normale autour de l'ajustement du modèle. Si cette hypothèse est rejetée, ils trouvent alors la combinaison des paramètres a, b, c qui maximise la probabilité et présentent c'est l'hypothèse la plus probable. S'ils sont bayésiens, ils multiplient la probabilité par l'a priori pour chaque ensemble de valeurs de paramètres et choisissent la solution qui maximise la probabilité postérieure.
De toute évidence, cette stratégie n'est pas optimale dans la mesure où le modèle suppose l'additivité, et il manquera que l'hypothèse correcte soit:
Modifier: @Pinocchio
Peut-être que quelqu'un n'était pas d'accord avec l'affirmation selon laquelle le test d'hypothèse n'est pas optimal lorsqu'il n'y a aucune raison rationnelle de choisir une / quelques fonctions (ou comme vous le dites: "classes d'hypothèse") parmi l'infiniment possible. Bien sûr, cela est trivialement vrai, et "optimal" peut être utilisé dans le sens limité de "meilleur ajustement étant donné la fonction de coût et les choix fournis". Ce commentaire est entré dans ma réponse parce que je n'aimais pas comment la question de la spécification du modèle était passée sous silence dans vos notes de classe. C'est le principal problème auquel sont confrontés la plupart des scientifiques, pour lequel afaik il n'y a pas d'algorithme.
De plus, je ne pouvais pas comprendre les valeurs p, les tests d'hypothèse, etc. jusqu'à ce que je comprenne l'histoire, alors peut-être que cela vous aidera aussi. Il existe de multiples sources de confusion autour des tests d'hypothèses fréquentistes (je ne connais pas très bien l'histoire de la variante bayésienne).
Il y a ce que l'on appelait à l'origine "test d'hypothèse" au sens de Neyman-Pearson, "test de signification" tel que développé par Ronald Fisher, et aussi un "hybride" mal défini, jamais correctement justifié de ces deux stratégies largement utilisé dans les sciences (qui peut être désigné par hasard en utilisant soit le terme ci-dessus, soit «test de signification d'hypothèse nulle»). Bien que je ne recommanderais pas de prendre une page wikipedia comme faisant autorité, de nombreuses sources discutant de ces questions peuvent être trouvées ici . Quelques points principaux:
L'utilisation d'une hypothèse «par défaut» ne fait pas partie de la procédure de test d'hypothèse d'origine, mais l'utilisateur est censé utiliser les connaissances préalables pour déterminer les modèles considérés. Je n'ai jamais vu de recommandations explicites de la part des partisans de ce modèle sur ce qu'il faut faire si nous n'avons aucune raison particulière de choisir un ensemble d'hypothèses donné à comparer. On dit souvent que cette approche convient au contrôle de la qualité, lorsqu'il existe des tolérances connues pour comparer certaines mesures.
Il n'y a pas d'hypothèse alternative dans le paradigme des «tests de signification» de Fisher, seulement une hypothèse nulle, qui peut être rejetée si elle est jugée peu probable compte tenu des données. D'après ma lecture, Fisher lui-même était équivoque sur l'utilisation d'hypothèses nulles par défaut. Je ne l'ai jamais trouvé commentant explicitement la question, mais il n'a certainement pas recommandé que ce soit la seule hypothèse nulle.
L'utilisation de l'hypothèse nulle par défaut est parfois interprétée comme un «abus» des tests d'hypothèse, mais elle est au cœur de la méthode hybride populaire mentionnée. L'argument est que cette pratique est souvent "un préliminaire inutile":
L'hypothèse nulle teste la controverse en psychologie. David H Krantz. Journal de l'American Statistical Association; Déc 1999; 94, 448; 1372-1381
La vidéo de la Khan Academy est un exemple de cette méthode hybride et est coupable d'avoir commis l'erreur notée dans cette citation. D'après les informations disponibles dans cette vidéo, nous ne pouvons que conclure que les rats injectés diffèrent des rats non injectés, tandis que la vidéo affirme que nous pouvons conclure que "le médicament a certainement un certain effet". Un peu de réflexion nous amènerait à considérer que peut-être les rats testés étaient plus âgés que les non-injectés, etc. Nous devons exclure des explications alternatives plausibles avant de réclamer des preuves pour notre théorie. Moins la prédiction de la théorie est précise , plus il est difficile d'y parvenir.
Modifier 2:
Peut-être que prendre l'exemple de vos notes de diagnostic médical vous aidera. Disons qu'un patient peut être "normal" ou "en crise hypertensive".
Nous avons des informations préalables que seulement 1% des personnes sont en crise hypertensive. Les personnes en crise hypertensive ont une pression artérielle systolique qui suit une distribution normale avec une moyenne = 180 et sd = 10. Pendant ce temps, les gens normaux ont une tension artérielle d'une distribution normale avec une moyenne = 120, sd = 10. Le coût de juger une personne normale quand elle est nulle, le coût de manquer un diagnostic est de 1 et le coût dû aux effets secondaires dus au traitement est de 0,2, qu'elle soit en crise ou non. Ensuite, le code R suivant calcule le seuil (eta) et le rapport de vraisemblance. Si le rapport de vraisemblance est supérieur au seuil que nous décidons de traiter, s'il est inférieur à ce que nous ne faisons pas:
Dans le scénario ci-dessus, le seuil eta = 15,84. Si nous prenons trois mesures de la pression artérielle et obtenons 139,9237, 125,2278, 190,3765, alors le rapport de probabilité est de 27,6 en faveur de H1: Patient en crise hypertensive. Puisque 27,6 est supérieur au seuil que nous choisirions de traiter. Le graphique montre l'hypothèse normale en vert et hypertensive en rouge. Des lignes noires verticales indiquent les valeurs des observations.
la source