Modifications: j'ai ajouté un exemple simple: l'inférence de la moyenne du . J'ai également légèrement expliqué pourquoi les intervalles crédibles ne correspondant pas aux intervalles de confiance sont mauvais.
Je suis un Bayésien passionné, je suis en pleine crise de foi.
Mon problème est le suivant. Supposons que je veuille analyser certaines données IID . Ce que je ferais c'est:
tout d'abord, proposons un modèle conditionnel:
Ensuite, choisissez un prior sur : p ( θ )
Enfin, appliquez la règle de Bayes, calculez la valeur postérieure: (ou une approximation si elle doit être non calculable) et répondez à toutes les questions que j'ai à propos deθ
C'est une approche judicieuse: si le vrai modèle des données est bien "à l'intérieur" de mon conditionnel (il correspond à une valeur ), je peux faire appel à la théorie de la décision statistique pour dire que ma méthode est admissible (voir Robert's "Le choix bayésien" pour plus de détails; "Toutes les statistiques" donne également un compte rendu clair dans le chapitre correspondant).θ 0
Cependant, comme chacun le sait, supposer que mon modèle est correct est assez arrogant: pourquoi la nature devrait-elle entrer parfaitement dans la boîte des modèles que j'ai examinés? Il est beaucoup plus réaliste de supposer que le modèle réel des données diffère de pour toutes les valeurs de . Ceci est généralement appelé un modèle "mal spécifié".p ( X | θ ) θ
Mon problème est que, dans ce cas plus réaliste et mal spécifié, je n’ai aucun argument valable pour être bayésien (c’est-à-dire: calculer la distribution postérieure) par rapport au calcul de l’estimateur de vraisemblance maximale (MLE):
En effet, selon Kleijn, vd Vaart (2012) , dans le cas mal spécifié, la distribution a posteriori:
converge comme vers une distribution dirac centrée sur un
n'a pas la bonne variance (à moins que deux valeurs soient identiques) afin de garantir que les intervalles crédibles des intervalles de confiance de correspondance postérieure pour . (Notez que, bien que les bayésiens ne se soucient pas trop des intervalles de confiance, cela signifie qualitativement que la distribution postérieure est intrinsèquement fausse, car elle implique que ses intervalles crédibles ne sont pas correctement couverts.)
Ainsi, nous payons une prime de calcul (l'inférence bayésienne, en général, est plus chère que MLE) pour aucune propriété supplémentaire
Donc, enfin, ma question: existe-t-il des arguments, qu’ils soient théoriques ou empiriques, en faveur de l’inférence bayésienne sur la variante plus simple de l’EML lorsque le modèle est mal spécifié?
(Puisque je sais que mes questions sont souvent peu claires, faites-le moi savoir si vous ne comprenez pas quelque chose: je vais essayer de le reformuler)
Edit: considérons un exemple simple: déduire la moyenne du sous un modèle gaussien (avec une variance connue pour simplifier encore plus). Nous considérons un préalable gaussien: nous notons la moyenne antérieure, la variance inverse du prior. Soit la moyenne empirique du . Enfin, notez: .
La distribution postérieure est:
Dans le cas correctement spécifié (lorsque les ont vraiment une distribution gaussienne), cette propriété postérieure a les propriétés intéressantes suivantes
Si les sont générés à partir d'un modèle hiérarchique dans lequel leur moyenne partagée est choisie dans la distribution précédente, les intervalles crédibles postérieurs ont une couverture exacte. Sous réserve des données, la probabilité que se trouve dans un intervalle est égale à la probabilité que le postérieur attribue cet intervalle
Même si le préalable n'est pas correct, les intervalles crédibles ont une couverture correcte dans la limite dans laquelle l'influence antérieure sur le postérieur disparaît
le postérieur a en outre de bonnes propriétés fréquentistes: tout estimateur bayésien construit à partir du postérieur est garanti, la moyenne postérieure est un estimateur efficace (au sens de Cramer-Rao) de la moyenne, les intervalles crédibles sont, asymptotiquement, des intervalles de confiance.
Dans le cas mal spécifié, la plupart de ces propriétés ne sont pas garanties par la théorie. Afin de corriger les idées, supposons que le modèle réel pour les est qu’ils sont plutôt des distributions d’étudiants. La seule propriété que nous puissions garantir (Kleijn et al) est que la distribution a posteriori se concentre sur la moyenne réelle du dans la limite . En général, toutes les propriétés de couverture disparaîtraient. Pire, en général, nous pouvons garantir que, dans cette limite, les propriétés de couverture sont fondamentalement fausses: la distribution postérieure attribue la probabilité fausse à diverses régions de l’espace.
la source
Réponses:
Je considère l'approche bayésienne lorsque mon ensemble de données ne comprend pas tout ce que l'on sait sur le sujet, et je souhaite en quelque sorte incorporer cette connaissance exogène à mes prévisions.
Par exemple, mon client souhaite une prévision des défauts de paiement de son portefeuille. Ils ont 100 prêts avec quelques années de données historiques trimestrielles. Il y a eu quelques cas de délinquance (paiement tardif) et juste quelques défauts. Si j'essaie d'estimer le modèle de survie sur cet ensemble de données, ce sera très peu de données à estimer et trop d'incertitude à prévoir.
Par ailleurs, les gestionnaires de portefeuille sont des personnes expérimentées. Certaines d’entre elles ont peut-être passé des décennies à gérer leurs relations avec les emprunteurs. Ils ont des idées sur ce que devraient être les taux de défaut. Donc, ils sont capables de trouver des a priori raisonnables. Remarquez, pas les a priori qui ont de belles propriétés mathématiques et qui me plaisent intellectuellement . Je vais discuter avec eux et extraire leurs expériences et leurs connaissances sous la forme de ces prieurs.
Maintenant, le cadre bayésien me fournira les mécanismes nécessaires pour associer la connaissance exogène sous forme de prieur avec les données et obtenir l’a posterior qui est supérieur à la fois au jugement qualitatif pur et à la prévision reposant sur des données pures, à mon avis. Ce n'est pas une philosophie et je ne suis pas bayésien. J'utilise simplement les outils bayésiens pour intégrer de manière cohérente les connaissances d'experts dans l'estimation basée sur les données.
la source
Une question très intéressante ... qui n'a peut-être pas de réponse (mais qui ne la rend pas moins intéressante!)
Quelques réflexions (et de nombreux liens vers les entrées de mon blog!) À propos de ce meme que tous les modèles sont faux :
la source
Modifications: ajout d'une référence à ce document dans le corps, comme demandé par l'OP.
Je réponds ici comme un bayésien empirique naïf .
Premièrement, la distribution postérieure vous permet de faire des calculs que vous ne pouvez tout simplement pas faire avec un MLE simple. Le cas le plus simple est que le postérieur d'aujourd'hui est le prieur de demain . L'inférence bayésienne permet naturellement d'effectuer des mises à jour séquentielles, ou plus généralement en ligne ou une combinaison différée de plusieurs sources d'informations (l'incorporation d'un préalable n'est qu'un exemple manuel d'une telle combinaison). La théorie de la décision bayésienne avec une fonction de perte non triviale est un autre exemple. Je ne saurais pas quoi faire autrement.
Deuxièmement, avec cette réponse, je vais essayer de faire valoir que le mantra selon lequel la quantification de l'incertitude est généralement meilleure que l'absence d'incertitude est en réalité une question empirique, car les théorèmes (comme vous l'avez mentionné et autant que je sache) ne fournissent aucune garantie.
L'optimisation en tant que jouet modèle d'une entreprise scientifique
Un domaine qui, à mon avis, rend parfaitement compte de la complexité du problème est très pratique et sans équivoque: l’optimisation d’une fonction de boîte noire . Nous supposons que nous pouvons interroger séquentiellement un point et obtenir une observation éventuellement bruyante , avec . Notre objectif est de nous rapprocher le plus possible de avec le nombre minimal d’évaluations de fonctions.f:X⊂RD→R x∈X y=f(x)+ε ε∼N(0,σ2) x∗=argminxf(x)
Comme vous pouvez vous y attendre, une méthode particulièrement efficace consiste à créer un modèle prédictif de ce qui se produirait si j’interrogeais un , et à utiliser cette information pour décider quoi faire ensuite (soit localement ou globalement). Voir Rios et Sahinidis (2013) pour une revue des méthodes d'optimisation globale sans dérivés. Lorsque le modèle est assez complexe, on appelle cela un méta-modèle ou de substitution fonction ou surface réponse approche. De manière cruciale, le modèle pourrait être une estimation ponctuelle de (par exemple, l'ajustement d'une fonction de réseau de base radiale à nos observations), ou nous pourrions être bayésiens et obtenir en quelque sorte une distribution postérieure complète surx′∈X f f (par exemple, via un processus gaussien).
L'optimisation bayésienne utilise la loi postérieure sur (en particulier, la moyenne postérieure et la variance conditionnelles communes) pour guider la recherche de l'optimum (global) via une heuristique basée sur des principes. Le choix classique consiste à maximiser l' amélioration attendue par rapport au meilleur point actuel, mais il existe des méthodes encore plus sophistiquées, telles que la minimisation de l'entropie attendue par rapport à l'emplacement du minimum (voir également ici ).f
Le résultat empirique est que l'accès à une méthode postérieure, même si elle est partiellement mal spécifiée, produit généralement de meilleurs résultats que d'autres méthodes. (Il existe des mises en garde et des situations dans lesquelles l'optimisation bayésienne n'est pas meilleure que la recherche aléatoire, comme dans les grandes dimensions.) Dans cet article , nous effectuons une évaluation empirique d'une nouvelle méthode BO par rapport à d'autres algorithmes d'optimisation, en vérifiant si l'utilisation de BO est pratique. en pratique, avec des résultats prometteurs.
Depuis que vous avez demandé - cela a un coût de calcul beaucoup plus élevé que d'autres méthodes non bayésiennes, et vous vous demandiez pourquoi nous devrions être bayésiens. L'hypothèse ici est que le coût impliqué dans l' évaluation de la vraie (par exemple, dans un scénario réel, une expérience d'ingénierie complexe ou l' apprentissage de la machine) est beaucoup plus grande que le coût de calcul pour l'analyse bayésienne, afin d' être bayésienne est payante .f
Que pouvons-nous apprendre de cet exemple?
Tout d’abord, pourquoi l’optimisation bayésienne fonctionne-t-elle? Je suppose que le modèle est faux, mais pas que mal, et comme d' habitude wrongness dépend de ce que votre modèle est pour. Par exemple, la forme exacte de n'est pas pertinente pour l'optimisation, car nous pourrions optimiser toute transformation monotone de celle-ci. Je suppose que la nature est pleine de telles invariances. Ainsi, la recherche que nous effectuons peut ne pas être optimale (c’est-à-dire que nous jetons de bonnes informations), mais elle est toujours meilleure qu’aucune information sans incertitude.f
Deuxièmement, notre exemple montre qu'il est possible que l'utilité d'être bayésien ou non dépende du contexte , par exemple du coût relatif et de la quantité de ressources disponibles (en calcul). (Bien sûr, si vous êtes un bayésien hardcore, vous croyez que chaque calcul est une inférence bayésienne sous une certaine approximation et / ou préalable.)
Enfin, la grande question est de savoir pourquoi les modèles que nous utilisons ne sont pas si mauvais après tout, dans le sens où les postérieurs sont toujours utiles et ne sont pas des ordures statistiques. Si nous prenons le théorème No Free Lunch, apparemment, nous ne devrions pas pouvoir en dire beaucoup, mais heureusement, nous ne vivons pas dans un monde de fonctions complètement aléatoires (ou choisies par l'adversaire ).
Plus généralement, depuis que vous avez mis la balise "philosophique" ... Je suppose que nous entrons dans le domaine du problème de l'induction, ou de l'efficacité déraisonnable des mathématiques dans les sciences statistiques (en particulier de notre intuition mathématique et de notre capacité à spécifier des modèles ce travail en pratique) - en ce sens que, d'un point de vue purement a priori, il n'y a aucune raison pour que nos suppositions soient bonnes ou aient une garantie (et que vous pouvez bien sûr construire des contre-exemples mathématiques dans lesquels les choses tournent mal), pour bien travailler dans la pratique.
la source
Je ne vois cela qu’aujourd’hui, mais je pense néanmoins que je devrais intervenir car je suis en quelque sorte un expert et qu’au moins deux réponses (n ° 3 et 20 (merci d’avoir fait référence à mon travail Xi'an!)) Mentionnent mon travail sur SafeBayes - en particulier G. et van Ommen, "Incohérence de l'inférence bayésienne pour les modèles linéaires mal spécifiés et proposition de réparation" (2014). Et j'aimerais aussi ajouter quelque chose au commentaire 2:
2 dit: (L’un des avantages de Bayes sous une spécification erronée est ...) "Eh bien, les approches bayésiennes se régularisent. C’est quelque chose qui aide à lutter contre la sur-adaptation - que votre modèle soit mal spécifié ou non. Cela pose évidemment la question connexe: arguments en faveur de l'inférence bayésienne contre les approches classiques régularisées (lasso, etc.) "
C’est vrai, mais il est crucial d’ajouter que les approches bayésiennes peuvent ne pas régulariser suffisamment si le modèle est faux. C’est l’essentiel du travail avec Van Ommen: nous voyons que la norme Bayes surestime assez terriblement dans un contexte de régression avec des modèles erronés mais très utiles. Pas aussi mauvais que MLE, mais quand même beaucoup trop pour être utile. Il existe tout un travail dans l’apprentissage automatique théorique (fréquentiste et théorique du jeu) dans lequel ils utilisent des méthodes similaires à Bayes, mais avec un «taux d’apprentissage» beaucoup plus petit, ce qui rend l’antériorité plus importante et les données moins importantes, ce qui régularise davantage. Ces méthodes sont conçues pour bien fonctionner dans les situations les plus défavorables (spécification erronée et même pire, données contradictoires) - l'approche SafeBayes est conçue pour "apprendre le taux d'apprentissage optimal" à partir des données elles-mêmes - et ce taux d'apprentissage optimal, c'est-à-dire la quantité optimale de régularisation,
Dans le même ordre d'idées, il existe un théorème folklorique (mentionné par plusieurs personnes ci-dessus) selon lequel Bayes aura la concentration postérieure sur la distribution la plus proche de la divergence de KL par rapport à la «vérité». Mais cela ne vaut que dans des conditions très strictes - BEAUCOUP plus rigoureuses que les conditions nécessaires à la convergence dans le cas bien spécifié. Si vous avez affaire à des modèles paramétriques standard de basse dimension et que les données sont classées selon une distribution (pas dans le modèle), le postérieur se concentrera en effet autour du point du modèle le plus proche de la vérité dans la divergence de KL. Maintenant, si vous avez affaire à de grands modèles non paramétriques et que le modèle est correct, alors (essentiellement) votre postérieur se concentrera toujours sur la vraie distribution avec suffisamment de données, tant que votre précédent met suffisamment de masse en petites boules KL autour de la vraie distribution. C'est lecondition faible nécessaire à la convergence dans le cas non paramétrique si le modèle est correct.
Mais si votre modèle est non paramétrique et pourtant incorrect, le postérieur peut tout simplement ne pas se concentrer autour du point KL le plus proche, même si votre précédent place une masse proche de 1 (!) - votre postérieur peut rester confus pour toujours, en se concentrant sur des distributions toujours différentes. comme le temps passe mais jamais autour du meilleur. Dans mes papiers, j'ai plusieurs exemples de ce qui se passe. Les papiers qui montrent une convergence mal spécifiée (par exemple, Kleijn et van der Vaart) nécessitent beaucoup de conditions supplémentaires, par exemple le modèle doit être convexe ou le prieur doit obéir à certaines propriétés (compliquées). C'est ce que je veux dire par «conditions strictes».
Dans la pratique, nous avons souvent affaire à des modèles dimensionnels paramétriques mais très élevés (pensez à la régression bayesienne, etc.). Ensuite, si le modèle est incorrect, votre postérieur se concentrera éventuellement sur la meilleure distribution de KL dans le modèle, mais une mini-version de l'incohérence non paramétrique est toujours valable: il peut prendre des ordres de grandeur supplémentaires avant que la convergence ne se produise. Van Ommen donne des exemples.
L’approche SafeBayes modifie les bayes standard de manière à garantir la convergence des modèles non paramétriques dans (essentiellement) les mêmes conditions que dans le cas bien spécifié, c’est-à-dire une masse antérieure suffisante proche de la distribution optimale de KL dans le modèle (G. et Mehta, 2014). ).
Ensuite, il y a la question de savoir si Bayes a même une justification sous la spécification erronée. IMHO (et comme mentionné par plusieurs personnes ci-dessus), les justifications standard de Bayes (admissibilité, Savage, De Finetti, Cox, etc.) ne sont pas valables ici (car si vous réalisez que votre modèle est mal spécifié, vos probabilités ne représentent pas vos véritables convictions !) Cependant, de nombreuses méthodes Bayes peuvent également être interprétées comme des "méthodes de longueur de description minimale (MDL)" - MDL est une méthode de théorie de l'information qui assimile "l'apprentissage à partir de données" à "essayer de compresser les données autant que possible". Cette interprétation de compression de données de (certaines) méthodes bayésiennes reste valable sous spécification erronée. Donc, il y a encore desinterprétation sous-jacente qui tient sous la spécification erronée - néanmoins, il y a des problèmes, comme le montrent mon article avec van Ommen (et le problème d'intervalle de confiance / ensemble crédible mentionné dans le post original).
Et puis, une dernière remarque à propos du post original: vous mentionnez la justification de la "recevabilité" de Bayes (pour revenir à la classe complète de Wald dans les années 1940-1950 de Wald). Que ce soit vraiment ou non une justification de Bayes dépend vraiment beaucoup de sa définition précise de «l'inférence bayésienne» (qui diffère d'un chercheur à l'autre…). La raison en est que ces résultats d’admissibilité permettent la possibilité d’utiliser un préalable qui dépend d’aspects du problème, tels que la taille de l’échantillon, la fonction de perte d’intérêt, etc. La plupart des «vrais» bayésiens ne voudraient pas changer leur précédent si le données qu’ils doivent traiter, ou si la fonction de perte d’intérêt change soudainement. Par exemple, avec des fonctions de perte strictement convexes, les estimateurs minimax sont également admissibles - bien qu’ils ne soient généralement pas considérés comme bayésiens! La raison en est que pour chaque taille d'échantillon fixe, ils sont équivalents à Bayes avec un préalable particulier, mais le précédent est différent pour chaque taille d'échantillon.
J'espère que c'est utile!
la source
Il y a le compromis habituel biais-variance. L'inférence bayésienne en supposant le cas M-clos [1,2], a une variance plus petite [3] mais dans le cas d'une erreur de spécification du modèle, le biais augmente plus rapidement [4]. Il est également possible de faire l'inférence bayésienne en supposant le cas M-ouvert [1,2], qui présente une variance plus élevée [3], mais dans le cas d'une erreur de spécification du modèle, le biais est plus petit [4]. Des discussions sur ce compromis biais-variance entre les cas bayésiens M-fermés et M-ouverts apparaissent également dans certaines des références incluses dans les références ci-dessous, mais il est clairement nécessaire d'en savoir plus.
[1] Bernardo et Smith (1994). Théorie bayésienne. John Wiley \ & Sons.
[2] Vehtari et Ojanen (2012). Une enquête sur les méthodes prédictives bayésiennes d’évaluation, de sélection et de comparaison de modèles. Enquêtes statistiques, 6: 142-228. http://dx.doi.org/10.1214/12-SS102
[3] Juho Piironen et Aki Vehtari (2017). Comparaison des méthodes prédictives bayésiennes pour la sélection du modèle. Statistics and Computing, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .
[4] Yao, Vehtari, Simpson et Andrew Gelman (2017). Utilisation de l’empilement pour la moyenne des distributions prédictives bayésiennes. préimpression arXiv arXiv: 1704.02030 arxiv.org/abs/1704.02030
la source
Voici quelques autres moyens de justifier l'inférence bayésienne dans des modèles mal spécifiés.
Vous pouvez construire un intervalle de confiance sur la moyenne postérieure, en utilisant la formule sandwich (de la même manière que vous le feriez avec le MLE). Ainsi, même si les ensembles crédibles n’ont pas de couverture, vous pouvez toujours produire des intervalles de confiance valables sur des estimateurs ponctuels, si c’est ce qui vous intéresse.
Vous pouvez redimensionner la distribution postérieure pour vous assurer que les ensembles crédibles sont couverts, ce qui correspond à l'approche adoptée dans:
Müller, Ulrich K. "Risque d'inférence bayésienne dans les modèles mal spécifiés et la matrice de covariance en sandwich." Econometrica 81,5 (2013): 1805-1849.
la source
L’interprétation bayésienne de cette hypothèse est qu’il existe une variable aléatoire supplémentaire et une valeur dans son étendue telle que . Vos connaissances antérieures indiquent et . Alors ce qui n’est pas une distribution de probabilité appropriée.ϕ ϕ0 ϕ0 ∫p(X|θ,ϕ=ϕ0)dθ=0 p(ϕ=ϕ0)∝1 p(ϕ≠ϕ0)=0 p(θ|X,ϕ=ϕ0)=0
Ce cas correspond à une règle d'inférence similaire en logique où , c'est-à-dire que vous ne pouvez rien déduire d'une contradiction. Le résultat est un moyen par lequel la théorie de la probabilité bayésienne vous dit que vos connaissances antérieures ne sont pas cohérentes avec vos données. Si quelqu'un n'obtient pas ce résultat en dérivant son postérieur, cela signifie que la formulation n'a pas réussi à coder toutes les connaissances antérieures pertinentes. En ce qui concerne l'évaluation de cette situation, je passe la parole à Jaynes (2003, p.41):A,¬A⊢∅ p(θ|X,ϕ=ϕ0)=0
En d’autres termes, si la formulation de votre problème est inexacte - si votre modèle est faux, les statistiques bayésiennes peuvent vous aider à découvrir que tel est le cas et à déterminer quel aspect du modèle est la source du problème.
Dans la pratique, il est difficile de savoir quelle connaissance est pertinente et si elle devrait être incluse dans la dérivation. Diverses techniques de vérification de modèles (les chapitres 6 et 7 de Gelman et al., 2013, en donnent un aperçu) sont ensuite utilisées pour rechercher et identifier une formulation de problème inexacte.
Gelman, A., Carlin, JB, Stern, HS, Dunson, DB, Vehtari, A. et Rubin, DB (2013). Analyse bayésienne des données, troisième édition. Chapman & Hall / CRC.
Jaynes, ET (2003). Théorie des probabilités: la logique de la science. La presse de l'Universite de Cambridge.
la source
Le MLE est toujours un estimateur pour un paramètre dans un modèle que vous spécifiez et supposez être correct. Les coefficients de régression dans une MCO fréquentiste peuvent être estimés avec le MLE et toutes les propriétés que vous souhaitez y attacher (non biaisée, une variance asymptotique spécifique) supposent toujours que votre modèle linéaire très spécifique est correct.
Je vais aller un peu plus loin et dire que chaque fois que vous voulez attribuer une signification et des propriétés à un estimateur, vous devez vous en tenir à un modèle. Même si vous prenez une moyenne d'échantillon simple, vous supposez que les données sont échangeables et souvent IID.
Maintenant, les estimateurs bayésiens ont de nombreuses propriétés souhaitables qu'une MLE pourrait ne pas avoir. Par exemple, la mise en commun partielle, la régularisation et l’interprétabilité d’un postérieur qui le rendent souhaitable dans de nombreuses situations.
la source
Je recommande la philosophie de Gelman & Shalizi et la pratique de la statistique bayésienne . Ils ont des réponses cohérentes, détaillées et pratiques à ces questions.
la source
Je pense que vous décrivez un impact de l’incertitude du modèle - vous craignez que votre inférence sur un paramètre inconnu à la lumière des données soit conditionnelle à un modèle, , ainsi qu’aux données. Et si est un modèle non plausible? S'il existe d'autres modèles, avec le même paramètre inconnu , vous pouvez alors marginaliser l'incertitude du modèle avec la moyenne bayésienne, bien que une fonctionnelle des modèles considérés et de leurs a priori.x d m
Si, en revanche, la définition du paramètre est intrinsèquement liée au modèle , de sorte qu'il n'y a pas d'alternative, il n'est guère surprenant que les inférences sur dépendent de .x m x m
la source
Comment définissez-vous ce qu'est un modèle "mal spécifié"? Est-ce que cela signifie que le modèle ...
Si vous pensez à la façon dont un modèle donné pourrait être mal spécifié, vous allez essentiellement extraire des informations sur la manière de créer un meilleur modèle. Incluez cette information supplémentaire dans votre modèle!
Si vous réfléchissez à ce qu'est un "modèle" dans le cadre bayésien, vous pouvez toujours créer un modèle qui ne peut pas être mal spécifié. Pour ce faire, vous pouvez ajouter plus de paramètres à votre modèle actuel. En ajoutant plus de paramètres, vous rendez votre modèle plus flexible et adaptable. Les méthodes d’apprentissage automatique tirent pleinement parti de cette idée. Cela sous-tend des choses comme les "réseaux nueral" et les "arbres de régression". Vous devez cependant penser aux a priori (comme pour régulariser ML).
Par exemple, vous avez donné le "modèle linéaire" comme exemple; vous avez donc ... Où . Supposons maintenant que nous ajoutons un nouveau paramètre pour chaque observation .... Où comme auparavant. Comment cela change-t-il les choses? Vous pourriez dire "le modèle 1 est mal spécifié si le modèle 2 est vrai". Mais le modèle 2 est plus difficile à estimer car il contient beaucoup plus de paramètres. De plus, si les informations sur sont ce qui nous importe, est-ce que le modèle 1 est "incorrect"?
e i ~ N ( 0 , 1 ) Modèle 2: x i = θ + σ e i
Si vous supposez que (comme un "modèle 2a"), alors nous avons fondamentalement "erreurs de Cauchy" au lieu de "erreurs normales" et le modèle attend des valeurs aberrantes dans les données. Par conséquent, en ajoutant des paramètres à votre modèle et en choisissant un avant pour eux, j'ai créé un "modèle plus robuste". Cependant, le modèle s'attend toujours à une symétrie des termes d'erreur. En choisissant un avant différent, cela pourrait également être pris en compte ...wi∼N(0,1)
la source