Dans l'inférence bayésienne, une distribution prédictive des données futures est dérivée en intégrant des paramètres inconnus; l'intégration sur la distribution postérieure de ces paramètres donne une distribution prédictive postérieure - une distribution pour les données futures conditionnelle à celles déjà observées. Quelles sont les méthodes non bayésiennes pour l'inférence prédictive qui prennent en compte l'incertitude dans les estimations des paramètres (c'est-à-dire qui ne se contentent pas de brancher les estimations du maximum de vraisemblance ou quoi que ce soit dans une fonction de densité)?
Tout le monde sait comment calculer les intervalles de prédiction après une régression linéaire, mais quels sont les principes derrière le calcul et comment peuvent-ils être appliqués dans d'autres situations (par exemple, calculer un intervalle de prédiction exact pour une nouvelle variable exponentielle après avoir estimé le paramètre de taux à partir des données)?
la source
Réponses:
L'inférence prédictive non bayésienne (à l'exception du cas SLR) est un domaine relativement récent. Sous la rubrique «non-bayésien», nous pouvons subdiviser les approches en celles qui sont «fréquentistes» classiques par rapport à celles qui sont basées sur la «vraisemblance».
Prédiction fréquenciste classique
Maintenant, j'ai généralement eu des problèmes avec la façon dont les IP classiques sont présentés et enseignés dans la plupart des cours de statistiques, car la tendance écrasante est de les interpréter comme des intervalles prédictifs postérieurs bayésiens, ce qu'ils ne sont décidément pas. Plus fondamentalement, ils parlent de différentes probabilités! Les Bayésiens ne font aucune réclamation sur les performances d'échantillonnage répétées de leurs quantités (sinon, ils seraient fréquentistes). Deuxièmement, un IP bayésien accomplit quelque chose de plus similaire dans son esprit à un intervalle de tolérance classique qu'à un intervalle de prédiction classique.
Pour référence: les intervalles de tolérance doivent être spécifiés par deux probabilités: la confiance et la couverture. La confiance nous indique à quelle fréquence elle est correcte dans des échantillons répétés. La couverture nous indique la mesure de probabilité minimale de l'intervalle sous la distribution vraie (par opposition à l'IP, qui donne la mesure de probabilité attendue ... encore sous échantillonnage répété). C'est essentiellement ce que l'IP bayésien essaie également de faire, mais sans prétentions d'échantillonnage répété.
Ainsi, la logique de base de la régression linéaire simple Stats 101 est de dériver les propriétés d'échantillonnage répété de l'IP sous l'hypothèse de normalité. C'est l'approche fréquentiste + gaussienne qui est généralement considérée comme "classique" et enseignée dans les classes de statistiques d'introduction. Ceci est basé sur la simplicité des calculs qui en résultent (voir Wikipedia pour une belle vue d'ensemble).
Les distributions de probabilité non gaussiennes sont généralement problématiques car elles peuvent manquer de quantités pivots qui peuvent être soigneusement inversées pour obtenir un intervalle. Par conséquent, il n'y a pas de méthode "exacte" pour ces distributions, souvent parce que les propriétés de l'intervalle dépendent des vrais paramètres sous-jacents.
Reconnaissant cette incapacité, une autre classe de prédiction est apparue (et d'inférence et d'estimation) avec l'approche de vraisemblance.
Inférence basée sur la vraisemblance
Les approches basées sur les vraisemblances, comme de nombreux concepts statistiques modernes, peuvent être retracées jusqu'à Ronald Fisher. L'idée de base de cette école est que, sauf dans des cas particuliers, nos inférences statistiques sont logiquement plus faibles que lorsque nous traitons des inférences à partir d'une distribution normale (dont les estimations des paramètres sont orthogonales ), où nous pouvons faire des énoncés de probabilité exacts. Dans cette conception de l'inférence, il faut vraiment éviter les déclarations sur la probabilité, sauf dans le cas exact, sinon, il faut faire des déclarations sur la probabilité et reconnaître que l'on ne connaît pas la probabilité exacte d'erreur (au sens fréquentiste).
Par conséquent, nous pouvons voir la probabilité comme apparentée à la probabilité bayésienne, mais sans les exigences d'intégrabilité ou la confusion possible avec la probabilité fréquentiste. Son interprétation est entièrement subjective ... bien qu'un rapport de vraisemblance de 0,15 soit souvent recommandé pour l'inférence à paramètre unique.
Cependant, on ne voit pas souvent des articles qui donnent explicitement des «intervalles de vraisemblance». Pourquoi? Il semble que cela soit en grande partie une question de sociologie, car nous nous sommes tous habitués aux déclarations de confiance basées sur les probabilités. Au lieu de cela, ce que vous voyez souvent, c'est un auteur se référant à un intervalle de confiance "approximatif" ou "asymptotique" de tel ou tel. Ces intervalles sont largement dérivés des méthodes de vraisemblance, où nous nous appuyons sur la distribution asymétrique du chi carré du rapport de vraisemblance de la même manière que nous nous appuyons sur la normalité asymptotique de la moyenne de l'échantillon.
Avec cette «correction», nous pouvons maintenant construire des régions de confiance «approximatives» à 95% avec presque autant de cohérence logique que les Bayésiens.
De CI à PI dans le cadre de vraisemblance
Le succès et la facilité de l'approche de probabilité ci-dessus ont conduit à des idées sur la façon de l'étendre à la prédiction. Un très bon article d'enquête à ce sujet est donné ici (je ne reproduirai pas son excellente couverture). Cela remonte à David Hinkley à la fin des années 1970 (voir JSTOR ), qui a inventé le terme. Il l'a appliqué au pérenne « Problème de prédiction binomiale de Pearson ». Je vais résumer la logique de base.
Les règles de base pour se débarrasser des paramètres de "nuisance" pour obtenir une probabilité prédictive sont les suivantes:
La distinction entre un paramètre fixe et aléatoire est unique à l'inférence de vraisemblance, mais a des liens avec des modèles à effets mixtes, où il semble que les cadres bayésien, fréquentiste et de vraisemblance entrent en collision.
J'espère que cela a répondu à votre question sur le vaste domaine de la prédiction "non bayésienne" (et l'inférence d'ailleurs). Étant donné que les hyperliens peuvent changer, je ferai également une fiche pour le livre "In All Lik vraisemblance: modélisation statistique et inférence utilisant la vraisemblance" qui traite en profondeur du cadre moderne de vraisemblance, y compris une bonne partie des problèmes épistémologiques de vraisemblance vs bayésienne vs fréquentiste inférence et prédiction.
Les références
la source
J'aborderai ma réponse spécifiquement à la question: "Quelles sont les méthodes non bayésiennes d'inférence prédictive qui prennent en compte l'incertitude dans les estimations des paramètres?" J'organiserai ma réponse en élargissant le sens de l' incertitude .
Nous espérons que les analyses statistiques appuient divers types de demandes, y compris les prévisions . Mais nous restons incertains de nos revendications, et cette incertitude provient de nombreuses sources. Les statistiques Frequentist sont organisées de manière caractéristique pour ne traiter que la partie de notre incertitude résultant spécifiquement de l' échantillonnage . L'échantillonnage pourrait bien avoir été la principale source d'incertitude dans les expériences agricoles sur le terrain qui ont historiquement fourni une grande partie de l'impulsion au développement de statistiques fréquentistes. Mais dans la plupart des applications actuelles les plus importantes, ce n'est pas le cas. Nous nous inquiétons maintenant de toutes sortes d'autres incertitudes comme les erreurs de spécification des modèles et diverses formes de biais --- dont il existe apparemment des centaines (!) De types [1].
Sander Greenland a un merveilleux document de travail [2] qui souligne combien il peut être important de prendre en compte ces autres sources d'incertitude, et prescrit une analyse des biais multiples comme moyen d'y parvenir. Il développe la théorie entièrement en termes bayésiens, ce qui est naturel. Si l'on souhaite poursuivre un traitement formel et cohérent de son incertitude sur les paramètres du modèle, on est naturellement amené à poser des distributions de probabilités (subjectives) sur les paramètres; à ce stade, vous êtes soit perdu face au diable bayésien, soit vous êtes entré dans le royaume des cieux bayésien (selon votre religion).
À votre question, @Scortchi, pour savoir si cela peut être fait avec des «méthodes non bayésiennes», une solution de contournement non bayésienne est illustrée dans [3]. Mais pour quiconque en sait assez sur le bayésianisme pour écrire votre question, le traitement qui y sera ressemblera plutôt à une tentative de mise en œuvre des calculs bayésiens «en catimini» pour ainsi dire. En effet, comme le reconnaissent les auteurs (voir p. 4), plus vous vous rapprochez des méthodes les plus avancées vers la fin du livre, plus les méthodes ressemblent précisément à l'intégration que vous décrivez dans votre question. Ils suggèrent que là où ils s'écartent du bayésianisme, ce n'est finalement qu'en ne posant pas de prieurs explicites sur leurs paramètres avant de les estimer.
Chavalarias, David et John PA Ioannidis. «L'analyse de cartographie scientifique caractérise 235 biais dans la recherche biomédicale.» Journal of Clinical Epidemiology 63, no. 11 (novembre 2010): 1205–15. doi: 10.1016 / j.jclinepi.2009.12.011.
Groenland, Sander. «Modélisation à biais multiples pour l'analyse des données d'observation (avec discussion)». Journal de la Royal Statistical Society: série A (Statistics in Society) 168, no. 2 (mars 2005): 267–306. doi: 10.1111 / j.1467-985X.2004.00349.x.
Lash, Timothy L., Matthew P. Fox et Aliza K. Fink. Application d'une analyse quantitative des biais aux données épidémiologiques. Statistiques pour la biologie et la santé. New York, NY: Springer New York, 2009. http://link.springer.com/10.1007/978-0-387-87959-8 .
la source