(Pour voir pourquoi j'ai écrit ceci, consultez les commentaires ci-dessous ma réponse à cette question .)
Erreurs de type III et théorie de la décision statistique
Donner la bonne réponse à la mauvaise question est parfois appelé une erreur de type III. La théorie de la décision statistique est une formalisation de la prise de décision dans l'incertitude; il fournit un cadre conceptuel qui peut aider à éviter les erreurs de type III. L'élément clé du cadre s'appelle la fonction de perte . Il prend deux arguments: le premier est (le sous-ensemble pertinent de) le véritable état du monde (par exemple, dans les problèmes d'estimation des paramètres, la vraie valeur du paramètre ); le second est un élément de l'ensemble des actions possibles (par exemple, dans les problèmes d'estimation des paramètres, l'estimation& thetav ). La sortie modélise la perte associée à chaque action possible par rapport à chaque état réel possible du monde. Par exemple, dans les problèmes d'estimation des paramètres, certaines fonctions de perte bien connues sont:
- la perte d'erreur absolue
- la perte d'erreur quadratique
- Perte LINEX de Hal Varian
Examen de la réponse pour trouver la question
Il y a un cas où l'on pourrait tenter de faire en sorte que les erreurs de type III puissent être évitées en se concentrant sur la formulation d'une fonction de perte correcte et en poursuivant le reste de l'approche théorique de la décision (non détaillée ici). Ce n'est pas mon mémoire - après tout, les statisticiens sont bien équipés de nombreuses techniques et méthodes qui fonctionnent bien même si elles ne dérivent pas d'une telle approche. Mais le résultat final, il me semble, est que la grande majorité des statisticiens ne connaissent pas et ne se soucient pas de la théorie de la décision statistique, et je pense qu'ils passent à côté. Pour ces statisticiens, je dirais que la raison pour laquelle ils pourraient juger la théorie de la décision statistique utile pour éviter les erreurs de type III est qu'elle fournit un cadre dans lequel demander toute procédure d'analyse de données proposée:quelle fonction de perte (le cas échéant) la procédure gère-t-elle de manière optimale? C'est-à-dire, dans quelle situation décisionnelle, exactement, fournit-elle la meilleure réponse?
Perte postérieure attendue
D'un point de vue bayésien, la fonction de perte est tout ce dont nous avons besoin. Nous pouvons à peu près ignorer le reste de la théorie de la décision - presque par définition, la meilleure chose à faire est de minimiser la perte attendue postérieure, c'est-à-dire de trouver l'action qui minimise .˜ L ( a ) = ∫ Θ L ( θ , a ) p ( θ | D ) d θ
(Et comme pour les perspectives non bayésiennes? Eh bien, c'est un théorème de la théorie de la décision fréquentiste - en particulier, le théorème de classe complet de Wald - que l' action optimale sera toujours de minimiser la perte attendue postérieure bayésienne par rapport à certains (peut-être incorrecte) La difficulté de ce résultat est qu’il s’agit d’un théorème de l’existence qui ne donne aucune indication quant à ce qui précède l’utilisation. Mais il restreint fructueusement la classe de procédures que nous pouvons "inverser" pour déterminer exactement quelle question nous En particulier, la première étape pour inverser toute procédure non bayésienne consiste à déterminer quelle procédure bayésienne (le cas échéant) elle reproduit ou se rapproche.)
Hé Cyan, tu sais que c'est un site de questions / réponses, non?
Ce qui m'amène - enfin - à une question statistique. Dans les statistiques bayésiennes, lors de la fourniture d'estimations d'intervalle pour des paramètres univariés, deux procédures d'intervalle crédible courantes sont l'intervalle crédible basé sur le quantile et l'intervalle crédible de densité postérieure la plus élevée. Quelles sont les fonctions de perte derrière ces procédures?
Réponses:
Dans l'estimation d'intervalle univarié, l'ensemble des actions possibles est l'ensemble des paires ordonnées spécifiant les points d'extrémité de l'intervalle. Soit un élément de cet ensemble représenté par .( a , b ) , a ≤ b
Intervalles de densité postérieure les plus élevés
Soit la densité postérieure . Les intervalles de densité postérieure les plus élevés correspondent à la fonction de perte qui pénalise un intervalle qui ne contient pas la vraie valeur et pénalise également les intervalles proportionnellement à leur longueur:F( θ )
où est la fonction d'indicateur . Cela donne la perte postérieure attendueje( ⋅ )
La définition de fournit la condition nécessaire pour un optimum local à l'intérieur de l'espace des paramètres: - exactement la règle pour les intervalles HPD, comme prévu.f(a)=f∂∂uneL~HPré= ∂∂bL~HPré= 0 F( a ) = f( b ) = k
La forme de donne un aperçu de la raison pour laquelle les intervalles HPD ne sont pas invariants à une transformation monotone augmentant du paramètre. Le -space intervalle HPD transformé en l' espace est différent du -space intervalle HPD parce que les deux intervalles correspondent à différentes fonctions de perte: le -space intervalle correspond à HPD une pénalité de longueur transformée .g(θ)θg(θ)g(θ)g(θ)k(g(b)-gL~HPré( ( a , b ) ; k ) g( θ) θ g( θ ) g( θ ) g( θ ) k ( g( b ) - g( a ) )
Intervalles crédibles basés sur les quantiles
Considérons l'estimation ponctuelle avec la fonction de perte
La perte attendue postérieure est
La définition de donne l'équation impliciteréréθ^L~q= 0
c'est-à-dire que le optimal est le % de la distribution postérieure, comme prévu. (100p)θ^ ( 100 p )
Ainsi, pour obtenir des estimations d'intervalle basées sur les quantiles, la fonction de perte est
la source
Intervalles de taille minimale
Un choix évident d'une fonction de perte pour la sélection d'intervalles (à la fois bayésienne et fréquentiste) consiste à utiliser la taille des intervalles mesurée en termes de distributions marginales. Ainsi, commencez par la propriété souhaitée ou la fonction de perte, et dérivez les intervalles qui sont optimaux. Cela a tendance à ne pas être fait, comme l'illustre la présente question, même si cela est possible. Pour les ensembles crédibles bayésiens, cela correspond à minimiser la probabilité antérieure de l'intervalle, ou à maximiser la croyance relative, par exemple, comme indiqué dans Evans (2016). La taille peut également être utilisée pour sélectionner des ensembles de confiance fréquentistes (Schafer 2009). Les deux approches sont liées et peuvent être mises en œuvre assez facilement via des règles de décision qui incluaient de préférence des décisions avec de grandes informations mutuelles ponctuelles (Bartels 2017).
Bartels, C., 2017. Utilisation des connaissances préalables dans les tests fréquentistes. figshare. https://doi.org/10.6084/m9.figshare.4819597.v3
Evans, M., 2016. Mesurer les preuves statistiques en utilisant la croyance relative. Revue de biotechnologie computationnelle et structurelle, 14, pp.91-96.
Schafer, CM et Stark, PB, 2009. Construire des régions de confiance de taille optimale attendue. Journal de l'American Statistical Association, 104 (487), pp.1080-1089.
la source