Comment un estimateur qui minimise une somme pondérée de biais et de variance au carré s’inscrit-il dans la théorie de la décision?

10

D'accord - mon message d'origine n'a pas réussi à obtenir une réponse; alors, permettez-moi de poser la question différemment. Je commencerai par expliquer ma compréhension de l'estimation d'un point de vue théorique de la décision. Je n'ai aucune formation formelle et cela ne m'étonnerait pas si ma pensée était défectueuse d'une manière ou d'une autre.

Supposons que nous ayons une fonction de perte . La perte attendue est le risque (fréquentiste):L(θ,θ^(x))

R(θ,θ^(x))=L(θ,θ^(x))L(θ,θ^(x))dx,

où est la vraisemblance; et le risque des Bayes est le risque fréquentiste attendu:L(θ,θ^(x))

r(θ,θ^(x))=R(θ,θ^(x))π(θ)dxdθ,

où est notre a priori.π(θ)

En général, nous trouvons le qui minimise et tout cela fonctionne bien; de plus, le théorème de Fubini s'applique et nous pouvons inverser l'ordre d'intégration de sorte que tout qui minimise soit indépendant de tous les autres. De cette façon, le principe de vraisemblance n'est pas violé et nous pouvons nous sentir bien d'être bayésiens, etc.θ^(x)rθ^(x)r

Par exemple, étant donné la perte d'erreur quadratique familière, notre risque fréquentiste est l'erreur quadratique moyenne ou la somme du biais et de la variance au carré et le risque de notre Bayes est la somme attendue du biais et de la variance au carré compte tenu de notre perte antérieure, c'est-à-dire la perte attendue a posteriori.L(θ,θ^(x))=(θθ^(x))2,

Jusqu'à présent, cela me semble raisonnable (même si je peux me tromper); mais, en tout cas, les choses ont beaucoup moins de sens pour moi pour certains autres objectifs. Par exemple, supposons qu'au lieu de minimiser la somme des biais et de la variance au carré équitablement pondérés , je souhaite minimiser une somme inégalement pondérée , c'est-à-dire que je souhaite le qui minimise:θ^(x)

(E[θ^(x)]θ)2+kE[(θ^(x)E[θ^(x)])2],

où est une constante réelle positive (autre que 1).k

Je fais généralement référence à une somme comme celle-ci comme une "fonction objective", même s'il se peut que j'utilise ce terme de manière incorrecte. Ma question n'est pas de savoir comment trouver une solution - trouver le qui minimise cette fonction objective est faisable numériquement - ma question est plutôt double:θ^(x)

  1. Une telle fonction objective peut-elle s'intégrer dans le paradigme de la théorie de la décision? Sinon, existe-t-il un autre cadre dans lequel il s'insère? Si oui, comment? Il semble que la fonction de perte associée serait une fonction de , et , qui - en raison de l'attente - est ( Je pense) pas convenable.θθ^(x)E[θ^(x)]

  2. Une telle fonction objective viole le principe de vraisemblance car toute estimation donnée dépend de toutes les autres estimations de (même hypothétiques). Néanmoins, il existe des cas où l'échange d'une augmentation de la variance d'erreur contre une réduction du biais est souhaitable. Compte tenu d'un tel objectif, existe-t-il un moyen de conceptualiser le problème de manière à ce qu'il soit conforme au principe de vraisemblance?θ^(xj)θ^(xij)

Je suppose que je n'ai pas compris certains concepts fondamentaux de la théorie de la décision / estimation / optimisation. Merci d'avance pour toutes les réponses et veuillez supposer que je ne sais rien car je n'ai aucune formation dans ce domaine ou en mathématiques en général. De plus, toutes les références suggérées (pour le lecteur naïf) sont appréciées.

user153935
la source

Réponses:

2

C'est une question assez intéressante et nouvelle! Au niveau formel, en utilisant la fonction de risque fréquentiste signifie utiliser (par exemple) la fonction de perte définie comme depuis il n'y a aucune raison d'interdire que des attentes telles que apparaissent dans une fonction de perte. Le fait qu'ils dépendent de la distribution entière de est une caractéristique qui peut sembler étrange, mais la distribution entière est définie en fonction de et la perte qui en résulte est donc fonction de

(Eθ[θ^(X)]θ)2+kEθ[(θ^(X)E[θ^(X)])2],
L(θ,θ^)=(Eθ[θ^(X)]θ)2+k(θ^Eθ[θ^(X)])2
Eθ[θ^(X)]θ^(X)θθ , et la distribution de .θ^θ^(X)

Je peux parfaitement prévoir une objection venant qu'une fonction de perte est en principe fonction d'un état de nature, , et d'une action, , se déroulant par exemple dans l'espace des paramètres , n'impliquant donc aucune hypothèse de distribution. Ce qui est correct du point de vue de la théorie des jeux. Mais étant donné qu'il s'agit d'une théorie de décision statistique, où une décision dépendra de l'observation d'une variable aléatoire , je ne vois aucune raison pour laquelle la généralisation où la fonction de perte dépend de la distribution de , indexée parL(θ,δ)θδΘδxXXθ, n'a pas pu être pris en considération. Le fait qu'il puisse violer le principe de vraisemblance n'est pas un problème direct pour la théorie de la décision et n'empêche pas la dérivation formelle d'un estimateur de Bayes.

Xi'an
la source