Pour moi, les statistiques Frequentist sont synonymes d'essayer de prendre des décisions qui sont bonnes pour tous les échantillons possibles. C'est-à-dire qu'une règle de décision fréquentiste devrait toujours essayer de minimiser le risque fréquentiste, qui dépend d'une fonction de perte et du véritable état de la nature :L θ 0
Comment l'estimation du maximum de vraisemblance est-elle liée au risque fréquentiste? Étant donné qu'il s'agit de la technique d'estimation ponctuelle la plus utilisée par les habitués, il doit y avoir un lien. Pour autant que je sache, l'estimation du maximum de vraisemblance est plus ancienne que le concept de risque fréquentiste, mais il doit toujours y avoir un lien pour quelle autre raison autant de personnes prétendent-elles qu'il s'agit d'une technique fréquentiste?
Le lien le plus étroit que j'ai trouvé est que
"Pour les modèles paramétriques qui satisfont à des conditions de régularité faibles, l'estimateur du maximum de vraisemblance est approximativement minimax" Wassermann 2006, p. 201 "
La réponse acceptée relie soit l'estimation du point de vraisemblance maximale au risque fréquentiste, soit fournit une autre définition formelle de l'inférence fréquentiste qui montre que le MLE est une technique d'inférence fréquentiste.
la source
Réponses:
Vous appliquez une définition relativement étroite du fréquentisme et du MLE - si nous sommes un peu plus généreux et définissons
Fréquentisme: objectif de cohérence, d'optimalité (asymptotique), de non biais et de taux d'erreur contrôlés sous échantillonnage répété, indépendamment des vrais paramètres
MLE = estimation ponctuelle + intervalles de confiance (IC)
alors il semble assez clair que le MLE satisfait tous les idéaux fréquentistes. En particulier, les IC dans le MLE, en tant que valeurs p, contrôlent le taux d'erreur sous échantillonnage répété et ne donnent pas la région de probabilité de 95% pour la valeur réelle du paramètre, comme beaucoup de gens le pensent - ils sont donc de part en part fréquents.
Toutes ces idées n'étaient pas déjà présentes dans le document de base de Fisher de 1922 "Sur les fondements mathématiques des statistiques théoriques" , mais l'idée d'optimalité et de non biais est, et Neyman ce dernier a ajouté l'idée de construire des IC avec des taux d'erreur fixes. Efron, 2013, «Un argument de 250 ans: croyance, comportement et bootstrap» , résume dans son histoire très lisible du débat bayésien / fréquentiste:
Concernant votre définition plus étroite - je suis légèrement en désaccord avec votre prémisse selon laquelle la minimisation du risque fréquentiste (FR) est le critère principal pour décider si une méthode suit la philosophie fréquentiste. Je dirais que le fait de minimiser FR est une propriété souhaitable découle de la philosophie fréquentiste, plutôt que de la précéder. Par conséquent, une règle de décision / estimateur n'a pas à minimiser les FR pour être fréquentiste, et minimiser les FR ne signifie pas non plus nécessairement qu'une méthode est fréquentiste, mais un fréquentiste préférerait sans doute minimiser les FR.
Si nous regardons spécifiquement le MLE: Fisher a montré que le MLE est asymptotiquement optimal (largement équivalent à la minimisation des FR), et c'était certainement une des raisons de promouvoir le MLE. Cependant, il savait que l'optimalité n'était pas valable pour une taille d'échantillon finie. Pourtant, il était satisfait de cet estimateur en raison d'autres propriétés souhaitables telles que la cohérence, la normalité asymptotique, l'invariance sous les transformations de paramètres, et n'oublions pas: la facilité de calcul. L'invariance en particulier est soulignée abondamment dans l'article de 1922 - d'après ma lecture, je dirais que le maintien de l'invariance sous la transformation des paramètres et la capacité de se débarrasser des priors en général, ont été l'une de ses principales motivations dans le choix du MLE. Si vous voulez mieux comprendre son raisonnement, je recommande vraiment le papier de 1922, c'est '
la source
Fondamentalement, pour deux raisons:
la source
MAP
est également une estimation point par point, et est mal vu par les "vrais bayésiens"