Pourquoi l'estimation du maximum de vraisemblance est-elle considérée comme une technique fréquentiste

19

Pour moi, les statistiques Frequentist sont synonymes d'essayer de prendre des décisions qui sont bonnes pour tous les échantillons possibles. C'est-à-dire qu'une règle de décision fréquentiste devrait toujours essayer de minimiser le risque fréquentiste, qui dépend d'une fonction de perte et du véritable état de la nature :L θ 0δLθ0

RFreq=Eθ0(L(θ0,δ(Oui))

Comment l'estimation du maximum de vraisemblance est-elle liée au risque fréquentiste? Étant donné qu'il s'agit de la technique d'estimation ponctuelle la plus utilisée par les habitués, il doit y avoir un lien. Pour autant que je sache, l'estimation du maximum de vraisemblance est plus ancienne que le concept de risque fréquentiste, mais il doit toujours y avoir un lien pour quelle autre raison autant de personnes prétendent-elles qu'il s'agit d'une technique fréquentiste?

Le lien le plus étroit que j'ai trouvé est que

"Pour les modèles paramétriques qui satisfont à des conditions de régularité faibles, l'estimateur du maximum de vraisemblance est approximativement minimax" Wassermann 2006, p. 201 "

La réponse acceptée relie soit l'estimation du point de vraisemblance maximale au risque fréquentiste, soit fournit une autre définition formelle de l'inférence fréquentiste qui montre que le MLE est une technique d'inférence fréquentiste.

Julian Karls
la source
6
ML ne prête aucune attention aux risques! Cela, en fait, fait partie de la critique de la théorie de la décision fréquentiste de ML. Je soupçonne que cette question peut être difficile à répondre car elle utilise implicitement "Frequentist" dans deux sens incompatibles - l'un est la théorie de la décision, se référant à une fonction de perte, et l'autre se réfère implicitement à ne pas supposer une distribution antérieure.
whuber
@whuber ML fait attention au risque. En fait, c'est la minimisation sous perte logarithmique sous un a priori uniforme incorrect.
Cagdas Ozgenc du
4
@Cagdas Je pense que ce n'est généralement pas le risque pour un décideur: il présente simplement le ML comme s'il minimisait le risque si la perte logarithmique était le risque qui comptait pour lui. Soit dit en passant, faire appel à un "prior d'uniforme irrégulier" est décidément non fréquentiste!
whuber
1
@whuber Les procédures d'estimation bayésienne utilisent également la perte de log cumulée. Ce n'est qu'après que le risque du décideur est appliqué. Si nous parlons d'optimiser directement le risque du décideur (pas via un tremplin de perte de journal), les procédures fréquentistes sont plus célèbres à cet égard, à savoir l'OLS.
Cagdas Ozgenc

Réponses:

16

Vous appliquez une définition relativement étroite du fréquentisme et du MLE - si nous sommes un peu plus généreux et définissons

  • Fréquentisme: objectif de cohérence, d'optimalité (asymptotique), de non biais et de taux d'erreur contrôlés sous échantillonnage répété, indépendamment des vrais paramètres

  • MLE = estimation ponctuelle + intervalles de confiance (IC)

alors il semble assez clair que le MLE satisfait tous les idéaux fréquentistes. En particulier, les IC dans le MLE, en tant que valeurs p, contrôlent le taux d'erreur sous échantillonnage répété et ne donnent pas la région de probabilité de 95% pour la valeur réelle du paramètre, comme beaucoup de gens le pensent - ils sont donc de part en part fréquents.

Toutes ces idées n'étaient pas déjà présentes dans le document de base de Fisher de 1922 "Sur les fondements mathématiques des statistiques théoriques" , mais l'idée d'optimalité et de non biais est, et Neyman ce dernier a ajouté l'idée de construire des IC avec des taux d'erreur fixes. Efron, 2013, «Un argument de 250 ans: croyance, comportement et bootstrap» , résume dans son histoire très lisible du débat bayésien / fréquentiste:

Le mouvement fréquentiste a vraiment commencé au début des années 1900. Ronald Fisher a développé la théorie du maximum de vraisemblance de l'estimation optimale, montrant le meilleur comportement possible pour une estimation, et Jerzy Neyman a fait de même pour les intervalles de confiance et les tests. Les procédures de Fisher et Neyman étaient un ajustement presque parfait aux besoins scientifiques et aux limites de calcul de la science du XXe siècle, jetant le bayésianisme dans une existence fantôme.

Concernant votre définition plus étroite - je suis légèrement en désaccord avec votre prémisse selon laquelle la minimisation du risque fréquentiste (FR) est le critère principal pour décider si une méthode suit la philosophie fréquentiste. Je dirais que le fait de minimiser FR est une propriété souhaitable découle de la philosophie fréquentiste, plutôt que de la précéder. Par conséquent, une règle de décision / estimateur n'a pas à minimiser les FR pour être fréquentiste, et minimiser les FR ne signifie pas non plus nécessairement qu'une méthode est fréquentiste, mais un fréquentiste préférerait sans doute minimiser les FR.

Si nous regardons spécifiquement le MLE: Fisher a montré que le MLE est asymptotiquement optimal (largement équivalent à la minimisation des FR), et c'était certainement une des raisons de promouvoir le MLE. Cependant, il savait que l'optimalité n'était pas valable pour une taille d'échantillon finie. Pourtant, il était satisfait de cet estimateur en raison d'autres propriétés souhaitables telles que la cohérence, la normalité asymptotique, l'invariance sous les transformations de paramètres, et n'oublions pas: la facilité de calcul. L'invariance en particulier est soulignée abondamment dans l'article de 1922 - d'après ma lecture, je dirais que le maintien de l'invariance sous la transformation des paramètres et la capacité de se débarrasser des priors en général, ont été l'une de ses principales motivations dans le choix du MLE. Si vous voulez mieux comprendre son raisonnement, je recommande vraiment le papier de 1922, c'est '

Florian Hartig
la source
2
Puis-je résumer votre réponse étant donné que l'estimation ponctuelle du maximum de vraisemblance est le plus souvent utilisée conjointement avec les IC ou dans le cadre d'un test d'hypothèse (par exemple, un test de ration de vraisemblance), c'est donc une technique fréquentiste? Si tel est le cas, je pense que c'est une réponse valable, mais pas celle que j'espérais. Je visais un argument formel expliquant pourquoi l'estimation de la probabilité maximale peut être considérée comme une technique d'estimation ponctuelle fréquentiste. Si cela nécessite une autre définition formelle de l'inférence fréquentiste, c'est bien aussi.
Julian Karls
1
Je pense généralement que le MLE est un cadre qui inclut les estimations ponctuelles de Fisher avec les CI de Neyman - c'est ainsi qu'il est enseigné en classe, et en raison des arguments ci-dessus, je maintiens qu'il est fréquentiste jusqu'à l'os. Je me demande à quel point il est logique de discuter si le MLE seul est un estimateur fréquentiste, sans le contexte de comment et pourquoi il est utilisé. Si vous voulez les raisons de Fisher, je recommande vraiment le document de 1922 - je dirais que les raisons qu'il déclare sont fréquentistes, bien que ce mot n'existait pas à l'époque. J'ai étendu mon commentaire à cet égard.
Florian Hartig
1

Fondamentalement, pour deux raisons:

  • Le maximum de vraisemblance est une estimation ponctuelle des paramètres du modèle. Nous, les Bayésiens, aimons les distributions postérieures.
  • Le maximum de vraisemblance suppose qu'il n'y a pas de distribution préalable , nous, Bayésiens, avons besoin de nos a priori, cela peut être informatif ou non informatif, mais il doit exister
Uri Goren
la source
6
+1 Je tiens simplement à souligner que vous semblez implicitement assimiler "fréquentiste" à "non bayésien" dans cette réponse. Le langage de "We Bayesians" suggère également que "Bayesian" se réfère à une sorte de caractéristique personnelle ou d'appartenance à une tribu - presque comme si vous étiez une sorte d'Esquimau - plutôt qu'à un ensemble de techniques et d'interprétations.
whuber
4
D'autre part, le MLE peut facilement être dérivé en tant que technique bayésienne. Il s'agit simplement de l'estimation MAP pour tout modèle statistique utilisant un a priori uniforme.
Julian Karls
3
MAPest également une estimation point par point, et est mal vu par les "vrais bayésiens"
Uri Goren