Recherche d'une compréhension théorique de la régression logistique Firth

13

J'essaie de comprendre la régression logistique de Firth (méthode de gestion de la séparation parfaite / complète ou quasi-complète dans la régression logistique) afin de pouvoir l'expliquer aux autres en termes simplifiés. Quelqu'un a-t-il une explication factice de la modification que l'estimation de Firth apporte au MLE?

J'ai lu, du mieux que je pouvais, Firth (1993) et je comprends qu'une correction est appliquée à la fonction de score. Je suis floue sur l'origine et la justification de la correction et sur le rôle de la fonction de score dans MLE.

Désolé si c'est une connaissance rudimentaire. La littérature que j'ai passée en revue semble exiger une compréhension beaucoup plus approfondie du MLE que je ne possède.

ESmith5988
la source

Réponses:

11

La correction de Firth revient à spécifier l'a priori de Jeffrey et à rechercher le mode de la distribution postérieure. En gros, il ajoute la moitié d'une observation à l'ensemble de données en supposant que les vraies valeurs des paramètres de régression sont égales à zéro.

L'article de Firth est un exemple d'asymptotique d'ordre supérieur. L'ordre nul, pour ainsi dire, est fourni par les lois des grands nombres: dans les grands θ 0 est la valeur réelle. Vous avez peut-être appris que les MLE sont asymptotiquement normaux, à peu près parce qu'ils sont basés sur des transformations non linéaires de sommes de variables iid (scores). Ceci est la première approximation d'ordre: θ n = θ 0 + O ( n - 1 / deux ) = θ 0 + v 1 n - 1 /θ^nθ0θ0θn=θ0+O(n-1/2)=θ0+v1n-1/2+o(n-1/2) est une variable normale avec une moyenne nulle et une variance σ 2 1 (ou matrice var-cov) qui est l'inverse des informations de Fisher pour une seule observation. La statistique du test de rapport de vraisemblance est alors asymptotiquement n ( θ n - θ 0 ) 2 / σ 2 1v1σ12 ou quelles que soient les extensionsvariables multiples àproduits internes etmatricescovariance inverse serait.n(θ^n-θ0)2/σ12χ12

Ordre supérieur asymptotiques essaie d'apprendre quelque chose à ce terme suivant , généralement par taquinant le terme suivant O ( n - 1 ) . De cette façon, les estimations et les statistiques des tests peuvent incorporer les petits biais de l'échantillon de l'ordre de 1 / n (si vous voyez l'article qui dit "nous avons des MLE non biaisés", ces gens ne savent probablement pas de quoi ils parlent). La correction la plus connue de ce type est la correction de Bartlett pour les tests de rapport de vraisemblance. La correction de Firth est également de cet ordre: elle ajoute une quantité fixe 1o(n-1/2)O(n-1)1/n12lndetje(θ) ( en haut de la p. 30) pour la probabilité, et dans les grands échantillons la contribution relative de cette quantité disparaît à la vitesse de éclipsé par les informations d'échantillon.1/n

StasK
la source
Désolé pour mon manque de compréhension, mais je ne suis pas complètement à la suite. Lorsque vous dites "En gros, cela ajoute la moitié d'une observation à l'ensemble de données en supposant que les vraies valeurs des paramètres de régression sont égales à zéro." Pourquoi supposeriez-vous que les vraies valeurs des paramètres de régression sont égales à zéro? De plus, comment ajoute-t-il une demi-observation à l'ensemble de données?
ESmith5988
D'après le reste de votre explication, il semble que la fonction de vraisemblance soit ajustée d'une quantité fixe qui réduit le biais positif des petits échantillons. La quantité fixe est effectivement fonction des informations qui vont à zéro lorsque la taille de l'échantillon augmente, n'est-ce pas?
ESmith5988
Sur votre premier commentaire - La correction de Firth est à peu près la valeur attendue d'une contribution à la probabilité qui aurait été ajoutée par une observation qui aurait un poids effectif de 1/2. Ce n'est en aucun cas l'explication correcte, et encore moins l'intuition de la raison pour laquelle vous voulez faire cela; il vous donne juste la saveur. Vous définissez les coefficients à zéro parce que vous n'avez aucune meilleure idée de ce que seront les nombres (et les coefficients zéro ne correspondent bien à aucun effet des régresseurs, ce qui est significatif la plupart du temps). Sur votre deuxième commentaire - correct.
StasK