Intervalles de prédiction pour le résultat d'une régression logistique avec réponse binomiale

8

Supposons que nous ayons un modèle de régression logistique:

P(y=1|x)=plog(p1p)=βx

Étant donné un échantillon aléatoire D={X,y} de taille N , nous pouvons calculer les intervalles de confiance pour le β et les intervalles de prédiction correspondants pour p , étant donné une certaine valeur x du vecteur prédicteur. Tout cela est très standard et détaillé, par exemple, ici .

Supposons plutôt que je m'intéresse à un intervalle de prédiction pour y , étant donné x . Bien sûr, cela n'a aucun sens de calculer un intervalle de prédiction pour une seule réalisation de y , car y ne peut prendre que les valeurs 0 et 1, et aucune valeur entre les deux. Cependant , si nous considérons m réalisations de y pour la même valeur fixe de x , cela devient similaire (mais pas identique) à la question du calcul d'un intervalle de prédiction pour une variable aléatoire binomiale . Il s'agit essentiellement de la même situation décrite par Glen_b dans les commentaires de cette réponse. Cette question a-t-elle une réponse, à part la question triviale "utiliser un bootstrap non paramétrique"?

DeltaIV
la source
pouvez-vous plutôt calculer un intervalle de prédiction pour log(p/(1p)) ?
Hugh Perkins
2
@HughPerkins Je pense que la question est de savoir comment combiner l'incertitude en p avec l'incertitude de l'échantillonnage binomial, étant donné également l'incertitude en p . Existe-t-il une solution sous forme fermée?
EdM
@EdM vous avez compris mon point. Je me demande s'il existe une solution sous forme fermée ou une approximation analytique.
DeltaIV
1
[offtopic] random idea, il me semble qu'il pourrait être intéressant d'avoir un tag comme «open-research-opportunity» pour des questions comme celle-ci auxquelles / si elles sont répondues par la négative
Hugh Perkins

Réponses:

4

Une façon dont cela devrait fonctionner sans amorçage (qui en pratique peut être la chose la plus rapide à mettre en œuvre) serait:

  1. Supposons qu'une approximation normale des cotes logarithmiques prévues ( ) plus / moins son erreur standard fonctionne. Tout logiciel de régression logistique fournira cela.xβ^
  2. Les centiles de cette distribution se transforment en probabilités via l'anti-logit.
  3. On peut trouver un (mélange de) distribution (s) bêta qui se rapproche bien de la distribution prédictive de la probabilité.
  4. La distribution prédictive du résultat est alors un (mélange de) distribution bêta-binomiale (s avec les mêmes poids de mélange que ceux utilisés à l'étape 3).

Alternativement, on peut "simplement" intégrer les log-odds à ​​partir de la prédiction conjointe des résultats et des log-odds, mais je pense que ce sera un gâchis complet sans solution de forme fermée.

Björn
la source
4
Vous pouvez également simuler directement à partir de la normale multivariée asymptotique pour , puis former un mélange de binômes sur ces valeurs. ββ^
Glen_b -Reinstate Monica
J'aime l'idée générale, mais je ne suis pas sûr des détails. Par exemple, «trouvez une (combinaison de) distribution (s) bêta qui se rapproche bien de la distribution prédictive de la probabilité», comment procédez-vous dans la pratique? Pourriez-vous ajouter un exemple? Même une petite dimension suffirait.
DeltaIV
3
Je peux écrire cela comme quelque chose sous forme de réponse si vous préférez - cela ne me dérange pas de toute façon.
Glen_b -Reinstate Monica
2
@Glen_b J'apprécierais vraiment ça.
DeltaIV
1
@Glen_b, je serais intéressé de voir cette réponse.
Richard Hardy