Supposons que nous ayons un modèle de régression logistique:
Étant donné un échantillon aléatoire de taille , nous pouvons calculer les intervalles de confiance pour le et les intervalles de prédiction correspondants pour , étant donné une certaine valeur du vecteur prédicteur. Tout cela est très standard et détaillé, par exemple, ici .
Supposons plutôt que je m'intéresse à un intervalle de prédiction pour , étant donné . Bien sûr, cela n'a aucun sens de calculer un intervalle de prédiction pour une seule réalisation de , car ne peut prendre que les valeurs 0 et 1, et aucune valeur entre les deux. Cependant , si nous considérons réalisations de pour la même valeur fixe de , cela devient similaire (mais pas identique) à la question du calcul d'un intervalle de prédiction pour une variable aléatoire binomiale . Il s'agit essentiellement de la même situation décrite par Glen_b dans les commentaires de cette réponse. Cette question a-t-elle une réponse, à part la question triviale "utiliser un bootstrap non paramétrique"?
la source
Réponses:
Une façon dont cela devrait fonctionner sans amorçage (qui en pratique peut être la chose la plus rapide à mettre en œuvre) serait:
Alternativement, on peut "simplement" intégrer les log-odds à partir de la prédiction conjointe des résultats et des log-odds, mais je pense que ce sera un gâchis complet sans solution de forme fermée.
la source