Pour un problème de régression logistique bayésienne, j'ai créé une distribution prédictive postérieure. J'échantillonne à partir de la distribution prédictive et reçois des milliers d'échantillons de (0,1) pour chaque observation que j'ai. Visualiser la qualité de l'ajustement est loin d'être intéressant, par exemple:
Ce graphique montre les 10 000 échantillons + le point de référence observé (dans la gauche, on peut distinguer une ligne rouge: oui, c'est l'observation). Le problème est que ce tracé n'est guère informatif, et j'en aurai 23, un pour chaque point de données.
Existe-t-il une meilleure façon de visualiser les 23 points de données plus les échantillons postérieurs.
Une autre tentative:
Une autre tentative basée sur le papier ici
bayesian
data-visualization
classification
goodness-of-fit
binary-data
Cam.Davidson.Pilon
la source
la source
Réponses:
J'ai l'impression que vous n'abandonnez pas tout à fait tous les biens à votre situation, mais étant donné ce que nous avons devant nous, considérons l'utilité d' un simple point-plot pour afficher les informations.
La seule vraie chose à ne pas faire ici (qui ne sont peut-être pas des comportements par défaut) sont:
Le tri est le vrai coup de pied pour des points comme ceux-ci. Le tri par valeurs de proportion permet de découvrir facilement des observations résiduelles élevées. Avoir un système où vous pouvez facilement trier par valeurs contenues dans l'intrigue ou dans les caractéristiques externes des cas est le meilleur moyen d'obtenir le meilleur rapport qualité-prix.
Ce conseil s'étend également aux observations continues. Vous pouvez colorer / façonner les points selon que le résidu est négatif ou positif, puis dimensionner le point en fonction du résidu absolu (ou au carré). Ceci n'est cependant pas nécessaire ici en raison de la simplicité des valeurs observées.
la source
La façon habituelle de visualiser l'ajustement d'un modèle de régression logistique bayésien avec un prédicteur est de tracer la distribution prédictive avec les proportions correspondantes. (S'il vous plaît, faites-moi savoir si j'ai compris votre question)
Un exemple utilisant l'ensemble de données populaire de Bliss.
Code ci-dessous dans R:
la source
ni = 23
etno = 7
et chacun des 23 individus avaient un différentdose
. Vous pouvez cependant faire un tracé similaire pour les données de l'OP (les points sont placés à 0 ou 1 sur l'axe Y et vous tracez la fonction). Voir quelques exemples de graphiques similaires pour la régression logistique dans les références que je donne sur cette réponse .Je réponds à une demande de techniques graphiques alternatives qui montrent à quel point les événements de défaillance simulés correspondent aux événements de défaillance observés. La question posée dans "Programmation probabiliste et méthodes bayésiennes pour les pirates" a trouvé ici . Voici mon approche graphique:
Code trouvé ici .
la source