Je veux prédire un problème de santé. J'ai 3 catégories de résultats qui sont classées: «normale», «légère» et «grave». Je souhaite prédire cela à partir de deux variables prédictives, un résultat de test (une covariable d'intervalle continue) et des antécédents familiaux avec ce problème (oui ou non). Dans mon échantillon, les probabilités sont de 55% (normales), 35% (légères) et 10% (graves). En ce sens, je pouvais toujours prédire «normal» et avoir raison 55% du temps, bien que cela ne me donne aucune information sur les patients individuels. Je correspond au modèle suivant:
Supposons qu'il n'y ait pas d'interaction et que tout va bien avec le modèle. La concordance, c, est de 60,5%, ce qui, à mon avis, est la précision prédictive maximale offerte par le modèle.
Je tombe sur deux nouveaux patients avec les données suivantes: 1. test = 3,26, famille = 0; 2. test = 2,85, famille = 1. Je veux prédire leur pronostic. En utilisant la formule: (et en prenant ensuite les différences entre les probabilités cumulatives), je peux calculer la distribution de probabilité sur les catégories de réponse conditionnelle au modèle. Code R (nb, en raison de problèmes d'arrondi, la sortie ne correspond pas parfaitement):
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X <- rbind(c(3.26, 0), c(2.85, 1))
pred_cat1 <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3 <- 1-pred_cat2.temp
pred_cat2 <- pred_cat2.temp-pred_cat1
predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)
À savoir: 1,0 = 55,1%, 1 = 35,8%, 2 = 9,1%; et 2. 0 = 35,6%, 1 = 46,2%, 2 = 18,2%. Ma question est la suivante: comment passer de la distribution de probabilité à une catégorie de réponse prédite?
J'ai essayé plusieurs possibilités en utilisant les données de l'échantillon, où le résultat est connu. Si je choisis juste max (probabilités), la précision est de 57%, une légère amélioration par rapport au zéro, mais en dessous de la concordance. De plus, dans l'échantillon, cette approche ne choisit jamais «sévère», ce que je veux vraiment savoir. J'ai essayé une approche bayésienne en convertissant les probabilités nulles et modélisées en cotes puis en choisissant le max (odds ratio). Cela est parfois «sévère», mais donne une précision moins bonne de 49,5%. J'ai également essayé une somme des catégories pondérées par les probabilités et les arrondis. Ceci, encore une fois, ne choisit jamais «sévère» et a une faible précision de 51,5%.
Quelle est l'équation qui prend les informations ci-dessus et donne une précision optimale (60,5%)?
la source
La concordance est définie en vérifiant le score moyen, pas le score maximum.
Ainsi, pour vos exemples, les scores moyens pour 1 sont 0 * 55,1% + 1 * 35,8% + 2 * 9,1% = 0,54, et 2 est (par des calculs similaires) 0,826.
C'est cette valeur que vous devez comparer pour obtenir la concordance ou toute autre statistique d'association.
Réf - http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm
la source
SAS PROC LOGIST