Signification de la valeur de p des variables du modèle de régression logistique

9

Je travaille donc avec des modèles de régression logistique dans R. Bien que je sois encore nouveau dans les statistiques, j'ai l'impression d'avoir une certaine compréhension des modèles de régression, mais il y a encore quelque chose qui me dérange:

En regardant l'image liée, vous voyez le résumé des impressions R pour un exemple de modèle que j'ai créé. Le modèle essaie de prédire si un e-mail dans l'ensemble de données sera retrouvé ou non (variable binaire isRefound) et l'ensemble de données contient deux variables étroitement liées à isRefound, à savoir next24et next7days- elles sont également binaires et indiquent si un e-mail sera cliqué dans la prochaine 24h / 7 prochains jours à partir du point actuel dans les journaux.

La valeur de p élevée devrait indiquer que l'impact de cette variable sur la prédiction du modèle est assez aléatoire, n'est-ce pas? Sur cette base, je ne comprends pas pourquoi la précision des prédictions des modèles tombe en dessous de 10% lorsque ces deux variables sont exclues de la formule de calcul. Si ces variables sont si peu significatives, pourquoi les supprimer du modèle a-t-il un si grand impact?

Cordialement et merci d'avance, Rickyfox

entrez la description de l'image ici


ÉDITER:

Tout d'abord, je n'en ai retiré que le prochain24, ce qui devrait produire un faible impact car son coef est assez petit. Comme prévu, peu de choses ont changé - je ne vais pas télécharger de photo pour ça.

La suppression des 7 jours suivants a eu un impact important sur le modèle: AIC 200k up, précision jusqu'à 16% et rappel jusqu'à 73%

entrez la description de l'image ici

deemel
la source
1
Et si vous venez de isRefound ~ day + next24supprimer et d'omettre toutes les autres variables?
smillig

Réponses:

11

Fondamentalement, il semble que vous ayez un problème de multicolinéarité. Il y a beaucoup de matériel disponible à ce sujet, à partir de ce site Web ou de wikipedia.

En bref, les deux prédicteurs semblent être réellement liés à votre résultat, mais ils sont également probablement fortement corrélés l'un avec l'autre (notez qu'avec plus de deux variables, il est toujours possible d'avoir des problèmes de multicolinéarité sans fortes corrélations bivariées). Cela a bien sûr beaucoup de sens: tous les e-mails cliqués dans les 24 heures ont également été cliqués dans les 7 jours (par définition) et la plupart des e-mails n'ont probablement pas été cliqués du tout (pas en 24 heures et pas en 7 jours).

Cela se traduit notamment par les erreurs standard / CI incroyablement grandes pour les coefficients pertinents (à en juger par le fait que vous utilisez bigglm et que même de minuscules coefficients sont très importants, il semble que la taille de votre échantillon devrait être plus que suffisante pour obtenir de bonnes estimations). D'autres choses que vous pouvez faire pour détecter ce type de problèmes: regardez les corrélations par paires, supprimez une seule des variables suspectes (comme suggéré par @Nick Sabbe), testez la signification pour les deux variables conjointement.

Plus généralement, des valeurs de p élevées ne signifient pas que l'effet est petit ou aléatoire, mais seulement qu'il n'y a aucune preuve que le coefficient est différent de 0. Il peut également être très grand, vous ne le savez tout simplement pas (soit parce que l'échantillon la taille est trop petite ou parce qu'il y a un autre problème avec le modèle).

Gala
la source
1
Notez que la nouvelle sortie que vous avez publiée suggère que certaines autres variables pourraient également être impliquées (ou qu'il y a un autre problème que je n'ai pas vu) car sinon vous vous attendriez à ce que le SE soit beaucoup plus bas lorsqu'une seule des deux variables est incluse .
Gala
Oui, je l'ai déjà remarqué, mais merci. Je ferai une modification plus tard pour vous dire ce qui pourrait avoir causé cela si vous êtes intéressé
deemel