J'examine quelques problèmes de régression logistique. ("régulier" et "conditionnel").
Idéalement, je voudrais pondérer chacun des cas d'entrée afin que le GLM se concentre davantage sur la prédiction correcte des cas à pondération plus élevée au détriment d'une éventuelle mauvaise classification des cas à pondération inférieure.
Cela a sûrement été fait auparavant. Quelqu'un peut-il m'orienter vers des publications pertinentes (ou suggérer éventuellement une fonction de vraisemblance modifiée.)
Merci!
Réponses:
glm
contient un paramètreweights
exactement à cette fin. Vous lui fournissez un vecteur de nombres à n'importe quelle échelle, qui contient le même nombre de poids que vous avez d'observations.Je réalise seulement maintenant que vous ne parlez peut-être pas
R
. Sinon, vous voudrez peut-être.la source
glm
trouver (probablement) une implémentation C.Si vous avez accès à SAS, cela se fait très facilement en utilisant PROC GENMOD. Tant que chaque observation a une variable de poids, l'utilisation de la déclaration de poids vous permettra d'effectuer le type d'analyse que vous recherchez. Je l'ai principalement utilisé en utilisant des poids de probabilité inverse de traitement, mais je ne vois aucune raison pour laquelle vous ne pouviez pas attribuer de poids à vos données pour mettre l'accent sur certains types de cas, tant que vous vous assurez que votre N reste constant. Vous voudrez également vous assurer d'inclure une sorte de variable ID, car techniquement les cas pondérés sont des observations répétées. Exemple de code, avec un ID d'observation «id» et une variable de pondération «wt»:
la source