J'ai un ensemble de données avec une variable de réponse binaire (survie) et 3 variables explicatives ( A
= 3 niveaux, B
= 3 niveaux, C
= 6 niveaux). Dans cet ensemble de données, les données sont bien équilibrées, avec 100 individus par ABC
catégorie. J'ai déjà étudié l'effet de ceux A
- ci B
et des C
variables avec cet ensemble de données; leurs effets sont importants.
J'ai un sous-ensemble. Dans chaque ABC
catégorie, 25 des 100 individus, dont environ la moitié sont vivants et la moitié sont morts (quand moins de 12 sont vivants ou morts, le nombre a été complété avec l'autre catégorie), ont été examinés plus en détail pour une 4ème variable ( D
). Je vois trois problèmes ici:
- J'ai besoin de pondérer les données des corrections d'événements rares décrites dans King et Zeng (2001) pour prendre en compte la proportion approximative de 50% - 50% n'est pas égale à 0/1 dans le plus grand échantillon.
- Cet échantillonnage non aléatoire de 0 et 1 conduit à une probabilité différente pour les individus d'être échantillonnés dans chacune des
ABC
catégories, donc je pense que je dois utiliser les vraies proportions de chaque catégorie plutôt que la proportion globale de 0/1 dans le grand échantillon . - Cette 4e variable a 4 niveaux, et les données ne sont vraiment pas équilibrées dans ces 4 niveaux (90% des données se trouvent dans 1 de ces niveaux, disons niveau
D2
).
J'ai lu attentivement l'article de King et Zeng (2001), ainsi que cette question de CV qui m'a conduit à l'article de King et Zeng (2001), et plus tard cet autre qui m'a amené à essayer le logistf
package (j'utilise R). J'ai essayé d'appliquer ce que j'ai compris de King et Zheng (2001), mais je ne suis pas sûr que ce que j'ai fait soit juste. J'ai compris qu'il y a deux méthodes:
- Pour la méthode de correction précédente, j'ai cru comprendre que vous ne corrigiez que l'interception. Dans mon cas, l'ordonnée à l'origine est la
A1B1C1
catégorie, et dans cette catégorie, la survie est de 100%, donc la survie dans le grand ensemble de données et le sous-ensemble est la même, et donc la correction ne change rien. Je soupçonne que cette méthode ne devrait pas s'appliquer à moi de toute façon, parce que je n'ai pas une vraie proportion globale, mais une proportion pour chaque catégorie, et cette méthode l'ignore. Pour la méthode de pondération: j'ai calculé w i , et d'après ce que j'ai compris dans l'article: "Tous les chercheurs doivent faire est de calculer w i dans l'équation (8), le choisir comme poids dans leur programme informatique, puis exécuter un modèle logit ". J'ai donc d'abord exécuté mon
glm
as:glm(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)
Je ne suis pas sûr que je devrais inclure
A
,B
etC
comme variables explicatives, car je m'attends normalement à ce qu'elles n'aient aucun effet sur la survie dans ce sous-échantillon (chaque catégorie contient environ 50% de morts et de vivants). Quoi qu'il en soit, cela ne devrait pas beaucoup changer la sortie si elles ne sont pas significatives. Avec cette correction, j'obtiens un bon ajustement pour le niveauD2
(le niveau avec la plupart des individus), mais pas du tout pour les autres niveaux deD
(D2
prépondérants). Voir le graphique en haut à droite:
Convient à un
glm
modèle non pondéré et à unglm
modèle pondéré avec w i . Chaque point représente une catégorie.Proportion in the big dataset
est la vraie proportion de 1 dans laABC
catégorie dans le grand ensemble de données,Proportion in the sub dataset
est la vraie proportion de 1 dans laABC
catégorie dans le sous-ensemble de données etModel predictions
sont les prédictions desglm
modèles équipés du sous-ensemble de données. Chaquepch
symbole représente un niveau donné deD
. Les triangles sont de niveauD2
.
Ce n'est que plus tard en voyant qu'il y a un logistf
, je pense que ce n'est peut-être pas si simple. Je ne suis plus sûr maintenant. Ce faisant logistf(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)
, j'obtiens des estimations, mais la fonction de prédiction ne fonctionne pas, et le test de modèle par défaut renvoie des valeurs chi au carré infinies (sauf une) et toutes les valeurs p = 0 (sauf 1).
Des questions:
- Ai-je bien compris King et Zeng (2001)? (Dans quelle mesure suis-je loin de le comprendre?)
- Dans mes
glm
crises,A
,B
etC
ont des effets importants. Tout cela signifie que j'écarte beaucoup les proportions moitié / moitié de 0 et 1 dans mon sous-ensemble et différemment dans les différentesABC
catégories - n'est-ce pas? - Puis-je appliquer la correction de pondération de King et Zeng (2001) malgré le fait que j'ai une valeur de tau et une valeur de pour chaque
ABC
catégorie au lieu de valeurs globales? - Est-ce un problème que ma
D
variable soit si déséquilibrée, et si c'est le cas, comment puis-je la gérer? (Compte tenu du fait que je devrai déjà peser pour la correction d'événement rare ... La "double pondération", c'est-à-dire la pondération des poids, est-elle possible?) Merci!
Edit : voyez ce qui se passe si je supprime A, B et C des modèles. Je ne comprends pas pourquoi il y a de telles différences.
Convient sans A, B et C comme variables explicatives dans les modèles
J'ai réalisé que mes comparaisons de proportions ajustées et réelles dans le premier graphique, en haut à droite, ne sont pas la meilleure façon d'évaluer l'ajustement du modèle, car dans les mégadonnées, je peux calculer les proportions pour les catégories ABC, mais avec l'ajustement du modèle où les quatre variables sont incluses, des proportions sont prévues pour chaque catégorie ABCD.
J'ai ajusté un nouveau modèle sur les sous-données, où j'ai supprimé D:
Pour que je puisse comparer les prédictions de ce modèle équipé du sous-ensemble de données et les proportions réelles dans l'ensemble de données volumineuses, et évaluer si ma pondération fait ce que je m'attends à ce qu'elle fasse.
Le résultat est:
Maintenant, je pense que la réponse est: oui, certainement.
Par conséquent, cela a répondu à mes questions 1 (je comprends bien King et Zheng (2001), au moins la méthode de pondération) et 3 (je peux appliquer la correction de pondération de King et Zheng (2001) malgré le fait que j'ai une valeur deτ et une valeur de y¯ pour chaque catégorie ABC au lieu des valeurs globales).
Les deux autres questions étaient:
Pourquoi est-il si important d'inclure A, B et C dans le modèle pour obtenir un bon ajustement et pourquoi leur effet est significatif. Est-ce dû, comme je l'ai suggéré, au fait que j'écarte beaucoup les proportions moitié / moitié de 0 et 1 dans mon sous-ensemble et différemment dans les différentes catégories ABC?
-> Je pense que mon attente que l'inclusion de A + B + C dans le modèle ne devrait pas avoir d'effet car toutes les catégories ABC devraient contenir environ la moitié de 0 et 1 observation serait vraie avec un modèle linéaire non pondéré (en fait, lorsque vous comparez mes deux graphiques en haut à gauche, il n'y a pas beaucoup de différence entre eux ... mais quand même, B et C ont un effet significatif dans ce modèle linéaire non pondéré .. Je considérerai cela parce que le départ du 50 / 50), mais pas nécessairement avec un modèle linéaire pondéré.
Est-ce un problème que ma variable D soit si déséquilibrée, et si c'est le cas, comment puis-je la gérer? (La "double pondération", c'est-à-dire la pondération des poids, est-elle possible?).
-> Je pense à utiliser la fonction Anova de la
'car'
bibliothèque pour une régression logistique (en précisant'test.statistic="LR"'
). Dans ce cas, la fonction pondère les cellules directement pour fabriquer des SS de type II, donc je peux garder l''weight'
option pour la correction des événements rares.la source