Je voudrais utiliser les données de comptage comme covariables tout en ajustant un modèle de régression logistique. Ma question est:
- Est-ce que je viole une hypothèse des modèles logistiques (et, plus généralement, des modèles linéaires généralisés) en utilisant des variables entières non négatives de comptage comme variables indépendantes?
J'ai trouvé beaucoup de références dans la littérature concernant les données de comptage à chaud comme résultat, mais pas comme covariables; voir par exemple le document très clair: "NE Breslow (1996) Generalized Linear Models: Checking Assumptions and Strengthening Conclusions, Congresso Nazionale Societa Italiana di Biometria, Cortona juin 1995", disponible sur http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .
En gros, il semble que les hypothèses glm puissent être exprimées comme suit:
- iid résidus;
- la fonction de liaison doit représenter correctement la relation entre les variables dépendantes et indépendantes;
- absence de valeurs aberrantes
Est-ce que tout le monde sait s'il existe un autre problème d'hypothèse / technique qui pourrait suggérer d'utiliser un autre type de modèles pour traiter les covariables de comptage?
Enfin, veuillez noter que mes données contiennent relativement peu d'échantillons (<100) et que les plages de variables de comptage peuvent varier dans un ordre de grandeur de 3-4 (c'est-à-dire que certaines variables ont une valeur dans la plage 0-10, tandis que d'autres variables peuvent avoir des valeurs dans 0-10000).
Un exemple de code R simple suit:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################
la source
Réponses:
Il y a quelques nuances en jeu ici, et elles peuvent créer une certaine confusion.
Vous déclarez que vous comprenez que les hypothèses d'une régression logistique incluent " iid résiduels ...". Je dirais que ce n'est pas tout à fait correct. Nous disons généralement cela à propos du modèle linéaire général (c'est-à-dire la régression), mais dans ce cas, cela signifie que les résidus sont indépendants les uns des autres, avec la même distribution (généralement normale) ayant la même moyenne (0) et la variance ( c.-à-d. variance constante: homogénéité de la variance / homoscédasticité). Notez cependant que pour la distribution de Bernoulli et la distribution binomiale, la variance est fonction de la moyenne. Ainsi, la variance ne pouvait pas être constante, à moins que la covariable ne soit parfaitement sans rapport avec la réponse. Ce serait une hypothèse si restrictive qu'elle rendrait inutile la régression logistique. Je note que dans le résumé du pdf que vous citez, il énumère les hypothèses commençant par "l'indépendance statistique des observations", que nous pourrions appeler
i-but-not-id
(sans vouloir être trop mignon à ce sujet).Ensuite, comme le note @kjetilbhalvorsen dans le commentaire ci - dessus , les valeurs de covariable (c'est-à-dire vos variables indépendantes) sont supposées être fixées dans le modèle linéaire généralisé. Autrement dit, aucune hypothèse de distribution particulière n'est faite. Ainsi, peu importe qu'ils soient comptés ou non, ni s'ils vont de 0 à 10, de 1 à 10000, ou de -3,1415927 à -2,718281828.
Une chose à considérer, cependant, comme le note @whuber , si vous avez un petit nombre de données très extrêmes sur l'une des dimensions covariantes, ces points pourraient avoir une grande influence sur les résultats de votre analyse. Autrement dit, vous pourriez obtenir un certain résultat uniquement à cause de ces points. Une façon d'y penser est de faire une sorte d' analyse de sensibilité en adaptant votre modèle avec et sans ces données incluses. Vous pouvez penser qu'il est plus sûr ou plus approprié de supprimer ces observations, d'utiliser une certaine forme d' analyse statistique robuste ou de transformer ces covariables afin de minimiser l'effet de levier extrême que ces points auraient. Je ne qualifierais pas ces considérations d '"hypothèses", mais ce sont certainement des considérations importantes dans l'élaboration d'un modèle approprié.
la source
Une chose que je vérifierais certainement est les propriétés de distribution de vos variables indépendantes. Très souvent, avec des données de comptage, vous verrez une asymétrie droite modérée à sévère. Dans ce cas, vous souhaiterez probablement transformer vos données, car vous perdrez la relation log-linéaire. Mais non, utiliser un modèle logistique (ou autre GLM) est très bien.
la source