L'utilisation des données de comptage comme variable indépendante viole-t-elle l'une des hypothèses GLM?

14

Je voudrais utiliser les données de comptage comme covariables tout en ajustant un modèle de régression logistique. Ma question est:

  • Est-ce que je viole une hypothèse des modèles logistiques (et, plus généralement, des modèles linéaires généralisés) en utilisant des variables entières non négatives de comptage comme variables indépendantes?

J'ai trouvé beaucoup de références dans la littérature concernant les données de comptage à chaud comme résultat, mais pas comme covariables; voir par exemple le document très clair: "NE Breslow (1996) Generalized Linear Models: Checking Assumptions and Strengthening Conclusions, Congresso Nazionale Societa Italiana di Biometria, Cortona juin 1995", disponible sur http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .

En gros, il semble que les hypothèses glm puissent être exprimées comme suit:

  • iid résidus;
  • la fonction de liaison doit représenter correctement la relation entre les variables dépendantes et indépendantes;
  • absence de valeurs aberrantes

Est-ce que tout le monde sait s'il existe un autre problème d'hypothèse / technique qui pourrait suggérer d'utiliser un autre type de modèles pour traiter les covariables de comptage?

Enfin, veuillez noter que mes données contiennent relativement peu d'échantillons (<100) et que les plages de variables de comptage peuvent varier dans un ordre de grandeur de 3-4 (c'est-à-dire que certaines variables ont une valeur dans la plage 0-10, tandis que d'autres variables peuvent avoir des valeurs dans 0-10000).

Un exemple de code R simple suit:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################
Vincenzo Lagani
la source
Bienvenue sur le site! Une remarque: si vous souhaitez signer vos messages, utilisez votre profil (notamment la case à propos de moi).
11
généralement, dans les modèles GLM, les variables prédictives ("indépendantes") sont simplement supposées être des constantes connues, il n'y a AUCUNE hypothèse de distribution à leur sujet! Il n'y a donc rien de mal à utiliser les données de comptage comme prédicteurs.
kjetil b halvorsen
1
kjetil C'est exact - et une bonne réponse à la question. Pourtant, avec les plages extrêmes de IV décrites ici, il serait sage d'évaluer l'influence des données, de vérifier la qualité de l'ajustement et en particulier d'évaluer le potentiel d'une relation non linéaire. Cela serait fait dans l'espoir que la relation est réellement non linéaire et qu'une ré-expression des IV, comme une racine ou un journal, la linéarisera, soulageant ainsi simultanément certains des problèmes d'influence. C'est probablement ce que @ user14583 essaie d'indiquer dans sa réponse.
whuber
@kjetilbhalvorsen - Je suis d'accord sur "aucune hypothèse de distribution", mais je ne pense pas que vous vouliez dire "connu" ou "constantes", car aucun de ces mots ne convient.
rolando2
4
Ce sont des "constantes" dans le sens où elles ne sont pas aléatoires: pas de distribution. Ils sont "connus" dans le sens où ils sont supposés être mesurés sans erreur, donc la valeur mesurée est celle qui fonctionnait réellement dans le mécanisme de génération de données. Le modèle GLM suppose que tout le caractère aléatoire est dans le mécanisme de réponse, ce qui est souvent douteux!
kjetil b halvorsen

Réponses:

5

Il y a quelques nuances en jeu ici, et elles peuvent créer une certaine confusion.

Vous déclarez que vous comprenez que les hypothèses d'une régression logistique incluent " iid résiduels ...". Je dirais que ce n'est pas tout à fait correct. Nous disons généralement cela à propos du modèle linéaire général (c'est-à-dire la régression), mais dans ce cas, cela signifie que les résidus sont indépendants les uns des autres, avec la même distribution (généralement normale) ayant la même moyenne (0) et la variance ( c.-à-d. variance constante: homogénéité de la variance / homoscédasticité). Notez cependant que pour la distribution de Bernoulli et la distribution binomiale, la variance est fonction de la moyenne. Ainsi, la variance ne pouvait pas être constante, à moins que la covariable ne soit parfaitement sans rapport avec la réponse. Ce serait une hypothèse si restrictive qu'elle rendrait inutile la régression logistique. Je note que dans le résumé du pdf que vous citez, il énumère les hypothèses commençant par "l'indépendance statistique des observations", que nous pourrions appeler i-but-not-id(sans vouloir être trop mignon à ce sujet).

Ensuite, comme le note @kjetilbhalvorsen dans le commentaire ci - dessus , les valeurs de covariable (c'est-à-dire vos variables indépendantes) sont supposées être fixées dans le modèle linéaire généralisé. Autrement dit, aucune hypothèse de distribution particulière n'est faite. Ainsi, peu importe qu'ils soient comptés ou non, ni s'ils vont de 0 à 10, de 1 à 10000, ou de -3,1415927 à -2,718281828.

Une chose à considérer, cependant, comme le note @whuber , si vous avez un petit nombre de données très extrêmes sur l'une des dimensions covariantes, ces points pourraient avoir une grande influence sur les résultats de votre analyse. Autrement dit, vous pourriez obtenir un certain résultat uniquement à cause de ces points. Une façon d'y penser est de faire une sorte d' analyse de sensibilité en adaptant votre modèle avec et sans ces données incluses. Vous pouvez penser qu'il est plus sûr ou plus approprié de supprimer ces observations, d'utiliser une certaine forme d' analyse statistique robuste ou de transformer ces covariables afin de minimiser l'effet de levier extrême que ces points auraient. Je ne qualifierais pas ces considérations d '"hypothèses", mais ce sont certainement des considérations importantes dans l'élaboration d'un modèle approprié.

gung - Réintégrer Monica
la source
1

Une chose que je vérifierais certainement est les propriétés de distribution de vos variables indépendantes. Très souvent, avec des données de comptage, vous verrez une asymétrie droite modérée à sévère. Dans ce cas, vous souhaiterez probablement transformer vos données, car vous perdrez la relation log-linéaire. Mais non, utiliser un modèle logistique (ou autre GLM) est très bien.

user14583
la source
3
Comment l'inclinaison droite perd-elle «la relation log-linéaire»?
Glen_b -Reinstate Monica
3
Ce commentaire me semble incorrect. Comme @Glen_b, je ne vois pas comment cela perdrait nécessairement la relation log-linéaire. Dans tous les cas, il serait préférable d'examiner directement la relation (par le biais d'un tracé, par exemple).
Peter Flom - Réintègre Monica
2
Une transformation non linéaire d'un IV va définitivement changer la relation log-linéaire en quelque chose d'autre, @Peter. Cette réponse me semble fondamentalement correcte.
whuber
1
@whuber Je suis d'accord qu'une transformation non linéaire d'une variable changera la relation entre elle et une autre variable. Cela semble assez clair. Mais de quelle sorte de relation à quelle sorte? Pourquoi ne pas examiner directement la relation au lieu de supposer comment elle sera modifiée? De plus, la réponse semble indiquer que la personne veut perdre la relation logarithmique linéaire.
Peter Flom - Réintègre Monica
2
C'est un bon point @Peter. Pourtant , certaines personnes ne veulent changer la relation; ce n'est pas nécessairement une notion erronée. Je conviens qu'un examen direct est la bonne procédure: il suggérera comment ré-exprimer les IV impliquées afin de créer des relations linéaires.
whuber