Chaque modèle log-linéaire a-t-il une régression logistique parfaitement équivalente?

8

J'essaie d'adapter un modèle log-linéaire à un grand nombre de variables à partir de données d'enquête. Il y a certaines raisons pour lesquelles il pourrait être préférable d'adapter les régressions logistiques à ces données. Plusieurs autorités suggèrent que celles-ci sont équivalentes. Cependant, j'ai quelques raisons d'en douter.

  1. Les modèles log-linéaires traitent toutes les variables de manière équivalente, tandis que la régression logistique nécessite qu'une variable soit identifiée comme variable de réponse.
  2. Dans le contexte des moindres carrés, il n'est généralement pas le cas que pour Y = a + bX + ε versus X = c + dY + ε le paramètre d soit même approximativement égal à 1 / b. En effet, la première équation minimise l'erreur verticale, tandis que la seconde minimise l'erreur horizontale. Celles-ci ne seront égales que si les erreurs sont symétriques autour de la ligne estimée. Je crains donc que cela ne soit également vrai de la régression logistique. (2) n'est en fait qu'une forme spécifique de (1), c'est-à-dire une asymétrie possible dans le format de régression du choix d'une variable particulière comme réponse.

  3. Si toutes les variables du modèle log-linéaire sont impliquées dans un ou plusieurs termes d'interaction, je ne vois pas comment une régression logistique peut être équivalente. Comment exprimer les interactions dans lesquelles la variable de réponse est impliquée dans le contexte d'une régression logistique?

En réponse à Bill Huber, j'utilise le terme modèle log-linéaire dans un sens considérablement plus restreint que Wikipedia. Je fais référence à des modèles de données de comptage catégoriques ou ordinales, organisés en tableaux, où les coefficients sont le nombre total de tableaux, les comptes marginaux pour chaque facteur divisé par le nombre total de tableaux (servant de proxys pour les probabilités) et divers termes d'interaction. C'est le sens utilisé dans Agresti, «Analyse des données catégoriques», entre autres.

andrewH
la source
Ma compréhension du «modèle log-linéaire» - qui est assez bien aligné avec la définition de Wikipédia , quoique un peu plus générale - ne me permet pas de donner un sens à cette question. Pourriez-vous nous dire ce que ce terme signifie pour vous?
whuber
2
Wikipédia l'appelle analyse log-linéaire: en.wikipedia.org/wiki/Loglinear_analysis
Jeremy Miles
1
Il existe plusieurs formes d'analyse log-linéaire - générale, logit, etc. L'analyse log-linéaire Logit est destinée aux situations où vous avez des variables dépendantes et certains prédicteurs. Pour autant que je sache, cela donne le même résultat (estimation des paramètres) que la régression logistique nominale.
ttnphns

Réponses:

4

La réponse est non'. Le modèle log-linéaire est plus général que le modèle de régression logistique. Voir Fienberg, 1980, Analyse des données catégorielles croisées, section 6.2 sur la façon de spécifier un modèle log-linéaire afin qu'il corresponde à la régression logistique.

En fait, l'inverse est vrai: si toutes les variables sont catégorielles, alors chaque modèle de régression logistique correspond à un modèle log-linéaire.

Stef van Buuren
la source
Donc, c'est ce que je pensais, mais pas ce que j'espérais. Dans R, qui est l'outil principal que j'utilise, il existe plusieurs packages contribués ou routines disponibles pour ajuster la conception d'échantillonnage d'enquête complexe pour les modèles lm et GLM. Je n'ai rien trouvé d'équivalent pour les modèles log-linéaires.
andrewH
Je ne sais pas si c'est utile pour vos besoins, mais la fonction loglm () de MASS peut s'adapter à des modèles logarithmiques linéaires. En outre, vous voudrez peut-être consulter le package ACD.
Stef van Buuren
De plus, avec un GLM de Poisson, vous pouvez ajuster des modèles log-linéaires. Voir Agresti: Analyse des données catégorielles, section 8.6.7.
Momo