Singularités inattendues dans l'erreur de matrice de Hesse dans la régression logistique multinomiale

8

J'ai effectué une analyse de régression logistique multinomiale à l'aide de SPSS 19. J'ai rencontré le problème suivant lorsque j'exécute la procédure d'analyse:

"Des singularités inattendues dans la matrice de Hesse sont rencontrées. Cela indique que certaines variables prédictives doivent être exclues ou certaines catégories doivent être fusionnées."

Un peu d'histoire sur mes données utilisées. J'ai quatre prédicteurs catégoriels avec deux niveaux chacun, 1 ou 2. La variable de réponse dans mon modèle est une variable catégorielle à trois niveaux. J'ai utilisé le dernier niveau comme catégorie de référence. J'ai essayé de comparer les coefficients de l'ordonnée à l'origine avec ceux des quatre prédicteurs des deux logits afin de trouver quel niveau de la variable de réponse peut causer ce problème. Les grandes différences de coefficients entre l'ordonnée à l'origine et trois des prédicteurs suggèrent que ce pourrait être la catégorie de référence qui pose problème. Cependant, je n'ai pas pu combiner les niveaux de la variable de réponse (ce que je ne suis pas autorisé pour mes recherches).

J'ai également essayé d'exclure les prédicteurs un par un, mais j'ai toujours eu le même problème.

Quelqu'un pourrait-il me dire ce que je dois faire pour résoudre ce problème?

Kate
la source
1
Une première vérification serait de calculer le rang de votre matrice de conception. S'il est inférieur au nombre de colonnes, vous devrez probablement combiner et / ou recoder de manière appropriée.
Cardinal
Étant donné que toutes les variables sont catégorielles, une autre option consiste à utiliser les méthodes du tableau de contingence. C'est-à-dire que vous avez un tableau d'urgence à cinq directions. Cela peut être fait en utilisant un poisson glm (modèle log-linéaire), qui peut être plus stable (peut-être pas). Cela pourrait également être un "problème de séparation" - votre réponse peut être parfaitement prédite à partir des covariables - fait paniquer les ordinateurs lorsque cela se produit car la variance est nulle.
Probabilislic
En fait, la combinaison des niveaux de la variable de réponse est une façon recommandée d'aborder les problèmes de régression logistique multinomiale. En combinant les deux niveaux inférieurs puis les deux niveaux supérieurs, vous pouvez approximer les résultats multinomiaux au moyen de deux régressions logistiques (plus simples). Ces régressions logistiques et leurs diagnostics peuvent indiquer ce qui ne va pas.
whuber

Réponses:

4

La clé que vous recherchez peut être trouvée sur le site Web de l' UCLA pour la régression logistique multinomiale où elle indique:

Prédiction parfaite: une prédiction parfaite signifie qu'une seule valeur d'une variable prédictive est associée à une seule valeur de la variable de réponse. Vous pouvez constater à partir de la sortie des coefficients de régression que quelque chose ne va pas. Vous pouvez ensuite effectuer une tabulation bidirectionnelle de la variable de résultat avec la variable problématique pour le confirmer, puis réexécuter le modèle sans la variable problématique.

Je recommanderais d'exécuter une table bidirectionnelle pour chacun des prédicteurs (par rapport à la réponse) pour déterminer si un niveau de la réponse se produit avec un seul niveau de votre prédicteur.

M. Tibbits
la source