Utilisation d'un ensemble de régressions logistiques binaires avec variable de réponse catégorielle à choix multiple

8

J'ai des données d'enquête catégoriques sur les attitudes des gens envers un certain domaine politique de 13 pays. La variable de réponse est catégorique et comprend 4 réponses distinctes qui ne peuvent pas être ordonnées.

Je voudrais construire un modèle multinomial d'interception aléatoire à plusieurs niveaux et de pente aléatoire. Le problème est que le nombre de cas de niveau 2 n'est que de 13 et que le modèle ne converge pas, du moins pas dans sa forme multinomiale.

Donc, comme deuxième option, je pense à recoder la variable de réponse sous une forme binaire, à exécuter une série de régressions logistiques à plusieurs niveaux, puis à utiliser les probabilités prédites pour montrer comment dépend la probabilité qu'une certaine catégorie d'intérêt soit sélectionnée sur mes variables explicatives. Apparemment, ce n'est qu'une deuxième option. Je voudrais savoir quels sont les risques possibles liés à cette approche et quelles objections (de la part des examinateurs, des superviseurs, etc.) dois-je attendre.

Stefan Domonkos
la source
1
Sous quel logiciel / algorithme votre modèle ne converge-t-il pas?
Probabilogic

Réponses:

2

Le choix entre un multinomial et une série de régressions logistiques est dans la plupart des cas relativement artificiel. Étant donné que dans les deux approches, vous sélectionnez une catégorie de référence (référence) à l'égard de laquelle les rapports de cotes de toutes les autres catégories sont exprimés, cela n'a généralement pas d'importance si vous avez l'une ou l'autre si la catégorie de référence reste égale. Le plus grand inconvénient est que vous ne pouvez pas tester des restrictions de paramètres simultanées à travers les modèles logistiques, ce qui est plutôt simple dans le cas multinomial.

Néanmoins, je conseillerais de ne pas utiliser d'effets aléatoires avec 13 pays (unités de niveau 2), voir par exemple https://www.statmodel.com/download/SRM2012.pdf .

L'alternative consiste à utiliser un modèle à effets fixes, dans lequel vous incluez un mannequin par pays (moins 1). Le plus grand inconvénient de cette procédure est que le test des effets au niveau macro n'est pas possible. si vous n'avez aucune hypothèse à cet égard, je choisirais le modèle multinomial à effets fixes.

tomka
la source
0

Je vous encourage à exécuter cette analyse dans un modèle (dans AMOS) et je ne pense pas que votre structure de données soit problématique (voir par exemple: Maas, CJM & Hox, JJ (2005) Tailles d'échantillons suffisantes pour la modélisation à plusieurs niveaux. Méthodologie, 1 , 86-92.). Lorsque vous exécutez plusieurs modèles sur le même ensemble de données, vous augmentez les chances de faire des erreurs de type I (au minimum, vous devrez utiliser la correction de Bonferroni; qui est considérée comme une technique conservatrice).

STAToSphere
la source
1
Votre affirmation selon laquelle un modèle d'effets aléatoires n'est pas problématique avec seulement 13 unités de niveau supérieur (dans ce cas, les pays) n'est pas partagée par tout le monde. Voir par exemple cette étude de simulation: iser.essex.ac.uk/publications/working-papers/iser/2013-14
Maarten Buis
Je suis d'accord, j'ai lu et entendu que l'on devrait avoir 20 à 30 unités, voir par exemple Hox et al: statmodel.com/download/SRM2012.pdf
tomka