Je veux exécuter une régression logistique binaire pour modéliser la présence ou l'absence de conflit (variable dépendante) à partir d'un ensemble de variables indépendantes sur une période de 10 ans (1997-2006), chaque année ayant 107 observations. Mes indépendants sont:
- dégradation des terres (catégorielle pour 2 types de dégradation);
- augmentation de la population (0 - non; 1 - oui);
- type de moyens de subsistance (0 - type un; 1 - type deux);
- densité de population (trois niveaux de densité);
- NDVI continu (productivité végétale max.);
- NDVI t - 1 (baisse des légumes par rapport à l'année précédente - 0 - non; 1 - oui) et
- et NDVI (baisse des légumes depuis deux ans - 0- non; 1- oui).
Je suis relativement nouveau dans tout cela - c'est un projet que mon conférencier m'a donné - et je serais donc reconnaissant de quelques conseils ou orientations. J'ai déjà testé la multicollinarité.
Essentiellement, mes données sont divisées en 107 unités d'observation (régions spatiales) couvrant 10 ans (1070 au total) et pour chaque unité d'observation, elles donnent une valeur `` instantanée '' des conditions des variables indépendantes à ce moment dans cette unité ( Région). Je veux savoir comment configurer ma régression logistique (ou tableau) pour reconnaître séparément les 107 valeurs de chaque année afin que les changements temporels du NDVI entre différentes années-unités puissent être évalués?
la source
Réponses:
C'est en fait un problème extrêmement sophistiqué et une question difficile à poser à votre professeur!
En ce qui concerne la façon dont vous organisez vos données, un rectangle de 1070 x 10 est très bien. Par exemple, dans R:
Pour ajuster un modèle, la fonction glm () comme @ gui11aume suggère de faire les bases ...
... mais cela a le problème de traiter le "pays" (je suppose que vous avez le pays comme 107 unités) comme un effet fixe, alors qu'un effet aléatoire est plus approprié. Il traite également la période comme un facteur simple, aucune autocorrélation n'est autorisée.
Vous pouvez résoudre le premier problème avec un modèle d'effets mixtes linéaires généralisés comme par exemple le paquetage lme4 de Bates et al dans R. Il y a une bonne introduction à certains aspects de ceci ici . Quelque chose comme
serait un pas en avant.
Maintenant, votre dernier problème restant est l'autocorrélation sur vos 10 périodes. Fondamentalement, vos 10 points de données sur chaque pays ne valent pas autant que s'ils étaient 10 points distribués indépendants et identiques choisis au hasard. Je ne connais pas de solution logicielle largement disponible pour l'autocorrélation dans les résidus d'un modèle à plusieurs niveaux avec une réponse non normale. Il n'est certainement pas implémenté dans lme4. D'autres en savent peut-être plus que moi.
la source
Ce tutoriel est complet.
Dans R, vous devez préparer vos données, disons variable
data
dans undata.frame
, dont la première colonne est votre variable 0-1 (conflit) et les autres colonnes sont les prédicteurs. Pour les variables catégorielles, vous devez vous assurer qu'elles sont de typefactor
. Pour vous assurer que la colonne 3, par exemple, possède cette propriété, vous pouvez appliquer pardata[,3] <- as.factor(data[,3])
.Ensuite, ce n'est qu'une question de
Cela suppose implicitement que vous disposez d'un modèle additif et vous donne les valeurs estimées. Pour obtenir une sortie plus complète, avec un test pour les paramètres individuels, vous pouvez faire
la source