Valeurs nulles dans l'analyse de régression pondérée géographiquement

12

Certaines de mes variables explicatives ont quelques valeurs nulles pour certains polygones.

L'analyse de régression pondérée géographiquement peut-elle les gérer, ou dois-je supprimer tout le polygone et toutes les données (variables dépendantes et indépendantes pour ce polygone particulier)?

I Heart Beats
la source
Que représentent ces nulls? Qu'une valeur n'est pas applicable ou qu'elle existe mais qu'elle est inconnue? Si ce dernier, pourquoi est-il inconnu? (La principale préoccupation est de savoir si la raison pour laquelle une valeur est inconnue est liée de quelque manière que ce soit à la valeur elle-même; par exemple, si vous étudiez l'hydrologie et utilisez la couverture terrestre comme variable explicative, alors si la couverture terrestre est inconnue en raison des inondations, c'est une information importante et signifie bien plus qu'une simple valeur manquante.)
whuber
1
Merci whuber, Certaines des valeurs nulles représentent des données qui ont été omises pour des raisons de confidentialité en raison de petites unités d'agrégation, d'autres n'étaient tout simplement pas disponibles, mais pas en raison des variables explicatives affectant d'autres varibales. J'ai de vraies valeurs nulles, le zéro ne représentant aucun événement / taux pour ce polygone particulier et j'ai également des valeurs nulles où les données sont manquantes. Étant donné que j'ai environ 29 variables explicatives pour commencer, si je supprime les polygones où pour les lignes contenant des valeurs nulles, je perds 8 polygones sur 279 et j'espérais ne pas avoir à le faire. Je vous remercie!
I Heart Beats
Je suis heureux que vous ayez des informations et des théories sur la disparition. Vous voudrez peut-être être un peu prudent au sujet de ces petites unités, car les valeurs de n'importe quelle variable pourraient vraisemblablement être liées à la taille de la région qu'elle représente, créant ainsi un biais potentiel dans le modèle de manque.
whuber
2
Vous pouvez incorporer des valeurs nulles en introduisant des variables pour indiquer leur présence et en codant tous les résultats null d'origine avec une valeur commune (la valeur que vous choisissez n'a pas vraiment d'importance). Vous aurez besoin d'un indicateur distinct pour chaque variable qui contient des valeurs nulles. Quoi que vous fassiez, ne remplacez pas simplement les nuls par des zéros (ou toute autre constante)! Un null signifie quelque chose de complètement différent de zéro.
whuber
1
@whuber Il semble que vos commentaires contiennent suffisamment de choses pour rédiger une réponse à ce sujet.
PolyGeo

Réponses:

1

Vous pouvez essayer de deviner les valeurs «nulles» des données environnantes. Ce serait mieux que de les laisser de côté, car de cette façon, vous ne perdrez pas de données. Bien sûr, vous devez faire attention à la façon dont vous devinez les valeurs. Parce que si votre supposition est biaisée, votre modèle le sera également.

voir aussi: http://handbook.cochrane.org/chapter_16/16_1_2_general_principles_for_dealing_with_missing_data.htm

et:

Mise en garde:

Lorsque vous utilisez des fichiers de formes, gardez à l'esprit qu'ils ne peuvent pas stocker de valeurs nulles. Les outils ou autres procédures qui créent des fichiers de formes à partir d'entrées non-fichiers peuvent, par conséquent, stocker des valeurs nulles sous forme de zéro ou sous forme de très petit nombre négatif (-DBL_MAX = -1,7976931348623158e + 308). Cela peut conduire à des résultats inattendus. Voir aussi: Considérations de géotraitement pour la sortie du fichier de formes. ( http://desktop.arcgis.com/en/arcmap/10.3/tools/spatial-statistics-toolbox/geographically-weighted-regression.htm )

LMB
la source