Si vous exécutez une régression OLS sur des données transversales, devez-vous tester l'autocorrélation dans les résidus?

J'ai un ensemble d'observations, indépendant du temps. Je me demande si je dois exécuter des tests d'autocorrélation? Il me semble que cela n'a aucun sens, car il n'y a pas de composante temporelle dans mes données. Cependant, j'ai en fait essayé le test LM de corrélation en série, et cela indique une forte autocorrélation des résidus. Celà a-t-il un sens? Ce que je pense, c'est que je peux réellement réorganiser les observations dans mon jeu de données dans n'importe quel ordre possible, et cela changerait l'autocorrélation dans les résidus. La question est donc - dois-je me soucier de l'autocorrélation dans ce cas? Et dois-je utiliser Newey-West pour ajuster SE pour cela si le test l'indique? Merci!

multiple-regression least-squares autocorrelation residuals cross-section user28479
la source

Vous avez correctement dit que sans composante temporelle, vos résidus ne peuvent pas être corrélés en série. Un test de corrélation série dans ce cas n'est donc pas valide. Les préoccupations les plus courantes dans les données transversales sont l'hétéroskédasticité ou la corrélation spatiale (par exemple, le taux de criminalité dans la ville A affecte le taux de criminalité dans la ville B), mais les deux sont facilement corrigés avec les options robustes et groupées de Stata.

Andy

Essayons de reformuler ceci sans utiliser les termes corrélation série ou autocorrélation. La variable dépendante d'un modèle de régression a une matrice de variance conditionnelle, c'est-à-dire conditionnelle aux variables indépendantes. Nous nous attendons à ce que les éléments diagonaux de la matrice, c'est-à-dire les variances conditionnelles des éléments de y, soient non nuls. Si le modèle est transversal, peut-on en déduire que les éléments hors diagonale, c'est-à-dire les covariances des paires d'éléments de y, doivent être nuls? Le manque d'interprétation des séries chronologiques n'élimine certainement pas cette possibilité, même si cela la rend moins probable?

Adam Bailey

... Un exemple comme Andy le suggère serait la covariance entre les éléments liés spatialement. Un exemple non spatial possible est celui où la variable dépendante est le PNB dans différents pays (en même temps), où deux pays éloignés l'un de l'autre peuvent avoir des liens commerciaux étroits (par exemple pour des raisons historiques) entraînant une covariance non nulle.

Adam Bailey

Lorsque vos données ont des clusters, une dépendance transversale est possible. Vous pouvez ajuster le SE comme l'a suggéré @Andy. Une remarque à propos de la SE robuste aux clusters est que la SE robuste fonctionne si chaque cluster dans les données est petit et si de nombreux clusters sont observés. Cependant, si vous avez quelques grands clusters, le cluster robuste SE n'est pas valide. En effet, dans le cas d'un grand cluster, l'OLS groupé peut être incohérent. Vous pouvez consulter Andrews (2005, Econometrica) pour référence.

semibruin

Réponses:

La véritable distinction entre les données est de savoir s'il existe, ou non, un ordre naturel de celles-ci qui correspond aux structures du monde réel et est pertinent pour le problème en question.

Bien sûr, "l'ordre naturel" le plus clair (et incontestable) est celui du temps, et donc la dichotomie habituelle "coupe transversale / série temporelle". Mais comme indiqué dans les commentaires, nous pouvons avoir des données non chronologiques qui possèdent néanmoins un ordre spatial naturel . Dans un tel cas, tous les concepts et outils développés dans le contexte de l'analyse des séries temporelles s'appliquent ici également, car vous êtes censé réaliser qu'un ordre spatial significatif existe, et non seulement le préserver, mais aussi examiner ce qu'il peut impliquer pour la série du terme d'erreur, liée entre autres à l'ensemble du modèle (comme l'existence d'une tendance, qui rendrait les données non stationnaires par exemple).

Pour un exemple (grossier), supposons que vous collectiez des données sur le nombre de voitures qui se sont arrêtées dans divers établissements d'arrêt le long d'une autoroute, un jour particulier (c'est la variable dépendante). Vos régresseurs mesurent les diverses installations / services offerts par chaque escale, et peut-être d'autres choses comme la distance par rapport aux sorties / entrées d'autoroute. Ces établissements sont naturellement commandés le long de l'autoroute ...

Mais est-ce important? Faut-il maintenir l'ordre et même se demander si le terme d'erreur est auto-corrélé? Certainement : supposons que certaines installations / services de l'établissement n ° 1 ne sont en réalité pas fonctionnels au cours de cette journée (cet événement serait saisi par le terme d'erreur). Les voitures qui ont l'intention d'utiliser ces installations / services particuliers s'arrêteront néanmoins, car elles ne connaissent pas le problème. Mais ils découvriront le problème, et donc, à cause du problème , ils s'arrêteront également dans le prochain établissement, n ° 2, où, sice qu'ils veulent, c'est l'offre, ils recevront les services et ils ne s'arrêteront pas dans l'établissement n ° 3 - mais il est possible que l'établissement n ° 2 apparaisse cher, et ils vont donc, après tout, essayer aussi l'établissement n ° 3: Cela signifie que les variables dépendantes des trois établissements peuvent ne pas être indépendantes, ce qui revient à dire qu'il existe une possibilité de corrélation des trois termes d'erreur correspondants, et non "également", mais en fonction de leurs positions respectives.

Ainsi, l'ordre spatial doit être préservé, et les tests d'autocorrélation doivent être exécutés - et ils seront significatifs.

Si, en revanche, aucun ordre "naturel" et significatif ne semble être présent pour un ensemble de données spécifique, alors la corrélation possible entre les observations ne devrait pas être désignée comme "autocorrélation" car elle serait trompeuse et les outils spécifiquement développés pour les données ne sont pas applicables. Mais la corrélation peut très bien exister, bien que dans ce cas, il soit plus difficile de la détecter et de l’estimer.

Alecos Papadopoulos
la source