Pourquoi l'utilisation de données transversales pour déduire / prédire des changements longitudinaux est-elle une mauvaise chose?

11

Je cherche un papier qui j'espère existe, mais je ne sais pas si c'est le cas. Il pourrait s'agir d'un ensemble d'études de cas et / ou d'un argument de la théorie des probabilités expliquant pourquoi l'utilisation de données transversales pour déduire / prédire des changements longitudinaux peut être une mauvaise chose (c'est-à-dire pas nécessairement, mais peut l'être).

J'ai vu l'erreur commise de plusieurs façons: on en a déduit que parce que les gens riches en Grande-Bretagne voyagent plus, alors que la société s'enrichit, la population dans son ensemble voyagera plus. Cette conclusion s'est avérée fausse pendant une période prolongée - plus d'une décennie. Et un schéma similaire avec l'utilisation domestique de l'électricité: les données transversales impliquent de grandes augmentations avec le revenu, qui ne se manifestent pas avec le temps.

Il se passe plusieurs choses, notamment les effets de cohorte et les contraintes du côté de l'offre.

Il serait très utile d'avoir une seule référence qui compile des études de cas comme celle-là; et / ou a utilisé la théorie des probabilités pour illustrer la raison pour laquelle l'utilisation de données transversales pour inférer / prédire des changements longitudinaux peut être très trompeuse.

Un tel papier existe-t-il et si oui, quel est-il?

410 partis
la source
2
Je pense que les économistes considéreraient ces phénomènes comme une sorte d'effet d'équilibre général. Selon les gens, cela constitue une violation de l'hypothèse de la valeur de traitement de l'unité stable. Je pense que la question du panel vs section transversale est un peu un hareng rouge.
Dimitriy V. Masterov,

Réponses:

2

Vous répondez partiellement à votre propre question en demandant des changements «longitudinaux». Les données transversales sont appelées parce qu'elles prennent un instantané dans le temps, littéralement une coupe transversale issue d'une société en évolution temporelle avec ses nombreuses relations. Par conséquent, la meilleure inférence que vous pouvez espérer est de supposer que tout ce que vous étudiez est invariable dans le temps, ou du moins a conclu son évolution.

D'autre part, les données que vous recherchez sont des données longitudinales ou des données de panel pour les économistes.

Une bonne référence qui explique principalement les méthodes mais met également en évidence deux exemples importants de l'économie est ici . L'exemple 2.1 a des taux d'investissement d'entreprise.

La section 3 est un peu plus théorique mais contient beaucoup d'informations: un modèle de données de panel peut être

yi,t=αyi,t1+xi,tγ+ηi+vi,t.

Maintenant, ce type de modèle peut capturer la dépendance de l'État, qui est (à côté de l'hétérogénéité non observée) une explication courante pour laquelle les gens se comportent différemment. Par conséquent, si vous observez uniquement des personnes voyageant à un moment donné, votre ne sera pas identifié, ce qui signifie que vous ne savez pas dans quelle mesure leur voyage d'hier a influencé leur décision de voyager à nouveau.α

Maintenant, arrêtez la dépendance au temps pendant un moment, mais gardez à l'esprit que cette équation a probablement été le vrai modèle.

Dans un modèle de section transversale maintenant, vous supprimeriez entièrement l'indice car vous ne disposez que de données sur une période. Par conséquent, vous n'avez également aucune possibilité de tenir compte du fait que chaque individu de votre ensemble de données peut avoir des très différents, ce qui vos régressions vers le haut en général, au moins lorsque le vrai modèle est dynamique. C'est probablement la raison de la surestimation, en raison d'un effet individuel non observé (peut aussi être courant), que vous n'avez pas mesuré mais qui s'est reflété dans votre étude transversale.tηis

Maintenant, entrez à nouveau les données du panneau. Ce que nous pouvons faire, c'est soustraire la moyenne dans le temps de chaque variable qui, étant donné que la moyenne de est constante dans le temps, éliminerait ce terme. Cette transformation (d'autres sont possibles) vous permet de vous concentrer uniquement sur la dynamique (et en fait vous perdriez tout régresseur invariant dans le temps).ηi

Maintenant, c'est la principale différence entre les données de section et de panneau. Le fait que vous puissiez éliminer l'effet invariant dans le temps parce que vous avez cette variation de temps vous permet de supprimer certains biais que l'estimation transversale ne vous permet pas de détecter. Par conséquent, avant d'envisager un changement de politique tel qu'une taxe plus élevée sur les voyages parce que vous vous attendez à ce que les gens voyagent et que vous voulez plus de revenus gouvernementaux, il est plus utile d'avoir vu le phénomène sur quelques années afin que vous puissiez être sûr que vous n'êtes pas capturer l'hétérogénéité non observée dans votre échantillon que vous interprétez comme une propension à voyager.

Pour estimer ces modèles, il est préférable de parcourir la référence. Mais attention: différentes hypothèses sur le comportement des personnes rendront admissibles ou non différentes procédures d'estimation.

J'espère que ça aide!

Hirek
la source
1

Cela ressemble beaucoup à la définition d'un processus non ergodique (les mesures sur les réalisations n'étant pas égales aux mesures sur la durée). Malheureusement, très peu de phénomènes intéressants du monde réel sont ergodiques. Je suppose que cela pourrait être le cas pour un échantillonnage et une inférence à plus petite échelle, où certaines simplifications pourraient être effectuées. Je pense à des exemples de petites échelles temporelles ou spatiales, où aucun comportement chaotique n'est observé afin que les prédicteurs puissent être linéarisés. Mais je ne fais que divaguer ici .. J'ai bien peur de ne pas pouvoir vous aider avec de la littérature spécifique sur le sujet. Désolé: / Mais une question intéressante néanmoins

ocramz
la source