Différence entre les données du panel et le modèle mixte

14

Je voudrais connaître la différence entre l'analyse de données de panel et l'analyse de modèle mixte. À ma connaissance, les données de panel et les modèles mixtes utilisent des effets fixes et aléatoires. Si oui, pourquoi portent-ils des noms différents? Ou sont-ils synonymes?

J'ai lu l'article suivant, qui décrit la définition de l'effet fixe, aléatoire et mixte, mais ne répond pas exactement à ma question: quelle est la différence entre les modèles à effet fixe, à effet aléatoire et à effet mixte?

Je serais également reconnaissant à quelqu'un de me renvoyer à une brève référence (environ 200 pages) sur l'analyse de modèles mixtes. Juste pour ajouter, je préférerais une référence de modélisation mixte indépendamment du traitement logiciel. Explication principalement théorique de la modélisation mixte.

mixed-model references panel-data Bêta
la source

Connexe: stats.stackexchange.com/questions/171313/…

rightskewed

EN RELATION

amibe dit réintégrer Monica

22

Les données de panel et les données de modèle à effets mixtes traitent de variables aléatoires à double indexation . Le premier indice est pour le groupe, le second est pour les individus au sein du groupe. Pour les données de panel, le deuxième indice est généralement le temps, et on suppose que nous observons les individus au fil du temps. Lorsque le temps est le deuxième indice du modèle à effets mixtes, les modèles sont appelés modèles longitudinaux. Le modèle à effets mixtes est mieux compris en termes de régressions à 2 niveaux. (Pour faciliter l'exposition, supposez une seule variable explicative) $y_{ij}$

La régression de premier niveau est la suivante

y_{i j} = α_{i} + x_{i j} β_{i} + ε_{i j} .

$y_{ij}=\alpha_i+x_{ij}\beta_i+\varepsilon_{ij}.$

Ceci est simplement expliqué comme une régression individuelle pour chaque groupe. La régression de deuxième niveau tente d'expliquer la variation des coefficients de régression:

α_{i} = γ_{0} + z_{i 1} γ_{1} + u_{i}

$\alpha_i=\gamma_0+z_{i1}\gamma_1+u_i$

β_{i} = δ_{0} + z_{i 2} δ_{1} + v_{i}

$\beta_i=\delta_0+z_{i2}\delta_1+v_i$

Lorsque vous remplacez la deuxième équation par la première, vous obtenez

y_{i j} = γ_{0} + z_{i 1} γ_{1} + x_{i j} δ_{0} + x_{i j} z_{i 2} δ_{1} + u_{i} + x_{i j} v_{i} + ε_{i j}

$y_{ij}=\gamma_0+z_{i1}\gamma_1+x_{ij}\delta_0+x_{ij}z_{i2}\delta_1+u_i+x_{ij}v_i+\varepsilon_{ij}$

Les effets fixes sont ce qui est fixe, cela signifie . Les effets aléatoires sont et . $\gamma_0,\gamma_1,\delta_0,\delta_1$ $u_i$ $v_i$

Maintenant, pour les données de panel, la terminologie change, mais vous pouvez toujours trouver des points communs. Les modèles à effets aléatoires de données de panel sont les mêmes que le modèle à effets mixtes avec

α_{i} = γ_{0} + u_{i}

$\alpha_i=\gamma_0+u_i$

β_{i} = δ_{0}

$\beta_i=\delta_0$

avec modèle devenant

y_{i t} = γ_{0} + x_{i t} δ_{0} + u_{i} + ε_{i t},

$y_{it}=\gamma_0+x_{it}\delta_0+u_i+\varepsilon_{it},$

où sont des effets aléatoires. $u_i$

La différence la plus importante entre le modèle à effets mixtes et les modèles de données de panel est le traitement des régresseurs . Pour les modèles à effets mixtes, ce sont des variables non aléatoires, tandis que pour les modèles de données de panel, on suppose toujours qu'elles sont aléatoires. Cela devient important lors de la définition du modèle à effets fixes pour les données de panneau. $x_{ij}$

Pour le modèle à effets mixtes, on suppose que les effets aléatoires et sont indépendants de et également de et , ce qui est toujours vrai lorsque et sont fixes. Si nous admettons stochastique, cela devient important. Le modèle à effets aléatoires pour les données de panel suppose donc que n'est pas corrélé avec . Mais le modèle à effet fixe qui a la même forme $u_i$ $v_i$ $\varepsilon_{ij}$ $x_{ij}$ $z_i$ $x_{ij}$ $z_i$ $x_{ij}$ $x_{it}$ $u_i$

y_{i t} = γ_{0} + x_{i t} δ_{0} + u_{i} + ε_{i t},

$y_{it}=\gamma_0+x_{it}\delta_0+u_i+\varepsilon_{it},$

$x_{it}$ $u_i$ $\delta_0$

y_{i t} - {\bar{y}}_{i .} = (x_{i t} - {\bar{x}}_{i .}) δ_{0} + ε_{i t} - {\bar{ε}}_{i .},

$y_{it}-\bar{y}_{i.}=(x_{it}-\bar{x}_{i.})\delta_0+\varepsilon_{it}-\bar{\varepsilon}_{i.},$

$u_i$

Il y a beaucoup d'histoire derrière la terminologie des effets fixes et des effets aléatoires dans l'économétrie des données de panel, que j'ai omise. À mon avis personnel, ces modèles sont mieux expliqués dans Wooldridge " Analyse économétrique des données transversales et de panel ". Autant que je sache, il n'y a pas une telle histoire dans le modèle à effets mixtes, mais d'un autre côté, je viens du milieu de l'économétrie, donc je peux me tromper.

mpiktas
la source

. . . + x_{i j} v_{i} + u_{i} + ε_{i j}

$...+x_{ij}v_{i}+u_{i}+\varepsilon_{ij}$

Cette explication est merveilleuse! Merci beaucoup d'avoir pris tous les efforts pour m'avoir donné une si belle exposition. Je veux juste demander une chose. Qu'entendez-vous par régression à 2 niveaux?

Bêta

2

@Ari, la régression de deuxième niveau est une régression pour les coefficients de régression de la régression de premier niveau. La régression de premier niveau tente d'expliquer la variation au sein du groupe, tandis que la régression de second niveau tente d'expliquer la variation entre les groupes. Cette division est artificielle, mais je l'aime car elle me semble au moins naturelle. Ce type de division est également utilisé dans les modèles hiérarchiques bayésiens.

mpiktas

δ_{0}

$\delta_0$

3

Je comprends que vous recherchez un texte décrivant la théorie de la modélisation mixte sans référence à un progiciel.

Je recommanderais l' analyse multiniveau, une introduction à la modélisation multiniveau de base et avancée par Tom Snijders et Roel Bosker, environ 250pp. Il a un chapitre sur le logiciel à la fin (qui est quelque peu dépassé maintenant) mais le reste est une théorie très accessible.

Je dois cependant dire que je suis d'accord avec la recommandation ci-dessus pour les modèles multiniveaux et longitudinaux utilisant les données de Sophia Rabe-Hesketh et Anders Skrondal. Le livre est très théorique et le composant logiciel n'est vraiment qu'un bel ajout à un texte substantiel. Je n'utilise pas normalement Stata et j'ai le texte assis sur mon bureau et je le trouve extrêmement bien écrit. Elle est cependant beaucoup plus longue que 200pp.

Les textes suivants sont tous rédigés par des experts actuels dans le domaine et seraient utiles à tous ceux qui souhaitent plus d'informations sur ces techniques (bien qu'elles ne correspondent pas spécifiquement à votre demande): [Je ne peux pas créer de lien vers celles-ci car je suis un nouveau utilisateur, désolé]

Hoox, Joop (2010). Analyse, techniques et applications à plusieurs niveaux.

Gelman, A. et Hill, J. (2006) Data Analysis Using Regression and Multilevel / Hierarchical Models.

Singer, J. (2003) Analyse longitudinale appliquée des données: modélisation du changement et de l'événement

Raudenbush, SW et Bryk, A., S. (2002). Modèles linéaires hiérarchiques: applications et méthodes d'analyse des données

Luke, Douglas, (2004). Modélisation à plusieurs niveaux

Je voudrais également seconder le texte de Wooldridge mentionné ci-dessus, ainsi que le texte R, et le Centre universitaire de Bristol pour la modélisation à plusieurs niveaux a un tas de tutoriels et d'informations

rejoue-le
la source

Merci Playitagain! Celui-ci est une information très utile. Même votre nom est intéressant :)

Beta

2

Moi aussi, je me suis interrogé sur la différence entre les deux et ayant récemment trouvé une référence sur ce sujet, je comprends que les «données de panel» sont un nom traditionnel pour les ensembles de données qui représentent un «échantillon transversal ou un groupe de personnes interrogées périodiquement sur une temps imparti ". Le "panel" est donc une structure de groupe au sein de l'ensemble de données, et avoir un tel groupe la façon la plus naturelle d'analyser ce type de données est via une approche de modélisation mixte.

Une bonne référence (peu importe si vous "parlez" R ou non) sur la modélisation à effets mixtes est le brouillon d'un (?) Prochain livre de Douglas Bates ( lme4: Modélisation à effets mixtes avec R ).

ils
la source

1

Merci pour la référence! Mais le problème persiste.

Bêta

2

@mpiktas a donné une réponse complète. Je voudrais également vous suggérons de lire le chapitre 7 de la documentation pour le paquet plm dans R . La discussion des auteurs sur la différence entre les modèles mixtes et les données de panel mérite d'être lue.

KarthikS
la source

1

Si vous utilisez des modèles Stata, multiniveaux et longitudinaux utilisant Stata de Sophia Rabe-Hesketh et Anders Skrondal, ce serait un bon choix. Selon ce qui vous intéresse exactement, 200 pages pourraient être à peu près correctes.

Dimitriy V. Masterov
la source

Merci Dimitriy pour la référence. Mais malheureusement, je n'utilise pas STATA. J'utilise principalement SAS, et parfois R. Mais merci quand même.

Bêta

2

J'ai entendu de bonnes choses au sujet de wiley.com/WileyCDA/WileyTitle/productCd-0470073713.html , mais je ne l'ai pas lu moi-même.

Dimitriy V. Masterov

Merci Dimitriy! Cela semble vraiment prometteur. L'avantage de poser une question plutôt que de vous étouffer est que vous obtenez de très bons résultats :)

Beta

1

D'après mon expérience, la justification de l'utilisation de l '«économétrie par panel» est que les estimateurs par panel des «effets fixes» peuvent être utilisés pour contrôler diverses formes de biais variable omis.

Cependant, il est possible d'effectuer ce type d'estimation dans un modèle multiniveau en utilisant une approche de type Mundlak , c'est-à-dire en incluant les moyennes de groupe comme régresseurs supplémentaires. Cette approche supprime la corrélation entre le terme d'erreur et les facteurs omis potentiels au niveau du groupe, révélant le coefficient «intérieur». Cependant, pour une raison que je ne connais pas, cela ne se fait généralement pas en recherche appliquée. Ces diapositives et ce document fournissent une élaboration.

EddieMcGoldrick
la source

(+1) Les sociologues interprètent souvent les moyennes des groupes comme des effets contextuels (bien que ce soit plus souvent pour les données transversales imbriquées que pour les données de panel de séries chronologiques). Je devrai lire, de la note connexe Manski (1993) ( PDF ici ) a un article qui montre comment de tels effets contextuels ne sont souvent pas identifiés. Pour "des raisons pour lesquelles cela n'est pas fait", je pense que c'est autant de différence entre la pratique des sciences sociales que n'importe quoi, ce pourrait être une bonne question à poser.

Andy W

Différence entre les données du panel et le modèle mixte

Réponses: