Dois-je exécuter des régressions distinctes pour chaque communauté, ou la communauté peut-elle simplement être une variable de contrôle dans un modèle agrégé?

11

J'utilise un modèle OLS avec une variable d'indice d'actif continue comme DV. Mes données sont agrégées à partir de trois communautés similaires à proximité géographique les unes des autres. Malgré cela, j'ai pensé qu'il était important d'utiliser la communauté comme variable de contrôle. Il s'avère que la communauté est significative au niveau de 1% (score t de -4,52). La communauté est une variable nominale / catégorielle codée comme 1,2,3 pour 1 des 3 communautés différentes.

Ma question est de savoir si ce degré élevé de signification signifie que je devrais faire des régressions sur les communautés individuellement plutôt que comme une agrégation. Sinon, l'utilisation de la communauté comme variable de contrôle fait-elle essentiellement cela?

regression categorical-data stata multiple-regression aggregation cadamt
la source

Serait-il sensé d'utiliser un modèle hiérarchique avec communauté comme effet aléatoire? Les communautés ne sont pas votre principale préoccupation, n'est-ce pas? En utilisant un modèle hiérarchique, vous partagez la force.

Wayne

14

La question suggère une comparaison de trois modèles liés. Pour clarifier la comparaison, soit la variable dépendante, soit le code de communauté actuel et définissons et comme indicateurs des communautés 1 et 2, respectivement. (Cela signifie que pour la communauté 1 et pour les communautés 2 et 3; pour la communauté 2 et $Y$ $X \in \{1,2,3\}$ $X_1$ $X_2$ $X_1=1$ $X_1=0$ $X_2=1$ $X_2=0$ pour les communautés 1 et 3.)

L'analyse actuelle peut être l'une des suivantes: soit

Y = α + β X + ε (first model)

$Y = \alpha + \beta X + \varepsilon\quad\text{(first model)}$

ou

Y = α + β_{1} X_{1} + β_{2} X_{2} + ε (second model) .

$Y = \alpha + \beta_1 X_1 + \beta_2 X_2 + \varepsilon\quad\text{(second model)}.$

Dans les deux cas, représente un ensemble de variables aléatoires indépendantes identiquement distribuées avec une attente nulle. Le deuxième modèle est probablement celui prévu, mais le premier modèle est celui qui correspondra au codage décrit dans la question. $\varepsilon$

La sortie de la régression OLS est un ensemble de paramètres ajustés (indiqués par des "chapeaux" sur leurs symboles) ainsi qu'une estimation de la variance commune des erreurs. Dans le premier modèle il y a un test t pour comparer à . Dans le deuxième modèle, il existe deux tests t: un pour comparer à et un autre pour comparer à . Parce que la question ne rapporte qu'un seul test t, commençons par examiner le premier modèle. $\hat{\beta}$ $0$ $\hat{\beta_1}$ $0$ $\hat{\beta_2}$ $0$

$\hat{\beta}$ $0$ $Y$ $\mathbb{E}[\alpha + \beta X + \varepsilon]$ $\alpha + \beta X$

$X=1$ $\alpha+\beta$

$X=2$ $\alpha+2\beta$

$X=3$ $\alpha+3\beta$

En particulier, le premier modèle oblige les effets communautaires à être en progression arithmétique. Si le codage communautaire est conçu comme un moyen arbitraire de différenciation entre les communautés, cette restriction intégrée est également arbitraire et probablement erronée.

Il est instructif d'effectuer la même analyse détaillée des prédictions du deuxième modèle:

$X_1=1$ $X_2=0$ $Y$ $\alpha + \beta_1$

Y (community 1) = α + β_{1} + ε .

$Y(\text{community 1}) = \alpha + \beta_1 + \varepsilon.$

$X_1=0$ $X_2=1$ $Y$ $\alpha+\beta_2$

Y (community 2) = α + β_{2} + ε .

$Y(\text{community 2}) = \alpha + \beta_2 + \varepsilon.$

$X_1=X_2=0$ $Y$ $\alpha$

Y (community 3) = α + ε .

$Y(\text{community 3}) = \alpha + \varepsilon.$

$Y$ $\beta_1=0$ $\beta_2=0$ $\beta_2-\beta_1$ $(\alpha + \beta_2) - (\alpha + \beta_1)$ $\beta_2-\beta_1$

Nous pouvons maintenant évaluer l'effet de trois régressions distinctes. Ils seraient

Y (community 1) = α_{1} + ε_{1},

$Y(\text{community 1}) = \alpha_1 + \varepsilon_1,$

Y (community 2) = α_{2} + ε_{2},

$Y(\text{community 2}) = \alpha_2 + \varepsilon_2,$

Y (community 3) = α_{3} + ε_{3} .

$Y(\text{community 3}) = \alpha_3 + \varepsilon_3.$

$\alpha_1$ $\alpha+\beta_1$ $\alpha_2$ $\alpha+\beta_2$ $\alpha_3$ $\alpha$ $\varepsilon_1$ $\varepsilon_2$ $\varepsilon_3$ mais rien n'est supposé au sujet des relations statistiques entre les régressions séparées. Des régressions séparées permettent donc une flexibilité supplémentaire:

$\varepsilon_1$ $\varepsilon_2$ $\varepsilon_3$
$\varepsilon_i$ $\varepsilon_j$

Cette flexibilité supplémentaire signifie que les résultats du test t pour les paramètres seront probablement différents entre le deuxième et le troisième modèle. (Cependant, cela ne devrait pas conduire à des estimations de paramètres différentes.)

Pour voir si des régressions distinctes sont nécessaires , procédez comme suit:

Montez le deuxième modèle. Tracez les résidus par rapport à la communauté, par exemple sous la forme d'un ensemble de boîtes à moustaches côte à côte ou d'un trio d'histogrammes ou même sous forme de trois diagrammes de probabilité. Recherchez des preuves de différentes formes de distribution et en particulier de variances sensiblement différentes. Si ces preuves sont absentes, le deuxième modèle devrait être correct. S'il est présent, des régressions distinctes sont justifiées.

Lorsque les modèles sont multivariés - c'est-à-dire qu'ils incluent d'autres facteurs - une analyse similaire est possible, avec des conclusions similaires (mais plus compliquées). En général, effectuer des régressions distinctes revient à inclure toutes les interactions bidirectionnelles possibles avec la variable de communauté (codée comme dans le deuxième modèle, pas le premier) et à permettre des distributions d'erreur différentes pour chaque communauté.

whuber
la source

-3

la sélection de modèle (IMHO) peut être recommandée. Parce que les modèles complexes (pente séparée) auront la pénalité la plus forte, ainsi des modèles plus concis et plus faciles à interpréter seront "meilleurs".

Ivan Kshnyasev
la source

1

On ne sait pas exactement ce que vous recommandez ici, ni comment ce tableau s'y rapporte.

Scortchi - Réintégrer Monica

Dois-je exécuter des régressions distinctes pour chaque communauté, ou la communauté peut-elle simplement être une variable de contrôle dans un modèle agrégé?

Réponses: