Comment combiner des modèles de régression?

Disons que j'ai trois ensembles de données de taille chacun: $n$

$y_1$ = des personnes des États-Unis uniquement

$y_2$ = hauteurs des hommes du monde entier

$y_3$ = hauteurs des femmes du monde entier

Et je construis un modèle linéaire pour chacun avec des facteurs $x_i$ , $i = 1,..., k$ :

$\hat{y}_{j} = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + \epsilon_{j}$

avec $\epsilon$ ayant les propriétés habituelles pour OLS. Et je peux utiliser un facteur $x_i$ dans plus d'une régression.

Ma question est la suivante: comment puis-je combiner les régressions pour pouvoir obtenir des estimations pour:

$y_{12}$ = taille des hommes des États-Unis uniquement

$y_{13}$ = taille des femmes des États-Unis uniquement

pour lesquels je n'ai pas de données

J'ai pensé à une sorte de pondération:

$\hat{y}_{12} = w_{1} \hat{y}_{1} + (1 - w_{1}) \hat{y}_{2}$

mais je ne saurais pas quoi utiliser pour $w_1$ .

regression multiple-regression ensemble aggregation J4y
la source

Je n'ai rien de suffisamment solide pour être une réponse, mais comme un commentaire: la première chose qui me vient à l'esprit est d'utiliser une seule régression hiérarchique (mixte). Mais je ne peux vraiment pas comprendre quels seraient les effets aléatoires, alors peut-être que cela ne fonctionnerait pas. Je pensais que je jetterais l'idée là-bas, cependant.

Wayne

Merci pour la suggestion. Oui, il semblerait que pour le modèle hiérarchique vous auriez besoin de le faire sur les données , non?

y_{12}

$y_{12}$

J4y

Ma pensée initiale était sur y avec une interception par sexe - quelque chose comme height ~ f1 + f2 + f3 + (1 | sex)dans le package Rlmer

Wayne

Il n'est pas clair si vous voulez des estimations de la taille pour chaque homme et chaque femme (plus un problème de classification) ou pour caractériser la distribution des hauteurs de chaque sexe. J'assumerai ce dernier. Vous ne spécifiez pas non plus les informations supplémentaires que vous utilisez dans votre modèle, je me limiterai donc à traiter le cas où vous ne disposez que de données de taille (et de données sexuelles, dans le cas de citoyens non américains).

Je recommande simplement d'adapter un mélange de distributions aux données de taille des États-Unis uniquement , car les distributions de taille chez les hommes et les femmes sont raisonnablement différentes. Cela permettrait d'estimer les paramètres de deux distributions qui, additionnées ensemble, décrivent le mieux la variation des données. Les paramètres de ces distributions (moyenne et variance, car une distribution gaussienne devrait bien fonctionner) vous donnent les informations que vous recherchez. Les packages R mixtoolset mixdistlaissez-vous faire; Je suis sûr qu'il y en a beaucoup plus.

Cette solution peut sembler étrange, car elle laisse de côté toutes les informations dont vous disposez en dehors des États-Unis, où vous connaissez le sexe et la taille de chaque individu. Mais je pense que c'est justifié parce que:

1) Nous nous attendons à ce que les hommes soient en moyenne plus grands que les femmes. La liste de Wikipédia de la taille humaine moyenne dans le monde ne montre même pas un pays ou une région où les femmes sont plus grandes que les hommes. L'identité de la distribution avec la hauteur moyenne la plus élevée n'est donc pas vraiment mise en doute.

2) L'intégration d'informations plus spécifiques à partir des données non américaines impliquera probablement de faire l'hypothèse que la covariance entre le sexe et la taille est la même à l'extérieur des États-Unis qu'à l'intérieur. Mais ce n'est pas tout à fait vrai - la même liste Wikipédia indique que le rapport entre les tailles masculines et féminines varie entre environ 1,04 et 1,13.

3) Vos données internationales peuvent être beaucoup plus compliquées à analyser car les habitants de différents pays ont également de grandes variations dans la distribution des hauteurs. Vous devrez donc peut-être envisager de modéliser des mélanges de mélanges de distributions. Cela peut aussi être vrai aux États-Unis, mais cela posera probablement moins de problèmes qu'un ensemble de données qui comprend les Hollandais (hauteur moyenne: 184 cm) et les Indonésiens (hauteur moyenne: 158 cm). Et ce sont des moyennes au niveau des pays; les sous-populations diffèrent à un degré égal.

mkt - Réintégrer Monica
la source

Comment combiner des modèles de régression?

Réponses: