Que pouvez-vous faire lorsque vous avez des variables prédictives basées sur des moyennes de groupe avec différentes tailles d'échantillon?

14

Considérons un problème d'analyse de données classique où vous avez un résultat Yi et comment elle est liée à un certain nombre de facteurs prédictifs Xi1,...,Xip . Le type d'application de base à l'esprit ici est que

  1. Yi est un résultat au niveau du groupe tel que le taux de criminalité dans la villei .

  2. Les prédicteurs sont des caractéristiques au niveau du groupe telles que les caractéristiques démographiques de la ville i .

L'objectif de base est d'adapter un modèle de régression (peut-être avec des effets aléatoires mais oubliez cela pour l'instant):

E(Yi|Xi)=β0+β1Xi1+...+βpXip

Y a-t-il des difficultés techniques lorsque l'un (ou plusieurs) des prédicteurs est le résultat d'une enquête qui a des tailles d'échantillon différentes pour chaque unité? Par exemple, supposons que est un score récapitulatif pour la ville i qui est la réponse moyenne d'un échantillon de personnes de la ville i mais les tailles d'échantillon sur lesquelles ces moyennes étaient basées sont très différentes:Xi1ii

CitySample size120210033004553

Étant donné que les variables prédictives n'ont pas toutes la même signification, dans un certain sens, pour chaque ville, je crains que le fait de conditionner ces variables dans un modèle de régression comme si elles étaient toutes «créées égales» pourrait provoquer des inférences trompeuses.

Y a-t-il un nom pour ce type de problème? Si oui, existe-t-il des recherches sur la façon de gérer cela?

Ma pensée est de le traiter comme une variable prédictive mesurée avec erreur et de faire quelque chose dans ce sens, mais il y a une hétéroscédasticité dans les erreurs de mesure, ce qui serait donc très compliqué. Je pourrais penser à cela dans le mauvais sens ou rendre cela plus compliqué qu'il ne l'est, mais toute discussion ici serait utile.

Macro
la source
8
C'est ce qu'on appelle le problème des "erreurs hétéroscédastiques dans les variables". (Cette phrase est une bonne cible pour une recherche Google.) Récemment (2007), Delaigle et Meister ont proposé un estimateur de densité de noyau non paramétrique dans un article de JASA . Un résumé sur certaines méthodes paramétriques (méthode des moments et MLE) suggère quelques approches supplémentaires: sciencedirect.com/science/article/pii/S1572312709000045 . (Je ne connais pas suffisamment la recherche pour vous donner une réponse faisant autorité sur la façon de gérer votre ensemble de données particulier.)
whuber
1
@whuber +1 pour les deux commentaires. Je pense que "erreurs dans les variables" était le mot-clé manquant que je cherchais. Si personne ne donne une réponse forte ci-dessous que je peux accepter, je vais regarder la littérature et revenir pour poster ce que je finis par faire comme réponse.
Macro

Réponses:

2

L'article "Un modèle hétéroscédastique d'erreurs structurelles en variables avec erreur d'équation" peut être téléchargé sur la page de l'auteur:

http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_papers

fondamentalement, vous devez prendre en compte la variabilité des deux variables pour éviter des estimateurs incohérents, des tests d'hypothèse non fiables et des intervalles de confiance.

Alexandre Patriota
la source
0

σ2Xiσ2/ninii

Michael R. Chernick
la source
Cela semble raisonnable même si j'espérais éviter d'avoir à modéliser l'erreur de mesure. Si j'allais dans cette direction, que feriez-vous pour estimer l'effet d'un prédicteur mesuré avec erreur? J'ai utilisé une méthode appelée SIMEX, mais cela semble rare et je me demande s'il existe d'autres options.
Macro
@Macro Je ne connais pas de logiciel spécifique pour modéliser la régression avec une fonction de variance à estimer.
Michael R. Chernick
3
Macro, en règle générale dans la régression des erreurs de variables homoscédastiques, si les erreurs dans les IV sont petites par rapport aux erreurs dans la DV, vous pouvez ignorer en toute sécurité les premières et recourir à une régression ordinaire. Cela vous donne un moyen simple et rapide de trier le problème.
whuber
1
@whuber, merci - c'est utile. Il semble que si cette règle empirique est logique, alors il serait logique dans le cas hétéroscédastique d'utiliser "si la plus grande variance d'erreur dans les IV est petite par rapport à la variance d'erreur dans le DV, vous pouvez ignorer le problème en toute sécurité" serait une règle empirique raisonnable qui est une condition qui peut effectivement être satisfaite dans les données que je regarde.
Macro
1
σ211/n(.05,1)Yi