Considérons un problème d'analyse de données classique où vous avez un résultat et comment elle est liée à un certain nombre de facteurs prédictifs . Le type d'application de base à l'esprit ici est que
est un résultat au niveau du groupe tel que le taux de criminalité dans la ville .
Les prédicteurs sont des caractéristiques au niveau du groupe telles que les caractéristiques démographiques de la ville .
L'objectif de base est d'adapter un modèle de régression (peut-être avec des effets aléatoires mais oubliez cela pour l'instant):
Y a-t-il des difficultés techniques lorsque l'un (ou plusieurs) des prédicteurs est le résultat d'une enquête qui a des tailles d'échantillon différentes pour chaque unité? Par exemple, supposons que est un score récapitulatif pour la ville i qui est la réponse moyenne d'un échantillon de personnes de la ville i mais les tailles d'échantillon sur lesquelles ces moyennes étaient basées sont très différentes:
Étant donné que les variables prédictives n'ont pas toutes la même signification, dans un certain sens, pour chaque ville, je crains que le fait de conditionner ces variables dans un modèle de régression comme si elles étaient toutes «créées égales» pourrait provoquer des inférences trompeuses.
Y a-t-il un nom pour ce type de problème? Si oui, existe-t-il des recherches sur la façon de gérer cela?
Ma pensée est de le traiter comme une variable prédictive mesurée avec erreur et de faire quelque chose dans ce sens, mais il y a une hétéroscédasticité dans les erreurs de mesure, ce qui serait donc très compliqué. Je pourrais penser à cela dans le mauvais sens ou rendre cela plus compliqué qu'il ne l'est, mais toute discussion ici serait utile.
Réponses:
L'article "Un modèle hétéroscédastique d'erreurs structurelles en variables avec erreur d'équation" peut être téléchargé sur la page de l'auteur:
http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_papers
fondamentalement, vous devez prendre en compte la variabilité des deux variables pour éviter des estimateurs incohérents, des tests d'hypothèse non fiables et des intervalles de confiance.
la source
la source