Supposons que j'ai un tas de villes avec différentes tailles de population, et je voulais voir s'il y avait une relation linéaire positive entre le nombre de magasins d'alcool dans une ville et le nombre de DUI. Où je détermine si cette relation est significative ou non sur la base d'un test t du coefficient de régression estimé.
Maintenant clairement la pop. la taille d'une ville va être positivement corrélée avec le nombre de DUI ainsi que le nombre de magasins d'alcools. Ainsi, si je lance une simple régression linéaire sur les magasins d'alcool uniquement et que je vois si son coefficient de régression est statistiquement significatif, je rencontrerai probablement un problème de multicolinéarité et surestimerai l'effet des magasins d'alcool sur les DUI.
Laquelle des deux méthodes dois-je utiliser pour corriger cela?
Je devrais diviser le nombre de magasins d'alcools dans la ville par sa population afin d'obtenir un magasin d'alcools par habitant, puis régresser sur cela.
Je devrais régresser à la fois sur les magasins d'alcool et sur la taille, puis chercher à voir si le coefficient de magasin d'alcool est significatif lors du contrôle de la taille.
Une autre méthode?
Honnêtement, je ne peux pas décider ce qui semble plus sensé. Je vacille entre eux, en fonction de celui auquel je pense, je peux me convaincre que c'est la bonne façon.
D'une part, les magasins d'alcools par habitant semblent être la bonne variable à utiliser, car les DUI sont commis par des particuliers, mais cela ne semble pas très rigoureux sur le plan statistique. D'un autre côté, le contrôle de la taille semble statistiquement rigoureux, mais plutôt indirect. De plus, si je redimensionne après avoir calculé la variable des stocks d'alcool par habitant, j'obtiens des coefficients de régression très similaires entre les deux méthodes, mais la méthode 1 produit une valeur de p plus petite.
Réponses:
Je régresserais le "DUI per capita" (Y) sur "liquer stores per capita" (X) et "population size" (Z). De cette façon, votre Y reflète la propension à conduire avec facultés affaiblies des citadins, tandis que X est la population caractéristique d'une ville donnée. Z est une variable de contrôle au cas où il y aurait un effet de taille sur Y. Je ne pense pas que vous allez voir un problème de multicolinéarité dans cette configuration.
la source
Si vous estimez votre modèle avec les moindres carrés ordinaires, votre deuxième régression est plutôt problématique.
Et vous voudrez peut-être réfléchir à la façon dont la variance de votre terme d'erreur varie avec la taille de la ville.
La régression (2) est équivalente à votre régression (1) où les observations sont pondérées par le carré de la population de la ville:
Il s'agit des moindres carrés pondérés et les poids que vous appliquez sont le carré de la population de la ville. C'est beaucoup de poids que vous donnez aux plus grandes villes?!
Notez que si vous aviez une observation pour chaque individu dans une ville et assigniez à chaque individu la valeur moyenne de la ville, cela équivaudrait à exécuter une régression où vous pondérez chaque ville par la population (pas la population au carré).
la source
J'ai effectué quelques expériences sur des données simulées pour voir quelle méthode fonctionne le mieux. Veuillez lire mes conclusions ci-dessous.
Regardons deux scénarios différents - d'abord où il n'y a pas de relation directe entre les magasins DUI & Liquor et deuxièmement où nous avons une relation directe. Examinez ensuite chacune des méthodes pour voir quelle méthode fonctionne le mieux.
Cas 1: Pas de relation directe mais les deux sont liés à la population
Maintenant que les données sont simulées, voyons comment chacune des méthodes s'en sort.
Nbr_Liquor_Stores hautement significatif, comme prévu. Bien que la relation soit indirecte.
Nbr_Liquor_Stores n'a aucune signification. Semble fonctionner, mais ne permet pas encore de tirer des conclusions.
Nbr_Liquor_Stores non significatif, la valeur de p est également assez proche de la méthode 1.
(Nbr_Liquor_Stores / popln) hautement significatif! Je ne m'y attendais pas, peut-être que cette méthode n'est pas la meilleure pour votre énoncé de problème.
Cas 2: Relation directe avec Population et Nbr_Liquor_Stores
Voyons les performances de chacune des méthodes de ce scénario.
Attendu, mais pas une excellente méthode pour faire des inférences causales.
C'est une surprise pour moi, je m'attendais à ce que cette méthode capture la relation mais elle ne la reprend pas. Cette méthode échoue donc dans ce scénario!
Nbr_Liquor_Stores est significatif, la valeur p a beaucoup de sens. Un gagnant clair pour moi.
TLDR; La méthode 2 produit les valeurs de p les plus précises dans différents scénarios.
la source