Régression linéaire avec une variable dépendante qui est un rapport

10

Je fais des régressions linéaires où la variable dépendante est un rapport qui peut aller de 0,01 à 100.

Est-il correct de prendre le log de la variable dépendante et la régression là-dessus? Je fais correspondre les résultats d'une étude et c'est ce qu'ils ont fait.

Quelle est la différence entre prendre le journal et utiliser le rapport tel quel?

Aaron Kreider
la source
Je cherche une évaluation des prix des maisons. Ma variable indépendante est le prix évalué de la maison divisé par le prix de vente. Mes variables dépendantes sont plusieurs catégories raciales (pourcentage noir, blanc, hispanique et asiatique) et le revenu médian des ménages. Je constate que les secteurs de recensement avec un plus grand pourcentage de Noirs ont un rapport évaluation / prix de vente plus élevé que les autres régions.
Aaron Kreider
Pourquoi n'utilisez-vous pas la régression logistique? Vous pouvez définir le ratio car votre variable dépendante est constituée de nombreux packages statistiques.
statnoobie1
1
La régression logistique concerne généralement les valeurs binaires ou les proportions (entre 0 et 1). Ce n'est pas applicable ici car le ratio peut dépasser 1.
Max Ghenis

Réponses:

9

Lorsque vous prenez le journal du rapport, gardez à l'esprit ce que c'est: L'utilisation de cette valeur comme variable dépendante a-t-elle un sens dans votre problème?log(ab)=log(a)log(b)

Maintenant, quant à l'utilisation du ratio brut - cela peut être problématique. Kronmal 1993 fait l'argument qu'une régression avec un rapport comme variable dépendante: qui peut être décrite comme est un sous-modèle de
Y=Z1nα0+ZXαX+Z-1ϵY=β0+βXX+Z1nα0+ZXαX+Z-1ϵYZ=α0+αXX+ϵ

Y=Z1nα0+ZXαX+Z1ϵ

Y=β0+βXX+Z1nα0+ZXαX+Z1ϵ

alias...

  • Régression du numérateur par les variables indépendantes d'origine, le dénominateur et le dénominateur multiplié par les variables d'origine
  • Régression du poids par dénominateur (inverse)

Ce n'est que dans le cas où et étaient nuls que le modèle de régression d'origine sera valide.β Xβ0βX

Caveat - Je ne suis pas convaincu que j'ai une compréhension complète des rapports soit .

Affine
la source
Supposez-vous un Z fixe? J'ai 27 000 cas (aka propriétés) et le Y (prix d'évaluation) et Z (prix de vente) diffèrent pour chacun.
Aaron Kreider
Non, Z est une matrice diagonale nxn, les diagonales étant votre prix de vente. Ma notation dans la première équation peut prêter à confusion car elle n'utilise pas la notation matricielle. serait en ligne avec le reste. Z1Y=α0+αXX+ϵ
Affine
D'accord. J'ai examiné les approches suggérées dans votre question connexe et elles ont du sens. Je n'en sais pas assez à ce sujet pour les recommander d'une manière ou d'une autre, mais si quelqu'un confirme vos suggestions, je pourrais les essayer.
Aaron Kreider