Ratios in Regression, aka Questions on Kronmal

14

Récemment, la consultation aléatoire de questions a déclenché la mémoire d'un commentaire spontané de l'un de mes professeurs, il y a quelques années, mettant en garde contre l'utilisation des ratios dans les modèles de régression. J'ai donc commencé à lire sur ce sujet, menant finalement à Kronmal 1993.

Je veux m'assurer que j'interprète correctement ses suggestions sur la façon de les modéliser.


  1. Z-1Oui=Z-11nβ0+Z-1XβX+βZ+Z-1ϵ

    • Régression du ratio dépendant de la variable du dénominateur (inverse) en plus des autres ratios
    • Pondération par la variable du dénominateur (inverse)

  2. Oui=β0+βXX+Z1nα0+ZXαX+Z-1ϵ

    • Régression du numérateur par les variables d'origine, le dénominateur et le dénominateur multiplié par les variables d'origine [qu'en est-il des variables catégorielles?]
    • Poids par dénominateur (inverse)
  3. Pour le modèle avec uniquement des ratios variables indépendants: Oui=β0+XβX+Z-11nβZ-1+WβW+Z-1WβZ-1W+ϵ

    • Inclure le numérateur et le dénominateur (inverse) comme effets principaux, le rapport comme terme d'interaction.

Mes interprétations ici sont-elles correctes?

Affine
la source

Réponses:

1

Vous auriez vraiment dû faire un lien avec le papier Kronmal (et expliqué votre notation, qui est directement tirée du papier.) Votre lecture du papier est trop littérale. Plus précisément, il ne donne pas de conseils sur la pondération, disant plutôt que la pondération peut être effectuée de la manière habituelle, donc pas besoin de discuter. Il n'est mentionné que comme une possibilité. Lisez vos cas plus comme des exemples, en particulier comme des exemples de la façon d'analyser de telles situations.

Dans la section 6, il donne quelques conseils généraux, que je citerai ici:

Le message de cet article est que les variables de rapport ne doivent être utilisées que dans le contexte d'un modèle linéaire complet dans lequel les variables qui composent le rapport sont incluses et le terme d'interception est également présent. La pratique courante consistant à utiliser des ratios pour la variable dépendante ou la variable indépendante dans l'analyse de régression peut conduire à des inférences trompeuses et se traduit rarement par un gain. Cette pratique est cependant répandue et bien ancrée, et il peut être difficile de convaincre certains chercheurs de renoncer à leur rapport ou indice le plus prisé.

L'article utilise l'exemple (fictif) de Neyman sur les naissances et les cigognes. Pour jouer avec cet exemple, vous pouvez y accéder à partir de R en

data(stork, package="TeachingDemos")

Je laisserai le plaisir aux lecteurs, mais une intrigue intéressante est la suivante coplot:

tracé de conditionnement pour l'exemple des cigognes de Neyman

kjetil b halvorsen
la source