Comparer les coefficients logistiques sur des modèles avec différentes variables dépendantes?

14

Il s'agit d'une question complémentaire à celle que j'ai posée il y a quelques jours . Je pense que cela met une perspective différente sur la question, j'ai donc énuméré une nouvelle question.

La question est: puis-je comparer l'ampleur des coefficients entre les modèles avec différentes variables dépendantes? Par exemple, sur un seul échantillon, disons que je veux savoir si l'économie est un meilleur prédicteur des votes à la Chambre des représentants ou pour le président. Dans ce cas, mes deux variables dépendantes seraient le vote à la Chambre (codé 1 pour démocrate et 0 pour républicain) et le président (1 pour démocrate et 0 pour républicain) et ma variable indépendante est l'économie. Je m'attendrais à un résultat statistiquement significatif dans les deux bureaux, mais comment puis-je évaluer s'il a un effet «plus important» dans l'un que dans l'autre? Ce n'est peut-être pas un exemple particulièrement intéressant, mais je suis curieux de savoir s'il existe un moyen de comparer. Je sais que l'on ne peut pas simplement regarder la «taille» du coefficient. Donc, est-il possible de comparer des coefficients sur des modèles avec différentes variables dépendantes? Et si oui, comment faire?

Si tout cela n'a pas de sens, faites le moi savoir. Tous les conseils et commentaires sont appréciés.

regression logistic Ejs
la source

2

Comment savez-vous que l'on ne peut pas simplement regarder la «taille» du coefficient?

2011

J'ai fusionné vos deux comptes. Vous devrez toujours vous inscrire, comme indiqué dans la FAQ . (@onestop Thx pour avoir pointé le doublon.)

chl

J'ai supposé que je ne pouvais pas comparer «l'effet» des prédicteurs entre les modèles en examinant les coefficients des réponses à ma question précédente. Les choses sont-elles différentes pour mon exemple ci-dessus?

Ejs

2

Commencer une prime - semble être une question importante avec trois réponses très différentes, dont aucune n'a un seul vote . On peut faire mieux. Le lien papier d' Andy W sur cette question connexe semble pertinent.

Matt Parker

4

La réponse courte est "oui vous pouvez" - mais vous devez comparer les estimations de maximum de vraisemblance (MLE) du "grand modèle" avec toutes les co-variables de l'un ou l'autre modèle ajustées aux deux.

C'est une façon "quasi formelle" d'obtenir que la théorie des probabilités réponde à votre question

Dans l'exemple, et sont du même type de variables (fractions / pourcentages) et sont donc comparables. Je suppose que vous adaptez le même modèle aux deux. Nous avons donc deux modèles: $Y_{1}$ $Y_{2}$

M_{1} : Y_{1 i} \sim B i n (n_{1 i}, p_{1 i})

$M_{1}:Y_{1i}\sim Bin(n_{1i},p_{1i})$

l o g (\frac{p_{1 i}}{1 - p_{1 i}}) = α_{1} + β_{1} X_{i}

$log\left(\frac{p_{1i}}{1-p_{1i}}\right)=\alpha_{1}+\beta_{1}X_{i}$

M_{2} : Y_{2 i} \sim B i n (n_{2 i}, p_{2 i})

$M_{2}:Y_{2i}\sim Bin(n_{2i},p_{2i})$

l o g (\frac{p_{2 i}}{1 - p_{2 i}}) = α_{2} + β_{2} X_{i}

$log\left(\frac{p_{2i}}{1-p_{2i}}\right)=\alpha_{2}+\beta_{2}X_{i}$

Vous avez donc l'hypothèse que vous souhaitez évaluer:

H_{0} : β_{1} > β_{2}

$H_{0}:\beta_{1}>\beta_{2}$

Et vous avez des données , et quelques informations préalables (comme l'utilisation du modèle logistique). Vous calculez donc la probabilité: $\{Y_{1i},Y_{2i},X_{i}\}_{i=1}^{n}$

P = P r (H_{0} | {Y_{1 i}, Y_{2 i}, X_{i}}_{i = 1}^{n}, I)

$P=Pr(H_0|\{Y_{1i},Y_{2i},X_{i}\}_{i=1}^{n},I)$

$H_0$

P = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} P r (H_{0}, α_{1}, α_{2}, β_{1}, β_{2} | {Y_{1 i}, Y_{2 i}, X_{i}}_{i = 1}^{n}, I) d α_{1} d α_{2} d β_{1} d β_{2}

$P=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} Pr(H_0,\alpha_{1},\alpha_{2},\beta_{1},\beta_{2}|\{Y_{1i},Y_{2i},X_{i}\}_{i=1}^{n},I) d\alpha_{1}d\alpha_{2}d\beta_{1}d\beta_{2}$

L'hypothèse restreint simplement la portée de l'intégration, nous avons donc:

P = \int_{- \infty}^{\infty} \int_{β_{2}}^{\infty} \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} P r (α_{1}, α_{2}, β_{1}, β_{2} | {Y_{1 i}, Y_{2 i}, X_{i}}_{i = 1}^{n}, I) d α_{1} d α_{2} d β_{1} d β_{2}

$P=\int_{-\infty}^{\infty} \int_{\beta_{2}}^{\infty} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} Pr(\alpha_{1},\alpha_{2},\beta_{1},\beta_{2}|\{Y_{1i},Y_{2i},X_{i}\}_{i=1}^{n},I) d\alpha_{1}d\alpha_{2}d\beta_{1}d\beta_{2}$

Parce que la probabilité est conditionnelle aux données, elle sera prise en compte dans les deux postérieures distinctes pour chaque modèle

P r (α_{1}, β_{1} | {Y_{1 i}, X_{i}, Y_{2 i}}_{i = 1}^{n}, I) P r (α_{2}, β_{2} | {Y_{2 i}, X_{i}, Y_{1 i}}_{i = 1}^{n}, I)

$Pr(\alpha_{1},\beta_{1}|\{Y_{1i},X_{i},Y_{2i}\}_{i=1}^{n},I)Pr(\alpha_{2},\beta_{2}|\{Y_{2i},X_{i},Y_{1i}\}_{i=1}^{n},I)$

$Y_{1i}$ $\alpha_{2},\beta_{2}$ $X_{i}$ $Y_{2i}$

$V_{1}$ $V_{2}$ $\alpha_{j}$

P = Φ (\frac{{\hat{β}}_{2, M L E} - {\hat{β}}_{1, M L E}}{\sqrt{V_{1 : β, β} + V_{2 : β, β}}})

$P=\Phi\left(\frac{\hat{\beta}_{2,MLE}-\hat{\beta}_{1,MLE}}{\sqrt{V_{1:\beta,\beta}+V_{2:\beta,\beta}}}\right)$

$\Phi()$

probabilitéislogique
la source

3

Pourquoi pas? Les modèles estiment dans quelle mesure 1 unité de changement dans tout prédicteur de modèle influencera la probabilité de «1» pour la variable de résultat. Je suppose que les modèles sont les mêmes - qu'ils contiennent les mêmes prédicteurs. La façon la plus informative de comparer les amplitudes relatives de tout prédicteur donné dans les 2 modèles consiste à utiliser les modèles pour calculer (de manière déterministe ou mieux par simulation) dans quelle mesure un incrément significatif de changement (par exemple, +/- 1 ET) dans le prédicteur affecte les probabilités des variables de résultats respectives - et comparez-les! Vous voudrez déterminer les intervalles de confiance pour les deux estimations ainsi que pour vous assurer que la différence est «significative», pratiquement et statistiquement.

dmk38
la source

Merci dmk8, très utile. Quelques points / questions de suivi: est-ce ce que l'on entend souvent lorsqu'on fait référence à la variation de la variable d'intérêt (l'économie de mauvaise à bonne par exemple) tout en maintenant toutes les variables de contrôle à leurs moyens? Qu'entendez-vous par déterminisme? Comment déterminer les intervalles de confiance autour des probabilités?

Ejs

2

Consultez le roi. Il ne décevra pas. King, G., Tomz, M. et Wittenberg., J. (2000). Tirer le meilleur parti des analyses statistiques: améliorer l'interprétation et la présentation. Un m. J. Pol. Sci, 44 (2), 347-361.

dmk38

2

Je suppose que "ma variable indépendante est l'économie", vous utilisez un raccourci pour un prédicteur spécifique.

À un certain niveau, je ne vois rien de mal à faire une déclaration telle que

X prédit Y1 avec un rapport de cotes de _ et un intervalle de confiance à 95% de [_, _] tandis que X prédit Y2 avec un rapport de cotes de _ et un intervalle de confiance de 95% de [_, _].

Les suggestions récentes de @ dmk38 semblent très utiles à cet égard.

Vous pouvez également souhaiter standardiser les coefficients pour faciliter la comparaison.

À un autre niveau, méfiez-vous de prendre des statistiques inférentielles (erreurs standard, valeurs p , IC) littéralement lorsque votre échantillon constitue un échantillon non aléatoire de la population d'années à laquelle vous voudrez peut-être généraliser.

rolando2
la source

Oui, «l'économie» est l'abréviation de la perception des conditions économiques nationales. Le même conseil s'applique-t-il lorsque d'autres prédicteurs (contrôles) sont inclus dans le modèle?

Ejs

@Ejs - J'ai bien peur qu'il n'y ait pas de réponse courte à votre dernière question. Vous découvrez ce que signifie évaluer les relations lorsque vous utilisez le contrôle statistique - un sujet fabuleusement complexe qui mérite une étude approfondie. Vous abordez également probablement le sujet de la sélection des variables, qui est également important. AMHA la meilleure source pour l'étudiant engagé de ces sujets est de Pedhazur amazon.com/Multiple-regression-behavioral-research-Pedhazur/...

rolando2

1

Disons que l’intérêt réside dans la comparaison de deux groupes de personnes: $X_{1} = 1$ et ceux avec $X_{1} = 0$ .

L'exponentielle de $\beta_{1}$ , le coefficient correspondant, est interprété comme le rapport des chances de réussite pour ceux $X_{1} = 1$ sur les chances de succès pour ceux qui ont $X_{1} = 0$ , conditionnelle aux autres variables du modèle.

Donc, si vous avez deux modèles avec différentes variables dépendantes, alors l'interprétation de $\beta_{1}$ change car il n'est pas conditionné par le même ensemble de variables. Par conséquent, la comparaison n'est pas directe ...

ocram
la source

Est-ce que cela a des implications pour la suggestion de roland2?

Ejs

@Ejs. Vous référez-vous à l'étape de normalisation? Au fait, ma réponse est-elle utile? Ai-je mal compris la question?

ocram

Comparer les coefficients logistiques sur des modèles avec différentes variables dépendantes?

Réponses: