Intervalles de signification et de crédibilité pour le terme d'interaction dans la régression logistique

J'ai ajusté une régression logistique bayésienne dans WinBugs et elle a un terme d'interaction. Quelque chose comme ça:

P r o b (y_{i} = 1) = {l o g i t}^{- 1} (a + b_{1} * x_{i} + b_{2} * w_{i} + b_{3} * x_{i} * w_{i})

$\mathrm{Prob}(y_{i}=1) = \mathrm{logit}^{-1} (a + b_{1}*x_{i} + b_{2}*w_{i} + b_{3}*x_{i}*w_{i})$

où $x$ est une variable continue normalisée, et $w$ est une variable fictive. En réalité, le modèle est plus compliqué, mais je veux garder les choses simples.

Il arrive que le terme d'interaction soit "significatif", mais pas les seuls prédicteurs. Par exemple,

$\mathrm{mean}(b_{1}) = -.2$ et $95%$ quantile: $(-1.3$ et $.7)$

$\mathrm{mean}(b_{2}) = -.4$ et $95%$ quantile: $(-1.3$ et $.5)$

$\mathrm{mean}(b_{3}) = 1.4$ et $95%$ quantile: $(.4$ et $2.5)$

Avez-vous des conseils sur la façon de réagir à cette découverte? Je pensais que je pouvais calculer des intervalles de crédibilité de 95% pour l'ensemble de l'effet de $x$ quand $w=1$ . Ce serait: 95% quantile pour l'effet total de x, conditionnel à $w=1$ : $(-1.3+.4$ et $.7+2.5) = (-.9 + 3.2)$

Est-ce correct? Sinon, que dois-je faire? Des références sur le sujet?

logistic bayesian statistical-significance interaction Manoel Galdino
la source

Réponses:

Non, votre calcul n'est pas correct, car:

une) $b_1$ et $b_3$ sont probablement corrélés dans la distribution postérieure, et

b) même s'ils ne l'étaient pas, ce n'est pas ainsi que vous le calculeriez (pensez à la loi des grands nombres).

Mais n'ayez crainte, il existe un moyen très simple de le faire dans WinBUGS. Définissez simplement une nouvelle variable:

b1b3 <- b1 + b3

et surveiller ses valeurs.

ÉDITER:

Pour une meilleure explication de mon premier point, supposons que le postérieur ait une distribution normale multivariée commune (ce ne sera pas le cas dans ce cas, mais cela sert d'illustration utile). Ensuite, le paramètre $b_i$ a une distribution $N(\mu_i,\sigma_i^2)$ , et donc l'intervalle crédible à 95% est $(\mu_i - 1.96 \sigma_i,\mu_i + 1.96 \sigma_i)$ - notez que cela ne dépend que de la moyenne et de la variance.

Maintenant $b_1+b_3$ aura la distribution $N(\mu_1 + \mu_3,\sigma_1^2 + 2 \rho_{13}\sigma_1\sigma_3 + \sigma_3^2)$ . Notez que le terme de variance (et donc l'intervalle crédible à 95%) implique le terme de corrélation $\rho_{13}$ qui ne peut être trouvée à partir des intervalles de $b_1$ ou $b_3$ .

(Mon point sur la loi des grands nombres était simplement que les écarts-types de la somme de 2 variables aléatoires indépendantes sont inférieurs à la somme des écarts-types.)

Quant à la façon de l'implémenter dans WinBUGS, quelque chose comme ceci était ce que j'avais à l'esprit:

model {
  a ~ dXXXX
  b1 ~ dXXXX
  b2 ~ dXXXX
  b3 ~ dXXXX
  b1b3 <- b1 + b3

  for (i in 1:N) {
    logit(p[i]) <- a + b1*x[i] + b2*w[i] + b3*x[i]*w[i]
    y[i] ~ dbern(p[i])
  }
}

À chaque étape de l'échantillonneur, le nœud b1b3sera mis à jour à partir de b1et b3. Il n'a pas besoin d'un a priori car c'est juste une fonction déterministe de deux autres nœuds.

Simon Byrne
la source

Je ne suis pas sûr de comprendre votre commnet. Si b1 et b3 sont corrélés, pourquoi est-ce important? Je veux dire, leur distribution conjointe doit être caractérisée par un paramètre de corrélation, mais alors quoi? J'ai leurs distributions marginales. 2. Je n'ai pas compris que vous parliez de la loi des grands nombres. Pourriez-vous développer cela? Enfin, suggérez-vous que je devrais ajouter b1 + b3 dans la boucle principale? Et j'ai juste besoin d'utiliser un vague avant ce nouveau paramètre? Je vous remercie!

Manoel Galdino

Quelques réflexions: 1) Je ne sais pas si le fait que ce soit bayésien importe. 2) Je pense que votre approche est correcte 3) Les interactions dans la régression logistique sont délicates. J'ai écrit à ce sujet dans un article qui porte sur SAS PROC LOGISTIC, mais l'idée générale tient. Ce document est sur mon blog et est disponible ici

Peter Flom
la source

Je suis d'accord qu'il est probable que le bayésien ou non n'a pas d'importance. Je viens de dire que c'était bayésien au cas où cela importerait.

Manoel Galdino

J'ai actuellement un problème similaire. Je crois également que l'approche pour calculer l'effet total de w est correcte. Je crois que cela peut être testé via

h0: b2 + b3 * moyenne (x) = 0; ha: b2 + b3 * moyenne (x)! = 0

Cependant, je suis tombé sur un article d'Ai / Norton, qui prétend que "l'ampleur de l'effet d'interaction dans les modèles non linéaires n'est pas égale à l'effet marginal du terme d'interaction, peut être de signe opposé et sa signification statistique n'est pas calculée par logiciel standard. " (2003, p. 123)

Vous devriez donc peut-être essayer d'appliquer leurs formules. (Et si vous comprenez comment faire cela, dites-le-moi.)

PS. Cela semble ressembler au chow-test pour les régressions logistiques. Alfred DeMaris (2004, p. 283) décrit un test pour cela.

Références:

Ai, Chunrong / Norton, Edward (2003): Termes d'interaction dans les modèles logit et probit, Economic Letters 80, p. 123-129

DeMaris, Alfred (2004): Régression avec les données sociales: modélisation des variables de réponse continues et limitées. John Wiley & Sons, Inc., Hoboken NJ

mzuba
la source

Merci pour la référence. Je vais y jeter un œil et je ferai rapport ici si je fais des progrès sur la question. En ce qui concerne votre test suggéré, je ne pense pas qu'il fera l'affaire. Rappelez-vous d'abord que l'interaction est bidirectionnelle, de x avec w et w avec x. J'entends par là que même si h0 est vrai, il est toujours possible que disons h2: b1 + b2 * moyenne (w) n'est pas nulle. De plus, en général, je sais d'avance que l'hypothèse nulle est fausse, c'est-à-dire qu'en général, il n'y a rien de tel qu'un effet nul. Avec un échantillon suffisamment grand, je peux trouver que tout effet est significatif.

Manoel Galdino

Et un autre point. Même si h0 et h2 sont vrais, il est toujours possible de dire h3: b2 + b3 * (moyenne (x) + sd (x))! = 0. En d'autres termes, nous devons tester non seulement la moyenne de x (ou w), mais pour toute la distribution des valeurs, puisqu'un terme d'interaction est un moyen de dire que l'effet prédictif varie selon les sous-groupes de prédicteurs.

Manoel Galdino

Je ne comprends pas bien ce que tu veux dire. Lorsque vous testez si b2 + b3 * signifie (x) == 0 ou non, vous vous comparez toujours à certaines statistiques de test pour déterminer si le résultat est significativement différent de zéro, l'écart-type de x n'est pas le seul facteur pertinent.

mzuba

À propos de ce que vous avez dit ... Je ne suis pas sûr de vous avoir bien compris non plus. En tout cas, un de mes points était: même si nous ne parvenons pas à rejeter l'hypothèse nulle que b2 + b3 * signifie (x) == 0, cela signifie seulement que nous ne pouvons pas dire que l'effet moyen de W, conditionnel à les valeurs moyennes de x ne sont pas nulles. Cependant, le point entier d'un terme d'interaction est que nous voulons conditionner l'effet de W non seulement sur la moyenne x, mais sur la distritubion entière de x!

Manoel Galdino

Bien. Je vois ce que tu veux dire. (L'anglais n'est pas ma première langue non plus.) Je crois que ce que vous avez écrit est vrai et c'est aussi pourquoi Ai / Norton tracent l'effet d'interaction par rapport à l'ensemble de la distribution de prob (x) - pour certaines valeurs de x, l'effet d'interaction est positif, pour certains, ce n'est pas le cas. Cependant, je pense que le fait de calculer l'effet de W, qui est un mannequin, pourrait (?) Faciliter les choses, car il peut être interprété comme un test de chow, une rupture structurelle, une sous-population, etc. (Voulez-vous calculer l'effet de pas de w 0 → 1, ou êtes-vous intéressé par l'effet d'interaction?)

mzuba