Un prédicteur avec une plus grande variance est-il «meilleur»?

13

J'ai une question de concept de "statistiques de base". En tant qu'étudiant, je voudrais savoir si je pense à cela totalement faux et pourquoi, si oui:

Supposons que j'essaie hypothétiquement d'examiner la relation entre les «problèmes de gestion de la colère» et de dire le divorce (oui / non) dans une régression logistique et j'ai la possibilité d'utiliser deux scores différents de gestion de la colère - tous deux sur 100.
Score 1 provient de l'instrument d'évaluation du questionnaire 1 et de mon autre choix; le score 2 provient d'un questionnaire différent. En théorie, nous avons des raisons de croire, d'après des travaux antérieurs, que les problèmes de gestion de la colère donnent lieu au divorce.
Si, dans mon échantillon de 500 personnes, la variance du score 1 est beaucoup plus élevée que celle du score 2, y a-t-il une raison de croire que le score 1 serait un meilleur score à utiliser comme prédicteur de divorce en fonction de sa variance?

Pour moi, cela me semble instinctif, mais est-ce le cas?

regression logistic N26
la source

Question intéressante, je crois que la réponse de Whuber l'explique parfaitement. Ma première réponse à la question était: «une variance accrue n'implique pas une information discriminatoire de classe plus élevée».

Zhubarb

11

Quelques points rapides:

La variance peut être augmentée ou diminuée arbitrairement en adoptant une échelle différente pour votre variable. La multiplication d'une échelle par une constante supérieure à un augmenterait la variance, mais ne modifierait pas le pouvoir prédictif de la variable.
Vous pouvez confondre la variance avec la fiabilité. Toutes choses étant égales par ailleurs (et en supposant qu'il existe au moins une vraie prédiction de score), l'augmentation de la fiabilité avec laquelle vous mesurez une construction devrait augmenter sa puissance prédictive. Consultez cette discussion sur la correction de l'atténuation .
En supposant que les deux échelles étaient composées de vingt éléments à 5 points, et avaient donc des scores totaux allant de 20 à 100, alors la version avec la plus grande variance serait également plus fiable (au moins en termes de cohérence interne).
La fiabilité de la cohérence interne n'est pas la seule norme permettant de juger un test psychologique et ce n'est pas le seul facteur qui distingue le pouvoir prédictif d'une échelle par rapport à une autre pour une construction donnée.

Jeromy Anglim
la source

9

Un exemple simple nous aide à identifier l'essentiel.

Soit

Y = C + γ X_{1} + ε

$Y = C + \gamma X_1 + \varepsilon$

où et sont des paramètres, est le score du premier instrument (ou variable indépendante) et représente une erreur iid non biaisée. Lier le score du deuxième instrument au premier via $C$ $\gamma$ $X_1$ $\varepsilon$

X_{1} = α X_{2} + β .

$X_1 = \alpha X_2 + \beta.$

Par exemple, les scores sur le deuxième instrument peuvent varier de 25 à 75 et les scores sur le premier de 0 à 100, avec . La variance de est fois la variance de . Néanmoins, nous pouvons réécrire $X_1 = 2 X_2 - 50$ $X_1$ $\alpha^2$ $X_2$

Y = C + γ (α X_{2} + β) = (C + β γ) + (γ α) X_{2} + ε = C^{'} + γ^{'} X_{2} + ε .

$Y = C + \gamma(\alpha X_2 + \beta) = (C + \beta \gamma) + (\gamma \alpha) X_2 + \varepsilon = C' + \gamma' X_2 + \varepsilon.$

Les paramètres changent et la variance de la variable indépendante change , mais la capacité prédictive du modèle reste inchangée .

En général, la relation entre et $X_1$ $X_2$ $Y$ $Y$ $X_i$

$X_1$ $X_2$ $Y$ $Y$ $X_1$ $X_2$ $X_2$

whuber
la source

1

Vérifiez toujours les hypothèses du test statistique que vous utilisez!

L'une des hypothèses de régression logistique est l'indépendance des erreurs, ce qui signifie que les cas de données ne doivent pas être liés. Par exemple. vous ne pouvez pas mesurer les mêmes personnes à différents moments, ce que je crains que vous n'ayez fait avec vos enquêtes de gestion de la colère.

Je serais également inquiet qu'avec 2 sondages sur la gestion de la colère, vous mesuriez essentiellement la même chose et votre analyse pourrait souffrir de multicolinéarité.

Parbury
la source

1

Je pense que N26 suggère une expérience de pensée. C'est-à-dire si, lors de la conception d'une étude, vous avez le choix entre deux échelles, préférez-vous, à première vue, celle qui présente la plus grande variance. De plus, le fait d'avoir deux prédicteurs qui représentent la même construction, mais qui sont mesurés différemment, ne viole pas l'hypothèse d'indépendance des observations.

Jeromy Anglim

Un prédicteur avec une plus grande variance est-il «meilleur»?

Réponses: