J'ai une question de concept de "statistiques de base". En tant qu'étudiant, je voudrais savoir si je pense à cela totalement faux et pourquoi, si oui:
Supposons que j'essaie hypothétiquement d'examiner la relation entre les «problèmes de gestion de la colère» et de dire le divorce (oui / non) dans une régression logistique et j'ai la possibilité d'utiliser deux scores différents de gestion de la colère - tous deux sur 100.
Score 1 provient de l'instrument d'évaluation du questionnaire 1 et de mon autre choix; le score 2 provient d'un questionnaire différent. En théorie, nous avons des raisons de croire, d'après des travaux antérieurs, que les problèmes de gestion de la colère donnent lieu au divorce.
Si, dans mon échantillon de 500 personnes, la variance du score 1 est beaucoup plus élevée que celle du score 2, y a-t-il une raison de croire que le score 1 serait un meilleur score à utiliser comme prédicteur de divorce en fonction de sa variance?
Pour moi, cela me semble instinctif, mais est-ce le cas?
Réponses:
Quelques points rapides:
la source
Un exemple simple nous aide à identifier l'essentiel.
Soit
où et γ sont des paramètres, X 1 est le score du premier instrument (ou variable indépendante) et ε représente une erreur iid non biaisée. Lier le score du deuxième instrument au premier viaC γ X1 ε
Par exemple, les scores sur le deuxième instrument peuvent varier de 25 à 75 et les scores sur le premier de 0 à 100, avec . La variance de X 1 est α 2 fois la variance de X 2 . Néanmoins, nous pouvons réécrireX1=2X2−50 X1 α2 X2
Les paramètres changent et la variance de la variable indépendante change , mais la capacité prédictive du modèle reste inchangée .
En général, la relation entre et X 2X1 X2 Y Y Xi
la source
Vérifiez toujours les hypothèses du test statistique que vous utilisez!
L'une des hypothèses de régression logistique est l'indépendance des erreurs, ce qui signifie que les cas de données ne doivent pas être liés. Par exemple. vous ne pouvez pas mesurer les mêmes personnes à différents moments, ce que je crains que vous n'ayez fait avec vos enquêtes de gestion de la colère.
Je serais également inquiet qu'avec 2 sondages sur la gestion de la colère, vous mesuriez essentiellement la même chose et votre analyse pourrait souffrir de multicolinéarité.
la source