Je suis en train de lire un article concernant le lieu et les préférences de vote lors des élections de 2000 et 2004. Il contient un graphique qui affiche les coefficients de régression logistique. Des cours des années et un peu de lectureSelon moi, la régression logistique est un moyen de décrire la relation entre plusieurs variables indépendantes et une variable de réponse binaire. Ce qui me rend confus, c’est que, étant donné le tableau ci-dessous, le coefficient de régression logistique du Sud étant de 0,903, cela signifie-t-il que 90,3% des habitants du sud votent pour une république? En raison de la nature logistique de la métrique, cette corrélation directe n'existe pas. Au lieu de cela, je suppose que vous pouvez seulement dire que le sud, avec 0,903, vote plus républicain que les montagnes / plaines, avec la régression de 0,506. Dans ce dernier cas, comment savoir ce qui est significatif et ce qui ne l’est pas et est-il possible d’extrapoler un pourcentage de votes républicains compte tenu de ce coefficient de régression logistique.
En guise de remarque, veuillez modifier mon message si quelque chose est mal énoncé
la source
Réponses:
Que l'auteur a obligé quelqu'un d' aussi réfléchie que vous avez à poser une question comme ça est une illustration convaincante des raisons pour lesquelles la pratique - encore façon trop commune - de confiner la présentation des résultats du modèle de régression à une table comme celui - ci est si inacceptable.
Comme indiqué, vous pouvez essayer de transformer le coefficient logit en une indication significative de l’effet estimé pour le prédicteur en question, mais c’est fastidieux et ne donne aucune information sur la précision de la prédiction, ce qui est généralement assez important dans un scénario simple. modèle de régression logistique (sur le vote en particulier).
En outre, l'utilisation de plusieurs astérisques pour indiquer des "niveaux" d'importance renforce l'idée fausse selon laquelle les valeurs p sont un indice significatif de la taille de l'effet ("wow, on a 3 astérisques !!"); pour crier fort, w / N de 10 000 à 20 000, des différences complètement triviales seront "significatives" à p <0,001 bla bla.
Il n'y a absolument aucun besoin de mystifier de cette façon. Le modèle de régression logistique est une équation qui peut être utilisée (par calcul déterminé ou, mieux encore, par simulation) pour prédire la probabilité d'un résultat conditionnel à des valeurs spécifiées pour les prédicteurs, sous réserve d'erreur de mesure. Donc, le chercheur devrait signalerquel est l’impact des prédicteurs d’intérêt sur la probabilité de la variable de résultat d’intérêt et de l’IC associé, mesurés en unités dont l’importance pratique peut être facilement saisie. Pour que tout soit prêt, les résultats doivent être affichés graphiquement. Ici, par exemple, le chercheur pourrait indiquer que le fait d’être un électeur rural par opposition à un électeur urbain augmente la probabilité de voter républicain, toutes choses égales par ailleurs, de X points de pourcentage (je suppose environ 17 en 2000; "diviser par 4" une heuristique raisonnable) +/- x% à un niveau de confiance de 0,95 - si c'est quelque chose qu'il est utile de savoir.
Le signalement de pseudo R 2 est également un signe que le modélisateur est engagé dans un rituel statistique plutôt que dans une tentative d’éclairer. Il existe une multitude de façons de calculer "pseudo R ^ 2"; on pourrait se plaindre que celui utilisé ici n'est pas précisé, mais pourquoi s'en préoccuper? Tous sont à côté de rien. La seule raison pour laquelle quelqu'un utilise le pseudo-R ^ 2, c'est que lui-même ou le critique qui la torture en a appris (il y a probablement 25 ans ou plus) que la régression linéaire par MCO est le saint graal de la statistique et pense que la seule chose que l'on essaie de comprendre est "la variance expliquée." Il existe de nombreuses méthodes défendables pour évaluer l'adéquation de l'adéquation du modèle global à l'analyse logistique, et le rapport de vraisemblance fournit des informations utiles pour comparer des modèles reflétant des hypothèses alternatives. King, G. Comment ne pas mentir avec les statistiques. Un m. J. Pol. Sci. 30, 666 à 687 (1986).
Si vous lisez un article dans lequel les reportages sont plus ou moins confinés à une table comme celle-ci, ne vous y trompez pas, ne vous laissez pas intimider et ne soyez certainement pas impressionné; soyez plutôt en colère et dites au chercheur qu’il fait un travail moche (particulièrement s’il ou elle pollue votre environnement intellectuel local avec le mysticisme et l’émerveillement - combien de penseurs complètement médiocres incitent les gens intelligents à penser qu’ils savent quelque chose / c ils peuvent produire une table que ce dernier ne peut pas comprendre). Pour une exposition intelligente et modérée de ces idées, voir King, G., Tomz, M. et Wittenberg., J. Tirer le meilleur parti des analyses statistiques: améliorer l'interprétation et la présentation . Un m. J. Pol. Sci. 44, 347 à 361 (2000); et Gelman, A., C. Pasarica et R. Dodhia.Pratiquons ce que nous prêchons: transformer les tableaux en graphiques . Un m. Stat. 56, 121-130 (2002).
la source
la source
Les coefficients de la régression logistique représentent la tendance d'une population / région donnée à voter républicain, par rapport à une catégorie de référence. Un coefficient positif signifie que la région a plus de chances de voter républicain, et inversement pour un coefficient négatif; une valeur absolue plus grande signifie une tendance plus forte qu'une valeur plus petite.
Les catégories de référence sont "Nord-est" et "électeur urbain", de sorte que tous les coefficients représentent des contrastes avec ce type d'électeur.
En général, il n'y a pas non plus de restriction sur les coefficients dans une régression logistique pour qu'elle soit dans [0, 1], même en valeur absolue. Notez que l'article de Wikipédia lui-même présente un exemple de régression logistique avec des coefficients de -5 et 2.
la source
Vous avez également demandé "comment savoir ce qui est important et ce qui ne l’est pas". (Je suppose que vous voulez dire statistiquement significatif, car la signification pratique ou substantielle est un autre problème.) Les astérisques dans le tableau font référence à la note de bas de page: certains effets ont une faible valeur p . Celles-ci sont obtenues à l'aide d'un test de Wald de la signification de chaque coefficient. En supposant un échantillonnage aléatoire, p <0,05 signifie que, s'il n'y avait aucun effet de ce type dans la population la plus large, la probabilité de voir un lien aussi fort que celui observé ou plus fort dans un échantillon de cette taille serait inférieure à 0,05. . Vous verrez beaucoup de discussions sur ce site à discuter du point connexe subtil mais important que p <.05 ne pas signifie qu'il existe une probabilité de 0,05 qu'il n'y ait pas de lien dans la population plus large.
la source
Permettez-moi de souligner l’importance de ce que rolando2 et dmk38 ont tous deux noté: l’importance est souvent mal interprétée et cette présentation sous forme de tableau présente un risque élevé.
Paul Schrodt a récemment présenté une belle description du problème:
(fn) La note de bas de page informe également sur un autre problème, mentionné par dmk38: «[Le culte mystique omniprésent des étoiles et des valeurs P] a supplanté le culte plus ancien et tout aussi envahissant du Culte du plus haut R2, démoli… par King (1986). . "
la source