Quelle est la signification des coefficients de régression logistique?

42

Je suis en train de lire un article concernant le lieu et les préférences de vote lors des élections de 2000 et 2004. Il contient un graphique qui affiche les coefficients de régression logistique. Des cours des années et un peu de lectureSelon moi, la régression logistique est un moyen de décrire la relation entre plusieurs variables indépendantes et une variable de réponse binaire. Ce qui me rend confus, c’est que, étant donné le tableau ci-dessous, le coefficient de régression logistique du Sud étant de 0,903, cela signifie-t-il que 90,3% des habitants du sud votent pour une république? En raison de la nature logistique de la métrique, cette corrélation directe n'existe pas. Au lieu de cela, je suppose que vous pouvez seulement dire que le sud, avec 0,903, vote plus républicain que les montagnes / plaines, avec la régression de 0,506. Dans ce dernier cas, comment savoir ce qui est significatif et ce qui ne l’est pas et est-il possible d’extrapoler un pourcentage de votes républicains compte tenu de ce coefficient de régression logistique. Tableau montrant les coefficients de régression logistique

En guise de remarque, veuillez modifier mon message si quelque chose est mal énoncé

Amccormack
la source
C’est plutôt une question de suivi (et je ne devrais probablement pas l’afficher), mais avez-vous trouvé un bon moyen de "est-il possible d’extrapoler un pourcentage", car c’est à peu près ce que je recherche?
Stefan Andersson
2
Je pense qu'il serait préférable que vous formuliez cette question en tant que question distincte et que vous la posiez séparément plutôt que comme une réponse ici.
cardinal
Si vous vous posez des questions sur le journal, vous pouvez vous adresser à SC McKee et JM Teigen, Enquête sur les rouges et les bleus: sectionalisme et localisation des électeurs lors des élections présidentielles américaines de 2000 et 2004 (2009). Géographie politique
Alex Nelson

Réponses:

36

Que l'auteur a obligé quelqu'un d' aussi réfléchie que vous avez à poser une question comme ça est une illustration convaincante des raisons pour lesquelles la pratique - encore façon trop commune - de confiner la présentation des résultats du modèle de régression à une table comme celui - ci est si inacceptable.

  1. Comme indiqué, vous pouvez essayer de transformer le coefficient logit en une indication significative de l’effet estimé pour le prédicteur en question, mais c’est fastidieux et ne donne aucune information sur la précision de la prédiction, ce qui est généralement assez important dans un scénario simple. modèle de régression logistique (sur le vote en particulier).

  2. En outre, l'utilisation de plusieurs astérisques pour indiquer des "niveaux" d'importance renforce l'idée fausse selon laquelle les valeurs p sont un indice significatif de la taille de l'effet ("wow, on a 3 astérisques !!"); pour crier fort, w / N de 10 000 à 20 000, des différences complètement triviales seront "significatives" à p <0,001 bla bla.

  3. Il n'y a absolument aucun besoin de mystifier de cette façon. Le modèle de régression logistique est une équation qui peut être utilisée (par calcul déterminé ou, mieux encore, par simulation) pour prédire la probabilité d'un résultat conditionnel à des valeurs spécifiées pour les prédicteurs, sous réserve d'erreur de mesure. Donc, le chercheur devrait signalerquel est l’impact des prédicteurs d’intérêt sur la probabilité de la variable de résultat d’intérêt et de l’IC associé, mesurés en unités dont l’importance pratique peut être facilement saisie. Pour que tout soit prêt, les résultats doivent être affichés graphiquement. Ici, par exemple, le chercheur pourrait indiquer que le fait d’être un électeur rural par opposition à un électeur urbain augmente la probabilité de voter républicain, toutes choses égales par ailleurs, de X points de pourcentage (je suppose environ 17 en 2000; "diviser par 4" une heuristique raisonnable) +/- x% à un niveau de confiance de 0,95 - si c'est quelque chose qu'il est utile de savoir.

  4. Le signalement de pseudo R 2 est également un signe que le modélisateur est engagé dans un rituel statistique plutôt que dans une tentative d’éclairer. Il existe une multitude de façons de calculer "pseudo R ^ 2"; on pourrait se plaindre que celui utilisé ici n'est pas précisé, mais pourquoi s'en préoccuper? Tous sont à côté de rien. La seule raison pour laquelle quelqu'un utilise le pseudo-R ^ 2, c'est que lui-même ou le critique qui la torture en a appris (il y a probablement 25 ans ou plus) que la régression linéaire par MCO est le saint graal de la statistique et pense que la seule chose que l'on essaie de comprendre est "la variance expliquée." Il existe de nombreuses méthodes défendables pour évaluer l'adéquation de l'adéquation du modèle global à l'analyse logistique, et le rapport de vraisemblance fournit des informations utiles pour comparer des modèles reflétant des hypothèses alternatives. King, G. Comment ne pas mentir avec les statistiques. Un m. J. Pol. Sci. 30, 666 à 687 (1986).

  5. Si vous lisez un article dans lequel les reportages sont plus ou moins confinés à une table comme celle-ci, ne vous y trompez pas, ne vous laissez pas intimider et ne soyez certainement pas impressionné; soyez plutôt en colère et dites au chercheur qu’il fait un travail moche (particulièrement s’il ou elle pollue votre environnement intellectuel local avec le mysticisme et l’émerveillement - combien de penseurs complètement médiocres incitent les gens intelligents à penser qu’ils savent quelque chose / c ils peuvent produire une table que ce dernier ne peut pas comprendre). Pour une exposition intelligente et modérée de ces idées, voir King, G., Tomz, M. et Wittenberg., J. Tirer le meilleur parti des analyses statistiques: améliorer l'interprétation et la présentation . Un m. J. Pol. Sci. 44, 347 à 361 (2000); et Gelman, A., C. Pasarica et R. Dodhia.Pratiquons ce que nous prêchons: transformer les tableaux en graphiques . Un m. Stat. 56, 121-130 (2002).

dmk38
la source
19

plogp/(1p)

x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.9030.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55

Michael Lugo
la source
2
heuristique: diviser par 4 - logit coeff / 4 est d'environ pct-pt diff en prob. à partir de 1 changement d'unité. Ce n'est pas la même chose que de dire "une personne avec une caractéristique caractéristique = z est susceptible de x%". Non seulement (comme indiqué), il faut ajouter la probabilité βsous-soustraire associée à la classe de référence. Il est également nécessaire de prendre en compte la colinéarité des prédicteurs. B / c étant sud corrélé avec d'autres prédicteurs, il ne sera pas vrai que prob. du republicateur votant sudiste est βs0 - la cote du journal transformé pour NE ainsi que la cote du journal transformé pour le sud. Mieux vaut dire, "toutes choses égales par ailleurs, être originaire du sud prédit un changement de point de pct en
pourcentage de la probabilité
1
"Les chances réelles sont passées de 0,43 à 1". Est-ce que 0,43 venait en premier lieu?
Monica Heddneck
0.30.3/(10.3)0.43
6

Les coefficients de la régression logistique représentent la tendance d'une population / région donnée à voter républicain, par rapport à une catégorie de référence. Un coefficient positif signifie que la région a plus de chances de voter républicain, et inversement pour un coefficient négatif; une valeur absolue plus grande signifie une tendance plus forte qu'une valeur plus petite.

Les catégories de référence sont "Nord-est" et "électeur urbain", de sorte que tous les coefficients représentent des contrastes avec ce type d'électeur.

En général, il n'y a pas non plus de restriction sur les coefficients dans une régression logistique pour qu'elle soit dans [0, 1], même en valeur absolue. Notez que l'article de Wikipédia lui-même présente un exemple de régression logistique avec des coefficients de -5 et 2.

Hong Ooi
la source
5

Vous avez également demandé "comment savoir ce qui est important et ce qui ne l’est pas". (Je suppose que vous voulez dire statistiquement significatif, car la signification pratique ou substantielle est un autre problème.) Les astérisques dans le tableau font référence à la note de bas de page: certains effets ont une faible valeur p . Celles-ci sont obtenues à l'aide d'un test de Wald de la signification de chaque coefficient. En supposant un échantillonnage aléatoire, p <0,05 signifie que, s'il n'y avait aucun effet de ce type dans la population la plus large, la probabilité de voir un lien aussi fort que celui observé ou plus fort dans un échantillon de cette taille serait inférieure à 0,05. . Vous verrez beaucoup de discussions sur ce site à discuter du point connexe subtil mais important que p <.05 ne pas signifie qu'il existe une probabilité de 0,05 qu'il n'y ait pas de lien dans la population plus large.

rolando2
la source
5

Permettez-moi de souligner l’importance de ce que rolando2 et dmk38 ont tous deux noté: l’importance est souvent mal interprétée et cette présentation sous forme de tableau présente un risque élevé.

Paul Schrodt a récemment présenté une belle description du problème:

Les chercheurs trouvent presque impossible d'adhérer à la bonne interprétation du test de signification. La valeur p vous indique uniquement la probabilité que vous obteniez un résultat dans les conditions [généralement] complètement irréalistes de l'hypothèse nulle. Ce n'est pas ce que vous voulez savoir - vous voulez généralement connaître l'ampleur de l'effet d'une variable indépendante, en fonction des données. C'est une question bayésienne, pas une question fréquentiste. Au lieu de cela, nous voyons constamment la p-value interprétée comme si elle donnait la force de l'association: c'est le culte mystique omniprésent des étoiles et des p-valeurs qui imprègne nos journaux. (Fn) Ce n'est pas ce que dit la p-valeur. , ça ne le sera jamais.

D'après mon expérience, cette erreur est presque impossible à éviter: même des analystes très attentifs et pleinement conscients du problème changent souvent de mode lorsqu'ils discutent verbalement de leurs résultats, même s'ils l'ont évité dans un exposé écrit. Et ne spéculons même pas sur les milliers d'heures et de gallons d'encre que nous avons dépensés pour corriger cela dans les études supérieures.

(fn) La note de bas de page informe également sur un autre problème, mentionné par dmk38: «[Le culte mystique omniprésent des étoiles et des valeurs P] a supplanté le culte plus ancien et tout aussi envahissant du Culte du plus haut R2, démoli… par King (1986). . "

Fr.
la source
oh-- Je viens d'ajouter King cite à ma réponse modifiée. L’article démolit en effet la manie de R ^ 2 (encore endémique à l’économétrie) même lorsque la statistique a un sens - pour la régression MCO. King note également que ce pseudo-R ^ 2 est un charabia qui a été fabriqué pour prolonger l'insouciance associée à la "variance expliquée".
dmk38