Quelle est la différence entre les modèles Logit et Probit ?
Je suis plus intéressé par savoir quand utiliser la régression logistique et quand utiliser Probit.
S'il existe une littérature qui le définit en utilisant R , cela serait également utile.
Réponses:
Ils diffèrent principalement par la fonction de lien.
Dans Probit: (pdf normal cumulatif)Pr(Y=1∣X)=Φ(X′β)
Autrement, la logistique a des queues légèrement plus plates. c'est-à-dire que la courbe probit se rapproche des axes plus rapidement que la courbe logit.
Logit a une interprétation plus facile que le probit. La régression logistique peut être interprétée comme une probabilité de modélisation du journal (c'est-à-dire que ceux qui fument> 25 cigarettes par jour ont six fois plus de risques de mourir avant 65 ans). Habituellement, les gens commencent la modélisation avec logit. Vous pouvez utiliser la valeur de vraisemblance de chaque modèle pour choisir logit vs probit.
la source
Un modèle linéaire standard (par exemple, un modèle de régression simple) peut être considéré comme comportant deux «parties». Celles-ci sont appelées composant structurel et composant aléatoire . Par exemple:
Les deux premiers termes (c'est-à-dire, β 0 + β 1 X ) constituent le composant structural et le ε (qui indique un terme d'erreur normalement distribué) est le composant aléatoire. Lorsque la variable de réponse n'est pas distribuée normalement (par exemple, si votre variable de réponse est binaire), cette approche peut ne plus être valide. Lemodèle linéaire généralisé
Ici β 0 + β 1 X est à nouveau le composant structurel, g ( ) est la fonction de liaison et μ
La fonction de liaison est la clé des GLiM: puisque la distribution de la variable de réponse est non normale, c’est ce qui nous permet de connecter le composant structurel à la réponse - il les «relie» (d'où le nom). C'est également la clé de votre question, car logit et probit sont des liens (comme l'explique @vinux), et la compréhension des fonctions de lien nous permettra de choisir intelligemment quand utiliser lequel. Bien que de nombreuses fonctions de liaison puissent être acceptables, il en existe souvent une qui soit spéciale. Sans vouloir entrer trop loin dans les mauvaises herbes (cela peut être très technique), la moyenne prédite, , ne sera pas nécessairement la même chose que le paramètre de localisation canonique de la distribution de réponse ; la fonction de lien qui les assimile est la fonction de lien canoniqueμ . L'avantage de ceci "est qu'il existe une statistique minimale suffisante pour " ( German Rodriguez ). Le lien canonique pour les données de réponse binaires (plus précisément, la distribution binomiale) est le logit. Cependant, de nombreuses fonctions peuvent mapper le composant structurel sur l'intervalle ( 0 , 1 ) et ainsi être acceptables. le probit est également populaire, mais d’autres options sont parfois utilisées (comme le journal complémentaire, ln ( - ln ( 1 - μ ) )β (0,1) ln(−ln(1−μ)) , souvent appelé 'cloglog'). Ainsi, il existe de nombreuses fonctions de liaison possibles et le choix de la fonction de liaison peut être très important. Le choix devrait être fait sur la base d'une combinaison de:
Après avoir couvert un peu de fond conceptuel nécessaire pour comprendre ces idées plus clairement (pardonnez-moi), je vais expliquer comment ces considérations peuvent être utilisées pour guider votre choix de lien. (Permettez-moi de noter que, selon moi, le commentaire de @ David rend bien compte de la raison pour laquelle différents liens sont choisis en pratique .) Pour commencer, si votre variable de réponse est le résultat d'un essai de Bernoulli (c'est-à-dire ou 1 ), votre distribution de réponse binomial, et ce que vous modélisez est la probabilité qu'une observation soit un 1 (c'est-à-dire, π ( Y = 1 ) ). Par conséquent, toute fonction mappant la droite numérique réelle (0 1 1 π(Y=1) , à l'intervalle ( 0 , 1 ) fonctionnera. (−∞,+∞) (0,1)
Du point de vue de votre théorie de fond, si vous pensez que vos covariables sont directement liées à la probabilité de succès, vous choisirez généralement une régression logistique car il s'agit du lien canonique. Cependant, considérons l'exemple suivant: Il vous est demandé de modéliser
high_Blood_Pressure
en fonction de certaines covariables. La tension artérielle elle-même est normalement distribuée dans la population (je ne le sais pas vraiment, mais cela semble raisonnable à première vue), néanmoins, les cliniciens l'ont dichotomisée au cours de l'étude (c'est-à-dire qu'ils n'ont enregistré que «l'hypertension artérielle» ou «normale»). ). Dans ce cas, le probit serait préférable a priori pour des raisons théoriques. C'est ce que @Elvis entendait par "votre résultat binaire dépend d'une variable gaussienne cachée".symétrique , si vous croyez que la probabilité de réussite augmente lentement à partir de zéro, mais diminue ensuite plus rapidement à l'approche de l'un, le cloglog est appelé, etc.Enfin, notez que l'ajustement empirique du modèle aux données ne sera probablement d'aucune aide pour la sélection d'un lien, à moins que la forme des fonctions de lien en question diffère considérablement (les fonctions logit et probit ne diffèrent pas non plus). Par exemple, considérons la simulation suivante:
Même si nous savons que les données ont été générées par un modèle probit, et que nous disposons de 1 000 points de données, le modèle probit ne donne un meilleur ajustement que 70% du temps, et même dans de très rares cas. Considérons la dernière itération:
La raison en est simplement que les fonctions de liaison logit et probit génèrent des sorties très similaires lorsque les mêmes entrées sont données.
Les fonctions logit et probit sont pratiquement identiques, à la différence que le logit est légèrement plus éloigné des limites quand ils «tournent le coin», comme @vinux l'a déclaré. (Notez que pour obtenir le logit et probit pour aligner de façon optimale, le logit doit être ≈ 1,7 fois la valeur de pente correspondante pour la probit. De plus, je aurais pu déplacé le cloglog sur un peu afin qu'ils déposeraient au - dessus de plus, mais je me suis laissé de côté pour que la silhouette soit plus lisible.) Notez que le cloglog est asymétrique alors que les autres ne le sont pas; il commence à s'écarter de 0 plus tôt, mais plus lentement, et s'approche de 1, puis tourne brusquement.β1 ≈1.7
Quelques autres choses peuvent être dites sur les fonctions de liaison. Premièrement, considérer la fonction d'identité ( ) comme une fonction de lien nous permet de comprendre le modèle linéaire standard comme un cas particulier du modèle linéaire généralisé (en d'autres termes, la distribution de la réponse est normale et le lien est le fonction d'identité). Il est également important de reconnaître que quelle que soit la transformation que le lien instancie est correctement appliquée au paramètre régissant la distribution de la réponse (c'est-à-dire, µ ), et non aux données de réponse réelles .g(η)=η μ . Enfin, parce que dans la pratique, nous n’avons jamais le paramètre sous-jacent à transformer, dans les discussions sur ces modèles, ce qui est considéré comme étant le lien réel reste implicite et le modèle est représenté par l’ inverse de la fonction de lien appliquée au composant structurel. . Soit:
Par exemple, la régression logistique est généralement représentée: π ( Y ) = exp ( β 0 + β 1 X ).
Pour un aperçu rapide et clair, mais solide, du modèle linéaire généralisé, voir le chapitre 10 de Fitzmaurice, Laird, & Ware (2004) (sur lequel je me suis penché pour une partie de cette réponse, bien que ceci soit ma propre adaptation de celui-ci. --et autre - matériel, toute erreur serait la mienne). Pour savoir comment adapter ces modèles dans R, consultez la documentation de la fonction ? Glm dans le package de base.
(+1 à @vinux et @Elvis. Ici, j’ai essayé de fournir un cadre plus large pour réfléchir à ces questions, puis de l’utiliser pour aborder le choix entre logit et probit.)
la source
En plus de la réponse de vinux, qui dit déjà le plus important:
la source
Concernant votre déclaration
Je suis plus intéressé à savoir quand utiliser la régression logistique et quand utiliser le probit
De nombreuses réponses apportent déjà des éléments à prendre en compte lors du choix entre les deux, mais il y a un élément important à prendre en compte qui n'a pas encore été précisé: lorsque vous souhaitez examiner les associations au sein d'une grappe dans des données binaires à l'aide d'effets logistiques ou logiques à effets mixtes. modèles probit, il existe une base théorique pour préférer le modèle probit. Ceci, bien sûr, suppose qu’il n’ya aucune raison a priori de préférer le modèle logistique (par exemple, si vous faites une simulation et que vous savez que c’est le vrai modèle).
Pearson (1900) a montré que si des données normales multivariées étaient générées et catégorisées, les corrélations entre les variables sous-jacentes étaient toujours statistiquement identifiées - ces corrélations étaient appelées corrélations polychoriques et, en fonction du cas binaire, appelées corrélations tétrachoriques . Cela signifie que, dans un modèle probit, le coefficient de corrélation intraclasse des variables sous-jacentes normalement distribuées:
est identifié, ce qui signifie que dans le cas des probits, vous pouvez entièrement caractériser la distribution conjointe des variables latentes sous-jacentes .
Dans le modèle logistique, la variance à effet aléatoire du modèle logistique est toujours identifiée, mais elle ne caractérise pas complètement la structure de dépendance (et donc la distribution conjointe), car il s'agit d' un mélange entre une variable aléatoire normale et une variable logistique n'ayant pas propriété qu'il est entièrement spécifié par sa moyenne et sa matrice de covariance. En notant cette hypothèse paramétrique étrange pour les variables latentes sous-jacentes, l'interprétation des effets aléatoires dans le modèle logistique est moins claire à interpréter en général.
la source
L’étape de l’estimation est un point important qui n’a pas été abordé dans les réponses (excellentes) précédentes. Les modèles logit multinomiaux ont un fichier PDF facile à intégrer, ce qui conduit à une expression de forme fermée de la probabilité de choix. La fonction de densité de la distribution normale n'étant pas aussi facilement intégrée, les modèles probit nécessitent généralement une simulation. Ainsi, alors que les deux modèles sont des abstractions de situations du monde réel, logit est généralement plus rapide à utiliser pour résoudre des problèmes plus importants (multiples alternatives ou grands ensembles de données).
Aucune forme aussi pratique n'existe pour les modèles probit.
la source
Ce que je vais dire n'invalide en rien ce qui a été dit jusqu'à présent. Je tiens simplement à souligner que les modèles probit ne souffrent pas des hypothèses de l’IIA (Indépendance des alternatives non pertinentes), contrairement au modèle Logit.
Pour utiliser un exemple tiré de l'excellent livre de Train. Si j'ai un logit qui prédit si je vais monter dans le bus bleu ou conduire dans ma voiture, ajouter un bus rouge tirerait à la fois de la voiture et du bus bleu proportionnellement. Mais en utilisant un modèle probit, vous pouvez éviter ce problème. Essentiellement, au lieu de tirer proportionnellement sur les deux, vous pouvez tirer davantage sur les bus bleus car ils sont des substituts plus proches.
Le sacrifice que vous faites est qu'il n'y a pas de solutions de forme fermée, comme indiqué ci-dessus. Probit a tendance à être mon goto quand je suis inquiet pour les problèmes d'IIA. Cela ne veut pas dire qu'il n'y a pas de moyen de contourner l'IIA dans un cadre logit (distributions GEV). Mais j'ai toujours considéré ces types de modèles comme une manière maladroite de résoudre le problème. Avec les vitesses de calcul que vous pouvez obtenir, je dirais aller avec probit.
la source
Une des différences les plus connues entre logit et probit est la distribution (théorique) des résidus de régression: normale pour probit, logistique pour logit (voir: Koop G. Une introduction à l'économétrie, Chichester, Wiley: 2008: 280).
la source
Je propose une réponse pratique à la question, qui se concentre uniquement sur "quand utiliser la régression logistique et quand utiliser le probit", sans entrer dans les détails statistiques, mais plutôt en se concentrant sur les décisions basées sur des statistiques. La réponse dépend de deux choses principales: avez-vous une préférence disciplinaire et ne vous souciez-vous que du modèle qui correspond le mieux à vos données?
Différence de base
Les modèles logit et probit fournissent des modèles statistiques qui donnent la probabilité qu'une variable dépendante soit égale à 0 ou 1. Ils sont très similaires et donnent souvent des résultats pratiquement identiques, mais comme ils utilisent des fonctions différentes pour calculer les probabilités, leurs résultats sont parfois légèrement différents. différent.
Préférence disciplinaire
Certaines disciplines académiques préfèrent généralement l'une ou l'autre. Si vous allez publier ou présenter vos résultats à une discipline académique avec une préférence traditionnelle spécifique, laissez-le alors dicter votre choix afin que vos conclusions soient plus facilement acceptables. Par exemple (de Methods Consultants ),
Le fait est que les différences de résultats sont si minimes que la capacité de votre public général à comprendre vos résultats l'emporte sur les différences mineures entre les deux approches.
Si tout ce qui compte pour vous, c'est un meilleur ajustement ...
Si votre recherche porte sur une discipline qui ne préfère pas l’un ou l’autre, mon étude de cette question (qui est meilleure, logit ou probit) m’a amené à conclure qu’il est généralement préférable d’utiliser le probit , car donner un ajustement statistique aux données égal ou supérieur à celui du modèle logit. L'exception la plus notable lorsque les modèles logit donnent un meilleur ajustement concerne les "variables indépendantes extrêmes" (que j'explique ci-dessous).
Ma conclusion repose presque entièrement (après avoir recherché de nombreuses autres sources) sur Hahn, ED & Soyer, R., 2005. Modèles probit et logit: Différences dans le domaine multivarié. Disponible à l' adresse suivante : http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . Voici mon résumé des conclusions pratiques tirées de cet article sur la question de savoir si les modèles multivariés logit et probit offrent un meilleur ajustement aux données (ces conclusions s'appliquent également aux modèles univariés, mais elles ne simulent des effets que pour deux variables indépendantes):
Dans la plupart des scénarios, les modèles logit et probit correspondent également aux données, à deux exceptions près.
Logit est nettement meilleur dans le cas des "variables indépendantes extrêmes" . Ce sont des variables indépendantes dans lesquelles une valeur particulièrement grande ou petite déterminera très souvent si la variable dépendante est un 0 ou un 1, annulant les effets de la plupart des autres variables. Hahn et Soyer le définissent formellement ainsi (p. 4):
Sur la base de l'analyse de Hahn et Soyer, ma conclusion est de toujours utiliser des modèles probit sauf dans le cas de variables extrêmement extrêmes, auquel cas logit devrait être choisi . Les variables indépendantes extrêmes ne sont pas toutes communes et doivent être assez faciles à reconnaître. Avec cette règle empirique, peu importe que le modèle soit un modèle à effets aléatoires ou non. Dans les cas où un modèle est un modèle à effets aléatoires (où le probit est préféré) mais où il existe des variables indépendantes extrêmes (où le logit est préféré), bien que Hahn et Soyer ne l'aient pas commenté, mon impression de l'article est que l'effet de les variables indépendantes extrêmes sont plus dominantes, donc logit serait préféré.
la source
Ci-dessous, j'explique un estimateur qui installe probit et logit comme cas spéciaux et où l'on peut tester lequel est le plus approprié.
Probit et logit peuvent être imbriqués dans un modèle à variable latente,
où le composant observé est
Dans Klein & Spady, la fonction de critère est plutôt
la source
Ils sont très similaires.
Ou équivalent :
La différence entre logistique et probit réside dans la différence entre la distribution logistique et la distribution normale. Il n'y en a pas beaucoup. Une fois ajustés, ils ressemblent à ça:
La logistique a la queue plus lourde. Cela peut avoir un impact faible sur la manière dont les événements de probabilité faible (<1%) ou élevée (> 99%) sont ajustés. Pratiquement, la différence n’est même pas perceptible dans la plupart des situations: logit et probit prédisent essentiellement la même chose. Voir http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article.
"Philosophiquement", la régression logistique peut être justifiée par son équivalent au principe d'entropie maximale: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropie-modèles /
En termes de calcul: la logistique est plus simple puisque la distribution cumulative de la distribution logistique a une formule fermée contrairement à la distribution normale. Mais les distributions normales ont de bonnes propriétés en multi-dimensionnel, c’est pourquoi le probit est souvent préféré dans les cas avancés.
la source