Différence entre les modèles logit et probit

299

Quelle est la différence entre les modèles Logit et Probit ?

Je suis plus intéressé par savoir quand utiliser la régression logistique et quand utiliser Probit.

S'il existe une littérature qui le définit en utilisant R , cela serait également utile.

r generalized-linear-model logistic probit link-function Bêta
la source

5

Il n'y a guère de différence entre les résultats des deux (voir Paap & Franses 2000)

1

Auparavant, j’avais un ensemble de données (bio-essai) étendu dans lequel nous pouvions voir que le probit était légèrement mieux ajusté, mais cela n’a pas changé les conclusions.

kjetil b halvorsen

1

@Alyas Shah: et c'est la raison pour laquelle, avec mes données probit, mieux (légèrement) mieux --- car au-dessus d'une certaine dose, la mortalité est de 100% et en deçà d'un seuil, la mortalité est de 0%, nous ne voyons donc pas l'approche lente du logit!

kjetil b halvorsen

3

Pour des données réelles, par opposition aux données générées à partir de logit ou de probit, une approche réfléchie de la question consisterait à effectuer une comparaison de modèle. D'après mon expérience, les données s'appuient rarement sur l'un des deux modèles.

Xi'an

2

J'ai entendu dire que l'utilisation pratique de la distribution logistique tire son origine de sa similitude avec le CDF normal et de sa fonction de distribution cumulative beaucoup plus simple. En effet, le CDF normal contient une intégrale qui doit être évaluée - ce qui, je suppose, était onéreux en terme de calcul à l'époque.

dv_bn

144

Ils diffèrent principalement par la fonction de lien.

$\Pr(Y=1 \mid X) = [1 + e^{-X'\beta}]^{-1}$

Dans Probit: (pdf normal cumulatif) $\Pr(Y=1 \mid X) = \Phi(X'\beta)$

Autrement, la logistique a des queues légèrement plus plates. c'est-à-dire que la courbe probit se rapproche des axes plus rapidement que la courbe logit.

Logit a une interprétation plus facile que le probit. La régression logistique peut être interprétée comme une probabilité de modélisation du journal (c'est-à-dire que ceux qui fument> 25 cigarettes par jour ont six fois plus de risques de mourir avant 65 ans). Habituellement, les gens commencent la modélisation avec logit. Vous pouvez utiliser la valeur de vraisemblance de chaque modèle pour choisir logit vs probit.

vinux
la source

6

Merci pour votre réponse Vinux. Mais je veux aussi savoir quand utiliser logit et utiliser probit. Je sais que logit est plus populaire que probit, et la majorité des cas, nous utilisons la régression logit. Mais il existe des cas où les modèles Probit sont plus utiles. Pouvez-vous s'il vous plaît me dire quels sont ces cas. Et comment distinguer ces cas des cas réguliers.

Bêta

5

Lorsque vous êtes préoccupé par la queue de la courbe, le choix de logit ou de probit est parfois important. Il n'y a pas de règle exacte pour sélectionner probit ou logit. Vous pouvez sélectionner un modèle en examinant la probabilité (ou la log de vraisemblance) ou l'AIC.

vinux

12

Merci pour le conseil! Pouvez-vous préciser comment choisir entre logit et probit? En particulier: (1) Comment savoir si vous vous préoccupez de la partie arrière de la courbe? (2) Comment sélectionner un modèle en examinant la probabilité, le log de vraisemblance ou l'AIC? Que devrais-je examiner en particulier et comment cela devrait-il influencer ma décision quant au modèle à utiliser?

DW

Eh bien, pourriez-vous donner des exemples dans lesquels logit échoue par rapport à probit? Je ne trouve pas ceux que vous avez en tête.

Wok

1

@flies Ici

désigne la transposée de la matrice

.

X^{'}

$X'$

X

$X$

Mathemanic

445

Un modèle linéaire standard (par exemple, un modèle de régression simple) peut être considéré comme comportant deux «parties». Celles-ci sont appelées composant structurel et composant aléatoire . Par exemple:
Les deux premiers termes (c'est-à-dire, ) constituent le composant structural et le (qui indique un terme d'erreur normalement distribué) est le composant aléatoire. Lorsque la variable de réponse n'est pas distribuée normalement (par exemple, si votre variable de réponse est binaire), cette approche peut ne plus être valide. Lemodèle linéaire généralisé

Y = β_{0} + β_{1} X + ε where ε \sim N (0, σ^{2})

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal{N}(0,\sigma^2)$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

ε

$\varepsilon$ (GLiM) a été développé pour traiter de tels cas, et les modèles logit et probit sont des cas spéciaux de GLiM appropriés pour les variables binaires (ou les variables de réponse à plusieurs catégories avec certaines adaptations du processus). Un GLiM comprend trois parties, un composant structurel , une fonction de liaison et une distribution de réponse . Par exemple:

Ici

est à nouveau le composant structurel,

est la fonction de liaison et

g (μ) = β_{0} + β_{1} X

$g(\mu)=\beta_0+\beta_1X$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

g ()

$g()$

μ

$\mu$ est une moyenne d'une distribution de réponse conditionnelle en un point donné de la covariable. La façon dont nous pensons ici à la composante structurelle ne diffère pas vraiment de celle que nous avons avec les modèles linéaires standard; En fait, c'est l'un des grands avantages des GLiM. Parce que pour de nombreuses distributions, la variance est fonction de la moyenne, après avoir ajusté une moyenne conditionnelle (et dans la mesure où vous avez stipulé une distribution de réponse), vous avez automatiquement rendu compte de l'analogue de la composante aléatoire dans un modèle linéaire (NB: cela peut être plus compliqué en pratique).

La fonction de liaison est la clé des GLiM: puisque la distribution de la variable de réponse est non normale, c’est ce qui nous permet de connecter le composant structurel à la réponse - il les «relie» (d'où le nom). C'est également la clé de votre question, car logit et probit sont des liens (comme l'explique @vinux), et la compréhension des fonctions de lien nous permettra de choisir intelligemment quand utiliser lequel. Bien que de nombreuses fonctions de liaison puissent être acceptables, il en existe souvent une qui soit spéciale. Sans vouloir entrer trop loin dans les mauvaises herbes (cela peut être très technique), la moyenne prédite, , ne sera pas nécessairement la même chose que le paramètre de localisation canonique de la distribution de réponse ; la fonction de lien qui les assimile est la fonction de lien canonique $\mu$ . L'avantage de ceci "est qu'il existe une statistique minimale suffisante pour " ( German Rodriguez ). Le lien canonique pour les données de réponse binaires (plus précisément, la distribution binomiale) est le logit. Cependant, de nombreuses fonctions peuvent mapper le composant structurel sur l'intervalle et ainsi être acceptables. le probit est également populaire, mais d’autres options sont parfois utilisées (comme le journal complémentaire, $\beta$ $(0,1)$ $\ln(-\ln(1-\mu))$ , souvent appelé 'cloglog'). Ainsi, il existe de nombreuses fonctions de liaison possibles et le choix de la fonction de liaison peut être très important. Le choix devrait être fait sur la base d'une combinaison de:

Connaissance de la distribution des réponses,
Considérations théoriques, et
Ajustement empirique aux données.

Après avoir couvert un peu de fond conceptuel nécessaire pour comprendre ces idées plus clairement (pardonnez-moi), je vais expliquer comment ces considérations peuvent être utilisées pour guider votre choix de lien. (Permettez-moi de noter que, selon moi, le commentaire de @ David rend bien compte de la raison pour laquelle différents liens sont choisis en pratique .) Pour commencer, si votre variable de réponse est le résultat d'un essai de Bernoulli (c'est-à-dire ou ), votre distribution de réponse binomial, et ce que vous modélisez est la probabilité qu'une observation soit un (c'est-à-dire, ). Par conséquent, toute fonction mappant la droite numérique réelle $0$ $1$ $1$ $\pi(Y=1)$ , à l'intervalle fonctionnera. $(-\infty,+\infty)$ $(0,1)$

Du point de vue de votre théorie de fond, si vous pensez que vos covariables sont directement liées à la probabilité de succès, vous choisirez généralement une régression logistique car il s'agit du lien canonique. Cependant, considérons l'exemple suivant: Il vous est demandé de modéliser high_Blood_Pressureen fonction de certaines covariables. La tension artérielle elle-même est normalement distribuée dans la population (je ne le sais pas vraiment, mais cela semble raisonnable à première vue), néanmoins, les cliniciens l'ont dichotomisée au cours de l'étude (c'est-à-dire qu'ils n'ont enregistré que «l'hypertension artérielle» ou «normale»). ). Dans ce cas, le probit serait préférable a priori pour des raisons théoriques. C'est ce que @Elvis entendait par "votre résultat binaire dépend d'une variable gaussienne cachée".symétrique , si vous croyez que la probabilité de réussite augmente lentement à partir de zéro, mais diminue ensuite plus rapidement à l'approche de l'un, le cloglog est appelé, etc.

Enfin, notez que l'ajustement empirique du modèle aux données ne sera probablement d'aucune aide pour la sélection d'un lien, à moins que la forme des fonctions de lien en question diffère considérablement (les fonctions logit et probit ne diffèrent pas non plus). Par exemple, considérons la simulation suivante:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

Même si nous savons que les données ont été générées par un modèle probit, et que nous disposons de 1 000 points de données, le modèle probit ne donne un meilleur ajustement que 70% du temps, et même dans de très rares cas. Considérons la dernière itération:

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

La raison en est simplement que les fonctions de liaison logit et probit génèrent des sorties très similaires lorsque les mêmes entrées sont données.

Entrez la description de l'image ici

Les fonctions logit et probit sont pratiquement identiques, à la différence que le logit est légèrement plus éloigné des limites quand ils «tournent le coin», comme @vinux l'a déclaré. (Notez que pour obtenir le logit et probit pour aligner de façon optimale, le logit doit être fois la valeur de pente correspondante pour la probit. De plus, je aurais pu déplacé le cloglog sur un peu afin qu'ils déposeraient au - dessus de plus, mais je me suis laissé de côté pour que la silhouette soit plus lisible.) Notez que le cloglog est asymétrique alors que les autres ne le sont pas; il commence à s'écarter de 0 plus tôt, mais plus lentement, et s'approche de 1, puis tourne brusquement. $\beta_1$ $\approx 1.7$

Quelques autres choses peuvent être dites sur les fonctions de liaison. Premièrement, considérer la fonction d'identité ( ) comme une fonction de lien nous permet de comprendre le modèle linéaire standard comme un cas particulier du modèle linéaire généralisé (en d'autres termes, la distribution de la réponse est normale et le lien est le fonction d'identité). Il est également important de reconnaître que quelle que soit la transformation que le lien instancie est correctement appliquée au paramètre régissant la distribution de la réponse (c'est-à-dire, ), et non aux données de réponse réelles . $g(\eta)=\eta$ $\mu$ . Enfin, parce que dans la pratique, nous n’avons jamais le paramètre sous-jacent à transformer, dans les discussions sur ces modèles, ce qui est considéré comme étant le lien réel reste implicite et le modèle est représenté par l’ inverse de la fonction de lien appliquée au composant structurel. . Soit:
Par exemple, la régression logistique est généralement représentée:

μ = g^{- 1} (β_{0} + β_{1} X)

$\mu=g^{-1}(\beta_0+\beta_1X)$

au lieu de:

π (Y) = \frac{\exp (β_{0} + β_{1} X)}{1 + \exp (β_{0} + β_{1} X)}

$\pi(Y)=\frac{\exp(\beta_0+\beta_1X)}{1+\exp(\beta_0+\beta_1X)}$

\ln (\frac{π (Y)}{1 - π (Y)}) = β_{0} + β_{1} X

$\ln\left(\frac{\pi(Y)}{1-\pi(Y)}\right)=\beta_0+\beta_1X$

Pour un aperçu rapide et clair, mais solide, du modèle linéaire généralisé, voir le chapitre 10 de Fitzmaurice, Laird, & Ware (2004) (sur lequel je me suis penché pour une partie de cette réponse, bien que ceci soit ma propre adaptation de celui-ci. --et autre - matériel, toute erreur serait la mienne). Pour savoir comment adapter ces modèles dans R, consultez la documentation de la fonction ? Glm dans le package de base.

$X_1$ $\beta_1$ $\exp(\beta_1)$ $\beta_1\text{ }z$ $z$ $z$

(+1 à @vinux et @Elvis. Ici, j’ai essayé de fournir un cadre plus large pour réfléchir à ces questions, puis de l’utiliser pour aborder le choix entre logit et probit.)

gung
la source

79

Merci les gars. Je suis content que cela se soit bien passé; C’est en fait un bon exemple de la façon dont vous pouvez apprendre des choses sur votre CV en répondant à des questions, ainsi qu’en posant des questions et en lisant les réponses des autres: je connaissais cette information à l’avance, mais pas assez pour pouvoir l’écrire à froid. J'ai donc passé un peu de temps à parcourir mes anciens textes pour comprendre comment organiser le matériel et le présenter clairement, et, ce faisant, consolider ces idées pour moi-même.

gung

6

@gung Merci pour cette explication, c'est l'une des descriptions les plus claires des GLM en général que j'ai rencontrées.

Fmark

X

$X$

7

@landroni, vous pouvez poser une nouvelle question à ce sujet. En bref, si votre réponse est binaire, la distribution conditionnelle de Y étant donné que X = xi ne peut pas s'approcher de la normalité; ce sera toujours binomial. La distribution des résidus bruts ne s'approchera jamais non plus de la normalité. Ils seront toujours pi & (1-pi). La distribution d'échantillonnage de la moyenne conditionnelle de Y donnée X = xi (ie, pi) s'approchera toutefois de la normalité.

gung

2

Je partage un peu l'inquiétude de landroni: après tout, un résultat normalement distribué, des résidus non normalement distribués, et un résultat non normalement distribué peuvent avoir des résidus distribués normalement. Le problème avec le résultat semble porter moins sur sa distribution en soi que sur son étendue.

Alexis

47

En plus de la réponse de vinux, qui dit déjà le plus important:

$\beta$
$Z = X' \beta + \epsilon\$ $\epsilon \sim \mathcal N(0,1)$ $Y = 1$ $Z > 0$
$1$ $Z_0 = X' \beta_0 + \epsilon_0$ $c$ $\epsilon \sim \mathcal N(0,\sigma^2)$ $Z_0$ $Z = {1\over \sigma}(Z_0-c)$ $Z_0$ $Y$ $Z_0$

$X$ $Y$

Elvis
la source

17

Il convient également de noter que l'utilisation de modèles probit versus logit est fortement influencée par la tradition disciplinaire. Par exemple, les économistes semblent beaucoup plus habitués à l’analyse probit alors que les chercheurs en psychométrie s’appuient principalement sur des modèles logit.

David

Quel est le modèle derrière lancer une pièce de monnaie?

Skan

32

Concernant votre déclaration

Je suis plus intéressé à savoir quand utiliser la régression logistique et quand utiliser le probit

De nombreuses réponses apportent déjà des éléments à prendre en compte lors du choix entre les deux, mais il y a un élément important à prendre en compte qui n'a pas encore été précisé: lorsque vous souhaitez examiner les associations au sein d'une grappe dans des données binaires à l'aide d'effets logistiques ou logiques à effets mixtes. modèles probit, il existe une base théorique pour préférer le modèle probit. Ceci, bien sûr, suppose qu’il n’ya aucune raison a priori de préférer le modèle logistique (par exemple, si vous faites une simulation et que vous savez que c’est le vrai modèle).

$i$ $j$

y_{i j}^{⋆} = μ + η_{j} + ε_{i j}

$y^{\star}_{ij} = \mu + \eta_{j} + \varepsilon_{ij}$

$\eta_j \sim N(0,\sigma^2)$ $j$ $\varepsilon_{ij}$

y_{i j} = {\begin{cases} 1 & if y_{i j}^{⋆} \geq 0 \\ 0 & if y_{i j}^{⋆} < 0 \end{cases}

$y_{ij} = \begin{cases} 1 & \text{if} \ \ \ y^{\star}_{ij}≥0\\ \\ 0 &\text{if} \ \ \ y^{\star}_{ij}<0 \end{cases}$

$\varepsilon_{ij}$

Pearson (1900) a montré que si des données normales multivariées étaient générées et catégorisées, les corrélations entre les variables sous-jacentes étaient toujours statistiquement identifiées - ces corrélations étaient appelées corrélations polychoriques et, en fonction du cas binaire, appelées corrélations tétrachoriques . Cela signifie que, dans un modèle probit, le coefficient de corrélation intraclasse des variables sous-jacentes normalement distribuées:

I C C = \frac{{\hat{σ}}^{2}}{{\hat{σ}}^{2} + 1}

${\rm ICC} = \frac{ \hat{\sigma}^{2} }{\hat{\sigma}^{2} + 1 }$

est identifié, ce qui signifie que dans le cas des probits, vous pouvez entièrement caractériser la distribution conjointe des variables latentes sous-jacentes .

Dans le modèle logistique, la variance à effet aléatoire du modèle logistique est toujours identifiée, mais elle ne caractérise pas complètement la structure de dépendance (et donc la distribution conjointe), car il s'agit d' un mélange entre une variable aléatoire normale et une variable logistique n'ayant pas propriété qu'il est entièrement spécifié par sa moyenne et sa matrice de covariance. En notant cette hypothèse paramétrique étrange pour les variables latentes sous-jacentes, l'interprétation des effets aléatoires dans le modèle logistique est moins claire à interpréter en général.

Macro
la source

6

Il y a d'autres situations dans lesquelles on préférerait également le probit. Les modèles de sélection économétriques (c.-à-d. Heckman) ne sont éprouvés qu'à l'aide du modèle probit. J'en suis moins sûr, mais je pense également que certains modèles SEM où les variables binaires sont endogènes utilisent également le modèle probit en raison de l'hypothèse d'une normalité multivariée nécessaire pour l'estimation du maximum de vraisemblance.

Andy W

1

@AndyW, vous avez raison en ce qui concerne les SEM binaires - et cela est étroitement lié au point que je viens de dire - l'estimation (et l'interprétation ultérieure) est corroborée par le fait que les corrélations sous-jacentes sont identifiées et caractérisent pleinement la distribution conjointe. .

Macro

29

L’étape de l’estimation est un point important qui n’a pas été abordé dans les réponses (excellentes) précédentes. Les modèles logit multinomiaux ont un fichier PDF facile à intégrer, ce qui conduit à une expression de forme fermée de la probabilité de choix. La fonction de densité de la distribution normale n'étant pas aussi facilement intégrée, les modèles probit nécessitent généralement une simulation. Ainsi, alors que les deux modèles sont des abstractions de situations du monde réel, logit est généralement plus rapide à utiliser pour résoudre des problèmes plus importants (multiples alternatives ou grands ensembles de données).

$x$ $\varepsilon$

P = \int I [ε > - β^{'} x] f (ε) d ε

$P = \int I[\varepsilon > -\beta'x] f(\varepsilon)d\varepsilon$

I

$I$

f (x)

$f(x)$

P = \int_{ε = - β^{'} x}^{\infty} f (ε) d ε = 1 - F (- β^{'} x) = 1 - \frac{1}{\exp (β^{'} x)}

$P=\int_{\varepsilon=-\beta'x}^{\infty} f(\varepsilon)d\varepsilon\\ = 1- F(-\beta'x) = 1-\dfrac{1}{\exp(\beta'x)}$

Aucune forme aussi pratique n'existe pour les modèles probit.

gregmacfarlane
la source

4

C'est pourquoi les fonctions logit multinomiales sont classiquement utilisées pour estimer les problèmes de choix discrets spatiaux, même si le phénomène réel est mieux modélisé par un probit.

Fmark

Comment incorporeriez-vous des éléments spatiaux dans un modèle DC? Je suis très intéressé.

gregmacfarlane

2

Mais, dans la situation de choix, le probit est plus flexible, donc utilisé plus aujourd’hui! logit multinomial implique l'hypothèse de la non-pertinence d'alternatives non pertinentes, qui ne sont pas toujours justifiées empiriquement.

kjetil b halvorsen

1

Vous avez raison de dire que l'IIA n'est pas toujours justifié et que, avec les estimateurs modernes, les modèles probit peuvent être estimés raisonnablement rapidement. Mais les modèles GEV résolvent le problème des IIA et pourraient mieux représenter la structure de choix dans certaines situations. Je ne suis pas sûr non plus que le probit soit "plus utilisé aujourd'hui"; dans mon domaine (modélisation du transport), les modèles probit restent une nouveauté.

gregmacfarlane

13

Ce que je vais dire n'invalide en rien ce qui a été dit jusqu'à présent. Je tiens simplement à souligner que les modèles probit ne souffrent pas des hypothèses de l’IIA (Indépendance des alternatives non pertinentes), contrairement au modèle Logit.

Pour utiliser un exemple tiré de l'excellent livre de Train. Si j'ai un logit qui prédit si je vais monter dans le bus bleu ou conduire dans ma voiture, ajouter un bus rouge tirerait à la fois de la voiture et du bus bleu proportionnellement. Mais en utilisant un modèle probit, vous pouvez éviter ce problème. Essentiellement, au lieu de tirer proportionnellement sur les deux, vous pouvez tirer davantage sur les bus bleus car ils sont des substituts plus proches.

Le sacrifice que vous faites est qu'il n'y a pas de solutions de forme fermée, comme indiqué ci-dessus. Probit a tendance à être mon goto quand je suis inquiet pour les problèmes d'IIA. Cela ne veut pas dire qu'il n'y a pas de moyen de contourner l'IIA dans un cadre logit (distributions GEV). Mais j'ai toujours considéré ces types de modèles comme une manière maladroite de résoudre le problème. Avec les vitesses de calcul que vous pouvez obtenir, je dirais aller avec probit.

utilisateur61417
la source

1

Pourriez-vous expliquer "l'indépendance des alternatives non pertinentes", s'il vous plaît?

Skan

3

Notez qu'il est toujours possible d'estimer un modèle probit multinomial qui applique une variante de l'hypothèse IIA (comme dans la commande mprobit dans Stata). Afin de supprimer IIA dans les probits multinomiaux, vous devez modéliser la matrice de variance-covariance des erreurs de variable latente pour chaque alternative de la variable de réponse.

Kenji

8

Une des différences les plus connues entre logit et probit est la distribution (théorique) des résidus de régression: normale pour probit, logistique pour logit (voir: Koop G. Une introduction à l'économétrie, Chichester, Wiley: 2008: 280).

Carlo Lazzaro
la source

2

mais comment savoir si nos données doivent avoir une distribution théorique normale ou résiduelle logistique?, par exemple lorsque je lance une pièce de monnaie.

Skan

8

Je propose une réponse pratique à la question, qui se concentre uniquement sur "quand utiliser la régression logistique et quand utiliser le probit", sans entrer dans les détails statistiques, mais plutôt en se concentrant sur les décisions basées sur des statistiques. La réponse dépend de deux choses principales: avez-vous une préférence disciplinaire et ne vous souciez-vous que du modèle qui correspond le mieux à vos données?

Différence de base

Les modèles logit et probit fournissent des modèles statistiques qui donnent la probabilité qu'une variable dépendante soit égale à 0 ou 1. Ils sont très similaires et donnent souvent des résultats pratiquement identiques, mais comme ils utilisent des fonctions différentes pour calculer les probabilités, leurs résultats sont parfois légèrement différents. différent.

Préférence disciplinaire

Certaines disciplines académiques préfèrent généralement l'une ou l'autre. Si vous allez publier ou présenter vos résultats à une discipline académique avec une préférence traditionnelle spécifique, laissez-le alors dicter votre choix afin que vos conclusions soient plus facilement acceptables. Par exemple (de Methods Consultants ),

Logit - également connu sous le nom de régression logistique - est plus populaire dans les sciences de la santé comme l'épidémiologie en partie parce que les coefficients peuvent être interprétés en termes de rapports de cotes. Les modèles probit peuvent être généralisés pour tenir compte des variances d'erreur non constantes dans des paramètres économétriques plus avancés (connus sous le nom de modèles probit hétéroskédastiques) et sont donc utilisés dans certains contextes par des économistes et des politologues.

Le fait est que les différences de résultats sont si minimes que la capacité de votre public général à comprendre vos résultats l'emporte sur les différences mineures entre les deux approches.

Si tout ce qui compte pour vous, c'est un meilleur ajustement ...

Si votre recherche porte sur une discipline qui ne préfère pas l’un ou l’autre, mon étude de cette question (qui est meilleure, logit ou probit) m’a amené à conclure qu’il est généralement préférable d’utiliser le probit , car donner un ajustement statistique aux données égal ou supérieur à celui du modèle logit. L'exception la plus notable lorsque les modèles logit donnent un meilleur ajustement concerne les "variables indépendantes extrêmes" (que j'explique ci-dessous).

Ma conclusion repose presque entièrement (après avoir recherché de nombreuses autres sources) sur Hahn, ED & Soyer, R., 2005. Modèles probit et logit: Différences dans le domaine multivarié. Disponible à l' adresse suivante : http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . Voici mon résumé des conclusions pratiques tirées de cet article sur la question de savoir si les modèles multivariés logit et probit offrent un meilleur ajustement aux données (ces conclusions s'appliquent également aux modèles univariés, mais elles ne simulent des effets que pour deux variables indépendantes):

Dans la plupart des scénarios, les modèles logit et probit correspondent également aux données, à deux exceptions près.
Logit est nettement meilleur dans le cas des "variables indépendantes extrêmes" . Ce sont des variables indépendantes dans lesquelles une valeur particulièrement grande ou petite déterminera très souvent si la variable dépendante est un 0 ou un 1, annulant les effets de la plupart des autres variables. Hahn et Soyer le définissent formellement ainsi (p. 4):

Un niveau variable indépendant extrême implique la con ﬂ ue de trois événements. Tout d'abord, un niveau de variable indépendante extrême se produit à l'extrémité supérieure ou inférieure d'une variable indépendante. Par exemple, supposons que la variable indépendante x prenne les valeurs 1, 2 et 3.2. Le niveau de variable indépendante extrême impliquerait les valeurs à x = 3.2 (ou x = 1). Deuxièmement, une proportion substantielle (par exemple 60%) du total n doit être à ce niveau. Troisièmement, la probabilité de succès à ce niveau devrait elle-même être extrême (par exemple supérieure à 99%).

Probit est meilleur dans le cas de "modèles à effets aléatoires" avec des échantillons de taille moyenne ou grande (il est égal à logit pour des échantillons de petite taille). Pour les modèles à effets fixes, probit et logit sont également bons. Je ne comprends pas vraiment ce que Hahn et Soyer entendent par "modèles à effets aléatoires" dans leur article. Bien que de nombreuses définitions soient proposées ( comme dans cette question sur Stack Exchange ), la définition du terme est en fait ambiguë et incohérente. . Mais comme logit n’est jamais supérieur au probit à cet égard, il suffit de choisir le probit pour rendre la discussion sans objet.

Sur la base de l'analyse de Hahn et Soyer, ma conclusion est de toujours utiliser des modèles probit sauf dans le cas de variables extrêmement extrêmes, auquel cas logit devrait être choisi . Les variables indépendantes extrêmes ne sont pas toutes communes et doivent être assez faciles à reconnaître. Avec cette règle empirique, peu importe que le modèle soit un modèle à effets aléatoires ou non. Dans les cas où un modèle est un modèle à effets aléatoires (où le probit est préféré) mais où il existe des variables indépendantes extrêmes (où le logit est préféré), bien que Hahn et Soyer ne l'aient pas commenté, mon impression de l'article est que l'effet de les variables indépendantes extrêmes sont plus dominantes, donc logit serait préféré.

Tripartio
la source

5

Ci-dessous, j'explique un estimateur qui installe probit et logit comme cas spéciaux et où l'on peut tester lequel est le plus approprié.

Probit et logit peuvent être imbriqués dans un modèle à variable latente,

y_{je}^{*} = X_{je} β + ε_{je}, ε_{je} ~ g (\cdot),

$y_i^* = x_i \beta + \varepsilon_i,\quad \varepsilon_i \sim G(\cdot),$

où le composant observé est

y_{je} = 1 (y_{je}^{*} > 0) .

$y_i = \mathbb{1}(y_i^* > 0).$

$G$

ℓ (β) = y_{je} bûche g (X_{je} β) + (1 - y_{je}) bûche [1 - g (X_{je} β)] .

$\ell(\beta) = y_i \log G(x_i\beta) + (1-y_i) \log[1-G(x_i\beta)].$

$G$ , et vous pourrez alors même ultérieurement tester la validité de la normalité ou de la logistique (?).

Dans Klein & Spady, la fonction de critère est plutôt

ℓ (β) = y_{je} bûche \hat{g} (X_{je} β) + (1 - y_{je}) bûche [1 - \hat{g} (X_{je} β)],

$\ell(\beta) = y_i \log \hat{G}(x_i\beta) + (1-y_i) \log[1-\hat{G}(x_i\beta)],$

$\hat{G}(\cdot)$

\hat{G} (z) = \sum_{i = 1}^{N} y_{i} \frac{K (\frac{z - x_{i} β}{h})}{\sum_{j = 1}^{N} K (\frac{z - x_{j} β}{h})},

$\hat{G}(z) = \sum_{i=1}^N y_i \frac{ K\left( \frac{z - x_i\beta}{h} \right)}{\sum_{j=1}^N K\left( \frac{z - x_j\beta}{h} \right)},$

$K$ $h$ $\beta$ $h$ $h$

$\hat{G}$ $i$ $h$

$G$ $\beta$ $G$

Superpronker
la source

5

Ils sont très similaires.

$Y=1$ $X$ $S$ $X$

P (Y = 1 | X) = P (S < β X)

$P(Y=1|X)=P(S<\beta X)$

Ou équivalent :

P (Y = 1 | X) = P (β X - S > 0)

$P(Y=1|X)=P(\beta X-S>0)$

$S$

$S$
$S$

$\beta$

$E=\beta X-S$ $X$ $-S$

$E>0$ $Y=1$
$E<0$ $Y=0$

La différence entre logistique et probit réside dans la différence entre la distribution logistique et la distribution normale. Il n'y en a pas beaucoup. Une fois ajustés, ils ressemblent à ça:

La logistique a la queue plus lourde. Cela peut avoir un impact faible sur la manière dont les événements de probabilité faible (<1%) ou élevée (> 99%) sont ajustés. Pratiquement, la différence n’est même pas perceptible dans la plupart des situations: logit et probit prédisent essentiellement la même chose. Voir http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article.

"Philosophiquement", la régression logistique peut être justifiée par son équivalent au principe d'entropie maximale: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropie-modèles /

En termes de calcul: la logistique est plus simple puisque la distribution cumulative de la distribution logistique a une formule fermée contrairement à la distribution normale. Mais les distributions normales ont de bonnes propriétés en multi-dimensionnel, c’est pourquoi le probit est souvent préféré dans les cas avancés.

Benoit Sanchez
la source

Différence entre les modèles logit et probit

Réponses: