La fonction logit est-elle toujours la meilleure pour la modélisation de régression des données binaires?

15

J'ai pensé à ce problème. La fonction logistique habituelle pour la modélisation des données binaires est: Cependant, la fonction logit, qui est une courbe en forme de S , toujours le meilleur pour modéliser les données? Vous avez peut-être des raisons de croire que vos données ne suivent pas la courbe en S normale mais un type de courbe différent avec le domaine .

Journal(p1-p)=β0+β1X1+β2X2+
(0,1)

Y a-t-il des recherches à ce sujet? Vous pouvez peut-être le modéliser comme une fonction probit ou quelque chose de similaire, mais que se passe-t-il si c'est autre chose entièrement? Cela pourrait-il conduire à une meilleure estimation des effets? Juste une pensée que j'ai eue, et je me demande s'il y a des recherches à ce sujet.

Glen
la source
2
@macro Je ne pense pas que ce soit un doublon exact. Cette question concerne simplement le logit et le probit; celui-ci demande également d'autres alternatives.
Peter Flom - Réintègre Monica
Je vote pour laisser cela ouvert. La principale différence que je vois est que ce Q demande des recherches en statistiques sur le thème des différentes fonctions de liaison possibles. C'est une différence subtile, mais cela peut suffire. @Glen, vous voudrez peut-être revoir l'autre Q, si vous ne l'avez pas déjà vu. Dans ma réponse, je parle de différents liens possibles. Si vous pensez que ce Q n'est pas vraiment différent, signalez-le et les mods peuvent le fermer; si vous pouvez penser à un moyen de faire la distinction b / t ce que vous demandez et que Q plus clair, vous voudrez peut-être éditer pour le faire.
gung - Rétablir Monica
Je sais que ce n'est pas un double exact de la question logit vs probit mais je pensais que la réponse de gung, qui allait au-delà de ce qui était demandé par la question liée, répond à la plupart de ce qui a été demandé ici, c'est pourquoi j'ai fermé en double. Il existe probablement d'autres fils étroitement liés, mais c'est le premier qui m'est venu à l'esprit.
Macro
Merci pour les commentaires. Je pense que ma question est différente de la question précédente. Je connais très bien les transformations probit et log-log, et la discussion de la question précédente a été très informative pour moi. Cependant, je m'intéresse aux autres fonctions de liaison (éventuellement non paramétriques?) Qui sont possibles, dans une situation que vous pourriez ou non avoir connaissance que la courbe de probabilité suit une distribution différente. Je pense que lorsque des interactions sont impliquées entre les covariables, cela pourrait jouer un rôle important. La réponse de @David J. Harris est également utile ...
Glen

Réponses:

15

Les gens utilisent toutes sortes de fonctions pour garder leurs données entre 0 et 1. Les cotes logarithmiques tombent naturellement du calcul lorsque vous dérivez le modèle (on l'appelle la "fonction de lien canonique"), mais vous êtes absolument libre d'expérimenter avec d'autres alternatives.

Comme Macro l'a mentionné dans son commentaire sur votre question, un choix commun est un modèle probit , qui utilise la fonction quantile d'un gaussien au lieu de la fonction logistique. J'ai également entendu de bonnes choses à propos de l'utilisation de la fonction quantile de la distribution d'un étudiant , même si je ne l'ai jamais essayée.t

tttsept

J'espère que cela t'aides.

Modifié pour ajouter : La discussion liée à @Macro est vraiment excellente. Je vous recommande fortement de le lire si vous êtes intéressé par plus de détails.

David J. Harris
la source
La question porte spécifiquement sur les "données binaires" - pas sur les données comprises entre 0 et 1. Le modèle probit n'a aucune justification théorique dans le cas des données binaires.
Neil G
3
@NeilG, l'une des raisons d'utiliser le modèle probit est qu'il offre un moyen pratique de modéliser des données binaires multivariées (par exemple avec un modèle mixte) en tant que normales seuillées. Dans ce cas, la matrice de corrélation des variables sous-jacentes est statistiquement identifiable, alors qu'elle ne l'est pas dans le cas logistique. Il y a une discussion un peu plus longue ici .
Macro
@Macro: Oh, je vois. C'est très intéressant, merci.
Neil G
@David J.Harris: Voulez-vous dire quintile (ou peut-être que le quantile a la même signification), c'est-à-dire décomposer la distribution en morceaux de quintes: 20%, 40%, .., 100%?
MSIS
1
@MSIS un quintile se divise en cinquièmes, un centile se divise en 100ièmes et un quartile se divise en unités arbitraires Voir en.wikipedia.org/wiki/Quantile#Specialized_quantiles
David J. Harris
11

Je ne vois aucune raison, a priori, pour laquelle la fonction de lien appropriée pour un ensemble de données donné doit être le logit (bien que l'univers semble être plutôt gentil avec nous en général). Je ne sais pas si ce sont tout à fait ce que vous recherchez, mais voici quelques articles qui discutent des fonctions de lien plus exotiques:

Divulgation: je ne connais pas bien ce matériel. J'ai essayé de jouer avec le Cauchit et le Scobit il y a quelques années, mais mon code a continué de planter (probablement parce que je ne suis pas un grand programmeur), et il ne semblait pas pertinent pour le projet sur lequel je travaillais, alors je l'ai laissé tomber .

X

gung - Réintégrer Monica
la source
4

La meilleure stratégie consiste à modéliser les données à la lumière de ce qui se passe (pas de surprise!)

  • Les modèles Probit proviennent d'études DL50 - vous voulez la dose d'insecticide qui tue la moitié des insectes. La réponse binaire est de savoir si le bogue vit ou meurt (à une dose donnée). Les bogues qui sont sensibles à une dose seront également sensibles à des doses plus faibles, c'est là que l'idée de la modélisation à la normale cumulative entre en jeu.
  • Si les observations binaires viennent en grappes, vous pouvez utiliser un modèle bêta-binomial. Ben Bolker a une bonne introduction dans la documentation de son paquet bbmle (en R) qui l'implémente dans des cas simples. Ces modèles permettent un meilleur contrôle de la variation des données que ce que vous obtenez dans une distribution binomiale.
  • Les données binaires multivariées - le type qui se transforme en tables de contingence multidimensionnelles - peuvent être analysées à l'aide d'un modèle log-linéaire. La fonction de liaison est le journal plutôt que les cotes du journal. Certaines personnes appellent cela la régression de Poisson.

Il n'y a probablement pas de recherche sur ces modèles en tant que tels, bien qu'il y ait eu beaucoup de recherches sur l'un de ces modèles, et sur les comparaisons entre eux, et sur différentes façons de les estimer. Ce que vous trouvez dans la littérature, c'est qu'il y a beaucoup d'activité pendant un certain temps, car les chercheurs envisagent un certain nombre d'options pour une classe particulière de problèmes, puis une méthode apparaît comme supérieure.

Placidia
la source
+1 pour le bêta-binôme. C'est un excellent outil à avoir dans sa boîte à outils.
David J. Harris
3

pjepje

Neil G
la source