La régression logistique est-elle un test non paramétrique?

15

J'ai récemment reçu la question suivante par e-mail. Je posterai une réponse ci-dessous, mais j'étais intéressé à entendre ce que les autres pensaient.

Diriez-vous que la régression logistique est un test non paramétrique? Je crois comprendre que le simple étiquetage d'un test non paramétrique parce que ses données ne sont pas normalement distribuées, est insuffisant. Son plus à voir avec le manque d'hypothèses. la régression logistique comporte des hypothèses.

Jeromy Anglim
la source
7
(+1) Pour mémoire - et comme contrepoint aux affirmations de la question - je ne connais aucune référence fiable qui définit (ou même caractérise) les méthodes non paramétriques comme «manquant d'hypothèses». Toutes les procédures statistiques font des hypothèses. La plupart des procédures non paramétriques émettent en fait des hypothèses quantitatives restrictives sur les distributions de probabilité sous-jacentes, mais ces hypothèses ne limitent pas les états de fait possibles à un ensemble qui a la structure d'une variété réelle de dimension finie.
whuber
Si nous parlons de régression logistique linéaire (qui semble être implicite, sur la base de la réponse que vous avez écrite), il s'agit bien sûr d'un modèle paramétrique, mais il convient de noter que si vous ajustez l'effet de covariable à l'aide d'une fonction lisse non paramétrique, par exemple alors il n'y a pas de contraintes paramétriques sur la probabilité estimée en fonction dex. Ce n'est pas seulement vrai pour le lien logistique; la même logique s'applique à toute fonction de liaison inversible.
Journal(P(Ouije=1|Xje=X)P(Ouije=0|Xje=X))=F(X)
X
Macro
Je pose une question connexe ici . Je commence à avoir le sentiment que certains cas de GLM (par exemple un modèle logistique) fournissent un test non paramétrique. Je vais me pencher sur le livre de Wasserman, bien que (à moins que je ne me souvienne mal) il y a un certain désaccord sur certains des principes et des conclusions de son travail.
AdamO

Réponses:

19

Larry Wasserman définit un modèle paramétrique comme un ensemble de distributions "qui peuvent être paramétrées par un nombre fini de paramètres". (p.87) En revanche, un modèle non paramétrique est un ensemble de distributions qui ne peut pas être paramétré par un nombre fini de paramètres.

Ainsi, selon cette définition , la régression logistique standard est un modèle paramétrique. Le modèle de régression logistique est paramétrique car il possède un ensemble fini de paramètres. Plus précisément, les paramètres sont les coefficients de régression. Celles-ci correspondent généralement à un pour chaque prédicteur plus une constante. La régression logistique est une forme particulière du modèle linéaire généralisé. Plus précisément, cela implique l'utilisation d'une fonction de lien logit pour modéliser des données distribuées de façon binomiale.

Fait intéressant, il est possible d'effectuer une régression logistique non paramétrique (par exemple, Hastie, 1983). Cela peut impliquer l'utilisation de splines ou d'une forme de lissage non paramétrique pour modéliser l'effet des prédicteurs.

Les références

  • Wasserman, L. (2004). Toutes les statistiques: un cours concis d'inférence statistique. Springer Verlag.
  • Hastie, T. (1983). Régression logistique non paramétrique. SLAC PUB-3160, juin. PDF
Jeromy Anglim
la source
Un modèle est un ensemble de distributions? Il manque quelque chose d'essentiel.
rolando2
Est-il habituel de poser une question et d'y répondre vous-même?
1
@fcop c'est encouragé. blog.stackoverflow.com/2011/07/…
Jeromy Anglim
Ok désolé, je ne savais pas
Pas de soucis. Pour moi, le point principal du site est de créer des ressources que les autres découvrent lorsqu'ils recherchent des réponses à l'avenir. La contribution de vos propres réponses aide à tout cela.
Jeromy Anglim
16

Je dirais que la régression logistique n'est pas du tout un test; cependant une régression logistique peut alors conduire à aucun test ou à plusieurs tests.

Vous avez tout à fait raison de dire que l'étiquetage de quelque chose de non paramétrique parce que ce n'est pas normal est insuffisant. J'appellerais la famille exponentielle explicitement paramétrique, donc je considère généralement la régression logistique (et la régression de Poisson et la régression Gamma et ...) comme paramétrique, bien qu'il puisse y avoir des circonstances dans lesquelles je pourrais accepter un argument selon lequel des régressions logistiques particulières pourraient être considéré comme non paramétrique (ou du moins dans un sens vaguement ondulé à la main, seulement quasi-paramétrique).

Attention à toute confusion sur les deux sens dans lesquels une régression peut être qualifiée de non paramétrique.

XyX

yX

Les deux sens sont utilisés, mais lorsqu'il s'agit de régression, le deuxième type est en fait utilisé plus souvent.

Il est également possible d'être non paramétrique dans les deux sens, mais plus difficile (avec des données suffisantes, je pourrais, par exemple, ajuster une régression linéaire pondérée localement de Theil).

Dans le cas des GLM, la deuxième forme de régression multiple non paramétrique comprend les GAM; cette deuxième forme est le sens dans lequel Hastie opère généralement (et sous lequel il opère dans cette citation).

Glen_b -Reinstate Monica
la source
3

Une distinction utile qui pourrait ajouter un peu aux réponses ci-dessus: Andrew Ng donne une heuristique pour ce que signifie être un modèle non paramétrique dans la leçon 1 à partir des supports de cours du cours CS-229 de Stanford sur l'apprentissage automatique.

Là, Ng dit (pp. 14-15):

θjeθjeh

Je pense que c'est une manière contrastée utile d'y penser car elle insuffle directement la notion de complexité. Les modèles non paramétriques ne sont pas intrinsèquement moins complexes, car ils peuvent nécessiter de conserver beaucoup plus de données d'entraînement. Cela signifie simplement que vous ne réduisez pas votre utilisation des données d'entraînement en les compressant dans un calcul paramétré de manière finie. Pour l'efficacité ou l'impartialité ou une foule d'autres propriétés, vous souhaiterez peut-être paramétrer. Mais il peut y avoir des gains de performances si vous pouvez vous permettre de renoncer au paramétrage et de conserver beaucoup de données.

ely
la source
0

Je pense que la régression logistique est une technique paramétrique.

Cela pourrait être utile, d'après Wolfowitz (1942) [Fonctions de partition additives et classe d'hypothèses statistiques The Annals of Mathematical Statistics, 1942, 13, 247-279]:

"Les fonctions de distribution [note: pluriel !!!] des différentes variables stochastiques qui entrent dans leurs problèmes sont supposées être de forme fonctionnelle connue, et les théories de l'estimation et des hypothèses de test sont des théories de l'estimation et du test des hypothèses sur , un ou plusieurs paramètres, en nombre fini, dont la connaissance déterminerait complètement les différentes fonctions de distribution impliquées. Pour plus de brièveté, nous désignerons cette situation comme le cas paramétrique et nous désignerons la situation opposée, où les formes fonctionnelles des distributions sont inconnues », comme le cas non paramétrique.

De plus, ayant entendu ce sujet beaucoup discuté, j'ai trouvé cela amusant de Noether (1984) [Non paramétrique: Les premières années-Impressions et souvenirs The American Statistician, 1984, 38, 173-178]:

"Le terme non paramétrique peut avoir une certaine signification historique et une signification pour les statisticiens théoriques, mais il ne sert qu'à confondre les statisticiens appliqués."

AndyF
la source
0

Hastie et Tibshirani définit que la régression linéaire est une approche paramétrique car elle suppose une forme fonctionnelle linéaire de f (X). Les méthodes non paramétriques ne prennent pas explicitement la forme de f (X). Cela signifie qu'une méthode non paramétrique s'adaptera au modèle sur la base d'une estimation de f, calculée à partir du modèle. La régression logistique établit que p (x) = Pr (Y = 1 | X = x) où la probabilité est calculée par la fonction logistique mais la frontière logistique qui sépare ces classes n'est pas supposée, ce qui confirme que LR est également non paramétrique

Juan Zamora
la source