J'ai récemment reçu la question suivante par e-mail. Je posterai une réponse ci-dessous, mais j'étais intéressé à entendre ce que les autres pensaient.
Diriez-vous que la régression logistique est un test non paramétrique? Je crois comprendre que le simple étiquetage d'un test non paramétrique parce que ses données ne sont pas normalement distribuées, est insuffisant. Son plus à voir avec le manque d'hypothèses. la régression logistique comporte des hypothèses.
hypothesis-testing
logistic
nonparametric
Jeromy Anglim
la source
la source
Réponses:
Larry Wasserman définit un modèle paramétrique comme un ensemble de distributions "qui peuvent être paramétrées par un nombre fini de paramètres". (p.87) En revanche, un modèle non paramétrique est un ensemble de distributions qui ne peut pas être paramétré par un nombre fini de paramètres.
Ainsi, selon cette définition , la régression logistique standard est un modèle paramétrique. Le modèle de régression logistique est paramétrique car il possède un ensemble fini de paramètres. Plus précisément, les paramètres sont les coefficients de régression. Celles-ci correspondent généralement à un pour chaque prédicteur plus une constante. La régression logistique est une forme particulière du modèle linéaire généralisé. Plus précisément, cela implique l'utilisation d'une fonction de lien logit pour modéliser des données distribuées de façon binomiale.
Fait intéressant, il est possible d'effectuer une régression logistique non paramétrique (par exemple, Hastie, 1983). Cela peut impliquer l'utilisation de splines ou d'une forme de lissage non paramétrique pour modéliser l'effet des prédicteurs.
Les références
la source
Je dirais que la régression logistique n'est pas du tout un test; cependant une régression logistique peut alors conduire à aucun test ou à plusieurs tests.
Vous avez tout à fait raison de dire que l'étiquetage de quelque chose de non paramétrique parce que ce n'est pas normal est insuffisant. J'appellerais la famille exponentielle explicitement paramétrique, donc je considère généralement la régression logistique (et la régression de Poisson et la régression Gamma et ...) comme paramétrique, bien qu'il puisse y avoir des circonstances dans lesquelles je pourrais accepter un argument selon lequel des régressions logistiques particulières pourraient être considéré comme non paramétrique (ou du moins dans un sens vaguement ondulé à la main, seulement quasi-paramétrique).
Attention à toute confusion sur les deux sens dans lesquels une régression peut être qualifiée de non paramétrique.
Les deux sens sont utilisés, mais lorsqu'il s'agit de régression, le deuxième type est en fait utilisé plus souvent.
Il est également possible d'être non paramétrique dans les deux sens, mais plus difficile (avec des données suffisantes, je pourrais, par exemple, ajuster une régression linéaire pondérée localement de Theil).
Dans le cas des GLM, la deuxième forme de régression multiple non paramétrique comprend les GAM; cette deuxième forme est le sens dans lequel Hastie opère généralement (et sous lequel il opère dans cette citation).
la source
Une distinction utile qui pourrait ajouter un peu aux réponses ci-dessus: Andrew Ng donne une heuristique pour ce que signifie être un modèle non paramétrique dans la leçon 1 à partir des supports de cours du cours CS-229 de Stanford sur l'apprentissage automatique.
Là, Ng dit (pp. 14-15):
Je pense que c'est une manière contrastée utile d'y penser car elle insuffle directement la notion de complexité. Les modèles non paramétriques ne sont pas intrinsèquement moins complexes, car ils peuvent nécessiter de conserver beaucoup plus de données d'entraînement. Cela signifie simplement que vous ne réduisez pas votre utilisation des données d'entraînement en les compressant dans un calcul paramétré de manière finie. Pour l'efficacité ou l'impartialité ou une foule d'autres propriétés, vous souhaiterez peut-être paramétrer. Mais il peut y avoir des gains de performances si vous pouvez vous permettre de renoncer au paramétrage et de conserver beaucoup de données.
la source
Je pense que la régression logistique est une technique paramétrique.
Cela pourrait être utile, d'après Wolfowitz (1942) [Fonctions de partition additives et classe d'hypothèses statistiques The Annals of Mathematical Statistics, 1942, 13, 247-279]:
De plus, ayant entendu ce sujet beaucoup discuté, j'ai trouvé cela amusant de Noether (1984) [Non paramétrique: Les premières années-Impressions et souvenirs The American Statistician, 1984, 38, 173-178]:
la source
Hastie et Tibshirani définit que la régression linéaire est une approche paramétrique car elle suppose une forme fonctionnelle linéaire de f (X). Les méthodes non paramétriques ne prennent pas explicitement la forme de f (X). Cela signifie qu'une méthode non paramétrique s'adaptera au modèle sur la base d'une estimation de f, calculée à partir du modèle. La régression logistique établit que p (x) = Pr (Y = 1 | X = x) où la probabilité est calculée par la fonction logistique mais la frontière logistique qui sépare ces classes n'est pas supposée, ce qui confirme que LR est également non paramétrique
la source