Pourquoi est-il important de faire une distinction entre régression «linéaire» et «non linéaire»?

12

Quelle est l'importance de la distinction entre modèles linéaires et non linéaires? La question du modèle linéaire non linéaire ou généralisé: comment référez-vous à la régression logistique, Poisson, etc.? et sa réponse a été une clarification extrêmement utile de la linéarité / non-linéarité des modèles linéaires généralisés. Il semble extrêmement important de distinguer les modèles linéaires des modèles non linéaires, mais je ne comprends pas pourquoi. Par exemple, considérez ces modèles de régression:

(1)E[YX]=β0+β1X(2)E[YX]=β0+β1X+β2X2(3)E[YX]=β0+β12X(4)E[YX]={1+exp([β0+β1X]}1

Les modèles 1 et 2 sont linéaires et les solutions à existent sous forme fermée, faciles à trouver à l'aide d'un estimateur OLS standard. Ce n'est pas le cas pour les modèles 3 et 4, qui sont non linéaires car (certaines) les dérivées de E [ Y X ] par rapport à β sont toujours des fonctions de β .βE[YX]ββ

Une solution simple pour estimer dans le modèle 3 consiste à linéariser le modèle en définissant γ = β 2 1 , à estimer γ à l' aide d'un modèle linéaire, puis à calculer β 1 = β1γ=β12γ .β1=γ

Pour estimer les paramètres du modèle 4, nous pouvons supposer que suit une distribution binomiale (membre de la famille exponentielle) et, en utilisant le fait que la forme logistique du modèle est le lien canonique, linéariser les valeurs rh du modèle. C'était la contribution majeure de Nelder et Wedderburn .Y

Mais pourquoi cette non-linéarité est-elle un problème en premier lieu? Pourquoi ne peut-on pas simplement utiliser un algorithme itératif pour résoudre le modèle 3 sans linéariser à l'aide de la fonction racine carrée, ou le modèle 4 sans invoquer les GLM. Je soupçonne qu'avant la puissance de calcul généralisée, les statisticiens essayaient de tout linéariser. Si c'est vrai, alors peut-être que les "problèmes" introduits par la non-linéarité sont un vestige du passé? Les complications introduites par les modèles non linéaires sont-elles simplement informatiques, ou y a-t-il d'autres problèmes théoriques qui rendent les modèles non linéaires plus difficiles à ajuster aux données que les modèles linéaires?

user1849779
la source
1
Si vous voulez estimer , estimez simplement E [ Y | X ] = β 0 + γ X ( régression linéaire simple ) puis prendre β 1 = E[Y|X]=β0+β12XE[Y|X]=β0+γX ...β1=γ
Tim
@Tim, merci pour le commentaire. J'étais conscient de cette transformation comme une possibilité, mais j'essayais de poser une question quelque peu différente. J'ai considérablement modifié la question, j'espère pour le mieux.
user1849779

Réponses:

5

Je peux voir deux différences principales:

  • la linéarité le rend simple et robuste. Par exemple, l'OLS (linéaire) est un estimateur sans biais sous une distribution de perturbation inconnue. En général, les modèles GLM et non linéaires ne le sont pas. OLS est également robuste pour divers modèles de structure d'erreur (effets aléatoires, regroupement, etc.) où, dans les modèles non linéaires, vous devez généralement assumer la distribution exacte de ces termes.

  • Le résoudre est facile: juste quelques multiplications matricielles + 1 inverse. Cela signifie que vous pouvez presque toujours le résoudre, même dans les cas où la fonction objectif est presque plate (multicolinéarité). Les méthodes itératives peuvent ne pas converger dans de tels cas problématiques (ce qui, dans un sens, est une bonne chose.) Une résolution facile peut ou peut pas moins un problème de nos jours. Les ordinateurs deviennent plus rapides, mais les données augmentent. Avez-vous déjà essayé d'exécuter une régression logit sur des observations 1G?

En plus de cela, les modèles linéaires sont plus faciles à interpréter. Dans les modèles linéaires, les effets marginaux sont égaux aux coefficients et sont indépendants des valeurs X (bien que les termes polynomiaux gâchent cette simplicité.)

Ott Toomet
la source
Je la distinction comme étant principalement une question de commodité ou d'utilisation historique.
Martha
2

De nombreux modèles en biologie (et dans d'autres domaines) ne sont pas linéaires, ils conviennent donc mieux à la régression non linéaire. Le calcul est très différent, bien sûr. Mais du point de vue de l'analyste de données, il n'y a vraiment qu'une seule différence importante.

La régression non linéaire nécessite des valeurs estimées initiales pour chaque paramètre. Si ces estimations initiales sont éloignées, le programme de régression non linéaire peut converger vers un faux minimum et donner des résultats inutiles ou trompeurs.

Harvey Motulsky
la source
2
Cela fait certainement partie de la réponse. Mais, en soutenant que la seule différence est quelque chose qui équivaut à une technicité mineure, vous minimisez peut-être trop les problèmes des modèles non linéaires. Par exemple, certains simples issus de la biologie peuvent avoir des minima locaux très différents, tous proches des minima globaux. Ce problème qualitatif fondamental n'est pas résolu par une puissance de calcul améliorée ou de meilleures techniques d'optimisation: la nature même de nombreux modèles non linéaires est si différente des modèles linéaires qu'ils nécessitent une réflexion approfondie sur leur signification et leur interprétation.
whuber
1

Je vais tout d'abord substituer le mot «modèle» au mot «régression». Je pense que pour les deux mots, on se demande vraiment quelles sont les équations pertinentes qui définissent le modèle et quelles sont les hypothèses pertinentes reliant les valeurs de la variable dépendante et les valeurs prédites par l'équation / modèle. Je pense que le terme «modèle» est plus standard. Si vous êtes d'accord avec cela, lisez la suite.

ϕ1,,ϕnϕ1,,ϕnϕi=xiϵi=yiaijxjest gaussien. À mon humble avis, je pense que wikipedia a une explication très raisonnable des modèles linéaires généraux. Je pense que c'est la phrase clé - "Le GLM généralise la régression linéaire en permettant au modèle linéaire d'être lié à la variable de réponse via une fonction de lien et en permettant que l'amplitude de la variance de chaque mesure soit fonction de sa valeur prédite. " Un glm permet donc un terme d'erreur plus général. Cela permet une plus grande flexibilité dans la modélisation. Le prix ? Calculer le bon modèle est plus difficile. On n'a plus de méthode simple pour calculer les coefficients. Les coefficients d'une régression linéaire peuvent être trouvés en minimisant une fonction quadratique qui a un mimimum unique. Pour reprendre les mots de Borat, pour un clin d'œil, pas tellement. Il faut calculer le mle,

meh
la source
1
Un modèle non linéaire peut également supposer que les résidus sont échantillonnés à partir d'une distribution gaussienne. Un exemple simple est l'activité enzymatique (Y) en fonction de la concentration du substrat (X). Y = Vmax * X / (Km + X) Il est courant et raisonnable de supposer que les résidus sont gaussiens, mais il s'agit d'une équation non linéaire qui correspond à une régression non linéaire.
Harvey Motulsky
2
Les modèles non linéaires comprennent bien plus que les GLM. Les GLM sont populaires car ils sont «presque» linéaires dans les paramètres: toute la non-linéarité se limite à une fonction d'une seule variable, le «lien». Cela permet des solutions relativement efficaces et fiables. D'autres modèles non linéaires sont beaucoup moins maniables. Le concept de linéarité est largement distinct de la nature des résidus, bien que dans certains cas, il soit avantageux de distinguer les résidus additifs des autres formes de variation.
whuber