Lors de la régression polynomiale de sur , les gens utilisent parfois des polynômes bruts, parfois des polynômes orthogonaux. Mais quand ils utilisent ce qui semble complètement arbitraire.
Ici et ici, des polynômes bruts sont utilisés. Mais ici et ici , les polynômes orthogonaux semblent donner les bons résultats. Quoi, comment, pourquoi?!
Contrairement à cela, lors de l'apprentissage de la régression polynomiale à partir d'un manuel (par exemple ISLR ), cela ne mentionne même pas les polynômes bruts ou orthogonaux - seul le modèle à ajuster est donné.
Alors, quand devons-nous utiliser quoi?
Et pourquoi les valeurs p individuelles pour , X 2, etc. diffèrent-elles beaucoup entre ces deux valeurs?
regression
polynomial
l7ll7
la source
la source
Réponses:
Les variables et X 2 ne sont pas linéairement indépendantes. Donc , même s'il n'y a pas d' effet quadratique, en ajoutant X 2 au modèle modifiera l'effet estimé de X .X X2 X2 X
Jetons un coup d'œil avec une simulation très simple.
Maintenant, avec un terme quadratique dans le modèle pour s'adapter.
Bien sûr, le test omnibus est toujours significatif, mais je pense que le résultat que nous recherchons n'est pas celui-ci. La solution est d'utiliser des polynômes orthogonaux.
Notez que les coefficients de
x
dans le premier modèle et depoly(x,2)1
dans le deuxième modèle ne sont pas égaux, et même les intersections sont différentes. En effet,poly
fournit des vecteurs orthonormaux, qui sont également orthogonaux au vecteurrep(1, length(x))
. Cepoly(x,2)1
n'est pas le casx
mais plutôt(x -mean(x))/sqrt(sum((x-mean(x))**2))
...Un point important est que les tests de Wald, dans ce dernier modèle, sont indépendants. Vous pouvez utiliser des polynômes orthogonaux pour décider jusqu'à quel degré vous voulez aller, juste en regardant le test de Wald: ici vous décidez de garder mais pas X 2 . Bien sûr, vous trouveriez le même modèle en comparant les deux premiers modèles équipés, mais c'est plus simple de cette façon - si vous envisagez de monter à des degrés plus élevés, c'est vraiment beaucoup plus simple.X X2
Une fois que vous avez décidé des termes à conserver, vous souhaiterez peut-être revenir aux polynômes bruts et X 2 à des fins d'interprétabilité ou de prédiction.X X2
la source
Pour donner une évaluation naïve de la situation:
Cela signifie que chacune des deux bases peut être utilisée pour expliquer chaque élément de , c'est-à-dire pour y ∈ L 2L2( [ a , b ] ) y∈ L2( [ a , b ] ) θn θ~n∈ R n = 1 , 2 , … L2
Cependant, ici dans le cas particulier où une base,{ p~}∞n = 1 { pn}∞n = 1 y { p }kn = 1 k L2( [ a , b ] )
Par conséquent, en termes de prédiction, il n'y a (dans ce cas) aucune différence.
La question naturelle se pose de savoir s'il existe un meilleur système de base tronqué. Cependant, la réponse à la question n'est ni simple ni unique et dépend par exemple de la définition du mot "meilleur", c'est-à-dire de ce que vous essayez d'archiver.
la source