Si vous ne pouvez pas le faire orthogonalement, faites-le brut (régression polynomiale)

Lors de la régression polynomiale de $Y$ sur $X$ , les gens utilisent parfois des polynômes bruts, parfois des polynômes orthogonaux. Mais quand ils utilisent ce qui semble complètement arbitraire.

Ici et ici, des polynômes bruts sont utilisés. Mais ici et ici , les polynômes orthogonaux semblent donner les bons résultats. Quoi, comment, pourquoi?!

Contrairement à cela, lors de l'apprentissage de la régression polynomiale à partir d'un manuel (par exemple ISLR ), cela ne mentionne même pas les polynômes bruts ou orthogonaux - seul le modèle à ajuster est donné.

Alors, quand devons-nous utiliser quoi?
Et pourquoi les valeurs p individuelles pour , etc. diffèrent-elles beaucoup entre ces deux valeurs? $X$ $X^2$

regression polynomial l7ll7
la source

Vous devriez réfléchir aux valeurs de p qui sont différentes lorsque vous ajustez le même modèle aux mêmes données en utilisant des polynômes bruts et orthogonaux, et leur interprétation. Qu'en est-il des prédictions du modèle?

Scortchi - Réintégrer Monica

@Scortchi J'ai ajouté les informations pertinentes à ma question.

l7ll7

Une autre bonne raison d'utiliser des polynômes orthogonaux est la stabilité numérique; la matrice de conception associée pour l'ajustement dans la base des monômes peut être assez mal conditionnée pour l'ajustement à haut degré, car les monômes d'ordre supérieur sont "très presque linéairement dépendants" (un concept qui pourrait être rendu plus précis mathématiquement), tandis que la matrice de conception pour les polynômes orthogonaux se comportent un peu mieux. J'ai discuté du cas des abscisses espacées (Gram) ici , mais l'accord est similaire dans le cas non espacé.

JM n'est pas statisticien le

(Néanmoins, il ne faut pas s'adapter aux polynômes de haut degré sans une bonne raison de le faire.)

JM n'est pas un statisticien le

Réponses:

Les variables et ne sont pas linéairement indépendantes. Donc , même s'il n'y a pas d' effet quadratique, en ajoutant au modèle modifiera l'effet estimé de . $X$ $X^2$ $X^2$ $X$

Jetons un coup d'œil avec une simulation très simple.

> x <- runif(1e3)
> y <- x + rnorm(length(x))
> summary(lm(y~x))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.03486    0.06233  -0.559    0.576    
x            1.05843    0.10755   9.841   <2e-16 ***

Maintenant, avec un terme quadratique dans le modèle pour s'adapter.

> summary(lm(y~x+I(x^2)))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.03275    0.09528   0.344    0.731
x            0.65742    0.44068   1.492    0.136
I(x^2)       0.39914    0.42537   0.938    0.348

Bien sûr, le test omnibus est toujours significatif, mais je pense que le résultat que nous recherchons n'est pas celui-ci. La solution est d'utiliser des polynômes orthogonaux.

 > summary(lm(y~poly(x,2)))

 Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.49744    0.03098  16.059   <2e-16 ***
poly(x, 2)1  9.63943    0.97954   9.841   <2e-16 ***
poly(x, 2)2  0.91916    0.97954   0.938    0.348

Notez que les coefficients de xdans le premier modèle et de poly(x,2)1dans le deuxième modèle ne sont pas égaux, et même les intersections sont différentes. En effet, polyfournit des vecteurs orthonormaux, qui sont également orthogonaux au vecteur rep(1, length(x)). Ce poly(x,2)1n'est pas le cas xmais plutôt (x -mean(x))/sqrt(sum((x-mean(x))**2))...

Un point important est que les tests de Wald, dans ce dernier modèle, sont indépendants. Vous pouvez utiliser des polynômes orthogonaux pour décider jusqu'à quel degré vous voulez aller, juste en regardant le test de Wald: ici vous décidez de garder mais pas . Bien sûr, vous trouveriez le même modèle en comparant les deux premiers modèles équipés, mais c'est plus simple de cette façon - si vous envisagez de monter à des degrés plus élevés, c'est vraiment beaucoup plus simple. $X$ $X^2$

Une fois que vous avez décidé des termes à conserver, vous souhaiterez peut-être revenir aux polynômes bruts et fins d'interprétabilité ou de prédiction. $X$ $X^2$

Elvis
la source

+1 Enfin une réponse claire! Je vous remercie! Avant d'accepter, pouvez-vous me dire s'il existe d'autres statistiques, comme R ^ 2 ou la statistique F, que je devrais mieux lire dans le résumé du tracé orthogonal que dans le brut? Outre le traçage des variables, l'ajustement à l'aide de polynômes bruts est-il bon pour autre chose dans ce scénario?

l7ll7

Et lorsque j'ai plusieurs prédicteurs, est-ce la même chose?

l7ll7

Comment "utiliseriez-vous des polynômes orthogonaux pour décider si vous souhaitez inclure un terme quadratique ou non"?

Scortchi - Réintégrer Monica

Le fait est que le test de l'effet d'ordre le plus élevé, le quadratique dans ce cas, est le même que vous utilisiez des polynômes bruts ou orthogonaux. Alors pourquoi s'embêter avec des polynômes orthogonaux?

Scortchi - Réintégrer Monica

Bien sûr, vous ne devriez tout simplement pas faire ces tests marginaux dans ce modèle; vous devez réajuster après avoir éliminé l'effet d'ordre le plus élevé. Les polynômes orthogonaux vous épargnent la peine, permettant une procédure d'abaissement facile - vous pourriez peut-être illustrer avec un terme cubique.

Scortchi

Pour donner une évaluation naïve de la situation:

$\{p_n\}_{n=1}^\infty$ $\{\tilde{p}\}_{n=1}^\infty$ $L_2([a,b])$

Cela signifie que chacune des deux bases peut être utilisée pour expliquer chaque élément de , c'est-à-dire pour $L_2([a,b])$ $y \in L_2([a,b])$ $\theta_n$ $\tilde{\theta}_n \in \mathbb{R}$ $n=1,2,\dots$ $L_2$

\sum_{n = 1}^{\infty} {\tilde{θ}}_{n} {\tilde{p}}_{n} = y = \sum_{n = 1}^{\infty} θ_{n} p_{n} .

$\sum_{n=1}^\infty \tilde{\theta}_n \tilde{p}_n = y= \sum_{n=1}^\infty \theta_n p_n.$

$k<\infty$

{p_{n}}_{n = 1}^{k}

$\{p_n\}_{n=1}^k$

{\tilde{p}}_{n = 1}^{k},

$\{\tilde{p}\}_{n=1}^k,$

L_{2} ([a, b])

$L_2([a,b])$

Cependant, ici dans le cas particulier où une base, $\{\tilde{p}\}_{n=1}^\infty$ $\{p_n\}_{n=1}^\infty$ $y$ $\{p\}_{n=1}^k$ $k$ $L_2([a,b])$

$p$

Par conséquent, en termes de prédiction, il n'y a (dans ce cas) aucune différence.

$var(\hat{\tilde{\theta}}) = I \sigma²$

La question naturelle se pose de savoir s'il existe un meilleur système de base tronqué. Cependant, la réponse à la question n'est ni simple ni unique et dépend par exemple de la définition du mot "meilleur", c'est-à-dire de ce que vous essayez d'archiver.

chRrr
la source

(+1) Aucune différence en termes de prédiction; & on pourrait dire qu'il n'y a aucune différence en termes d'inférence significative.

Scortchi - Réintégrer Monica