Y a-t-il une raison de ce à quoi je peux penser, pour transformer les données avec une racine carrée? Je veux dire que ce que j'observe toujours, c'est que le R ^ 2 augmente. Mais c'est probablement juste à cause du centrage des données! Toute pensée est appréciée!
15
Réponses:
En général, la régression paramétrique / GLM suppose que la relation entre la variable et chaque variable est linéaire, que les résidus une fois que vous avez ajusté le modèle suivent une distribution normale et que la taille des résidus reste à peu près la même tout le long du chemin. le long de vos lignes ajustées. Lorsque vos données ne sont pas conformes à ces hypothèses, les transformations peuvent être utiles.Y X
Il devrait être intuitif que si est proportionnel à alors la racine carrée linéarise cette relation, conduisant à un modèle qui correspond mieux aux hypothèses et qui explique plus de variance (a un plus élevé ). L'enracinement carré aide également lorsque vous avez le problème que la taille de vos résidus augmente progressivement à mesure que vos valeurs de augmentent (c'est-à-dire que la dispersion des points de données autour de la ligne ajustée devient plus marquée lorsque vous vous déplacez le long de celle-ci). Pensez à la forme d'une fonction de racine carrée: elle augmente fortement au début, puis sature. Donc, appliquer une transformation de racine carrée gonfle les petits nombres mais stabilise les plus gros. Vous pouvez donc y penser comme poussant de petits résidus à faibleY X2 Y R2 Y X X Valeurs éloignées de la ligne ajustée et écrasement de gros résidus à des valeurs élevées vers la ligne. (C'est un raccourci mental, pas des maths appropriés!)X
Comme Dmitrij et ocram le disent, ce n'est qu'une transformation possible qui aidera dans certaines circonstances, et des outils comme la formule Box-Cox peuvent vous aider à choisir la plus utile. Je conseillerais de prendre l'habitude de toujours regarder un graphique des résidus par rapport aux valeurs ajustées (et également un graphique de probabilité normal ou un histogramme des résidus) lorsque vous ajustez un modèle. Vous constaterez que vous finirez souvent par voir à partir de ces types de transformation qui vous aideront.
la source
Cependant, cette valeur fixe a priori pourrait (et n'est probablement pas) optimale. Dans R, vous pouvez considérer une fonction de la
car
bibliothèquepowerTransform
qui aide à estimer une valeur optimale pour les transformations de Box-Cox pour chacune des variables ayant participé à la régression linéaire ou toutes les données avec lesquelles vous travaillez (voir leexample(powerTransform)
pour plus de détails).la source
Lorsque la variable suit une distribution de Poisson, les résultats de la transformation de racine carrée seront beaucoup plus proches de la gaussienne.
la source
Prendre la racine carrée est parfois préconisé pour faire apparaître une variable non normale comme une variable normale dans les problèmes de régression. Le logarithme est une autre transformation possible courante.
la source
La matrice de distance calculée avec Bray-Curtis n'est généralement pas métrique pour certaines données, ce qui donne lieu à des valeurs propres négatives. Une des solutions pour surmonter ce problème est de le transformer (logarithmique, racine carrée ou double racine carrée).
la source