Quelle pourrait être la raison de l'utilisation de la transformation de racine carrée sur les données?

15

Y a-t-il une raison de ce à quoi je peux penser, pour transformer les données avec une racine carrée? Je veux dire que ce que j'observe toujours, c'est que le R ^ 2 augmente. Mais c'est probablement juste à cause du centrage des données! Toute pensée est appréciée!

MarkDollar
la source
J'ai répondu à cette question et à la question plus générale ici stats.stackexchange.com/questions/18844/…
IrishStat
3
Si la variable dépendante est différente, les carrés R ne peuvent pas être comparés.

Réponses:

13

En général, la régression paramétrique / GLM suppose que la relation entre la variable et chaque variable est linéaire, que les résidus une fois que vous avez ajusté le modèle suivent une distribution normale et que la taille des résidus reste à peu près la même tout le long du chemin. le long de vos lignes ajustées. Lorsque vos données ne sont pas conformes à ces hypothèses, les transformations peuvent être utiles. YX

Il devrait être intuitif que si est proportionnel à alors la racine carrée linéarise cette relation, conduisant à un modèle qui correspond mieux aux hypothèses et qui explique plus de variance (a un plus élevé ). L'enracinement carré aide également lorsque vous avez le problème que la taille de vos résidus augmente progressivement à mesure que vos valeurs de augmentent (c'est-à-dire que la dispersion des points de données autour de la ligne ajustée devient plus marquée lorsque vous vous déplacez le long de celle-ci). Pensez à la forme d'une fonction de racine carrée: elle augmente fortement au début, puis sature. Donc, appliquer une transformation de racine carrée gonfle les petits nombres mais stabilise les plus gros. Vous pouvez donc y penser comme poussant de petits résidus à faibleYX2YR2YXXValeurs éloignées de la ligne ajustée et écrasement de gros résidus à des valeurs élevées vers la ligne. (C'est un raccourci mental, pas des maths appropriés!)X

Comme Dmitrij et ocram le disent, ce n'est qu'une transformation possible qui aidera dans certaines circonstances, et des outils comme la formule Box-Cox peuvent vous aider à choisir la plus utile. Je conseillerais de prendre l'habitude de toujours regarder un graphique des résidus par rapport aux valeurs ajustées (et également un graphique de probabilité normal ou un histogramme des résidus) lorsque vous ajustez un modèle. Vous constaterez que vous finirez souvent par voir à partir de ces types de transformation qui vous aideront.

Freya Harrison
la source
Hey, merci! Je connais la fonction boxcox, mais je me demandais pour quelles raisons pratiques la transformation sqrt avait du sens! Je vous remercie!
MarkDollar
1
si la variance des erreurs est liée linéairement au niveau de la série on prend une transformation logarithmique. Si l'écart-type est lié linéairement au niveau de la série, on prend une transformation de racine carrée. La sélection n'a rien à voir avec la taille des résidus car elle concerne le niveau de y et tout à voir avec le couplage / découplage du premier et du deuxième moment.
IrishStat
1
Freya, +1 pour la sténographie mentale >> les mathématiques appropriées. Cette intuition est-elle également une raison pour utiliser les métriques L.5 pour le clustering ?
denis
Bonjour Denis, je crains de ne rien savoir du clustering.
Freya Harrison
10

λ=0.5

yN(Xβ,σ2In)

Cependant, cette valeur fixe a priori pourrait (et n'est probablement pas) optimale. Dans R, vous pouvez considérer une fonction de la carbibliothèque powerTransformqui aide à estimer une valeur optimale pour les transformations de Box-Cox pour chacune des variables ayant participé à la régression linéaire ou toutes les données avec lesquelles vous travaillez (voir le example(powerTransform)pour plus de détails).

Dmitrij Celov
la source
5

Lorsque la variable suit une distribution de Poisson, les résultats de la transformation de racine carrée seront beaucoup plus proches de la gaussienne.

Harvey Motulsky
la source
Pourriez-vous donner quelques arguments pour cette affirmation?
utdiscant
Cela n'aide pas vraiment beaucoup pour la distribution individuelle avec une valeur spécifique du paramètre, mais cela rend la famille de distribution obtenue lorsque le paramètre varie, plus proche d'une famille normale avec une variance constante
kjetil b halvorsen
3

Prendre la racine carrée est parfois préconisé pour faire apparaître une variable non normale comme une variable normale dans les problèmes de régression. Le logarithme est une autre transformation possible courante.

ocram
la source
0

La matrice de distance calculée avec Bray-Curtis n'est généralement pas métrique pour certaines données, ce qui donne lieu à des valeurs propres négatives. Une des solutions pour surmonter ce problème est de le transformer (logarithmique, racine carrée ou double racine carrée).

Ahmed Nur Osman
la source