Je pensais avoir compris ce problème, mais maintenant je ne suis pas aussi sûr et je voudrais vérifier avec les autres avant de continuer.
J'ai deux variables, X
et Y
. Y
est un rapport, et il n'est pas limité par 0 et 1 et est généralement distribué normalement. X
est une proportion, délimitée par 0 et 1 (elle va de 0,0 à 0,6). Lorsque je lance une régression linéaire de Y ~ X
et je le découvre X
et ils Y
sont significativement liés linéairement. Jusqu'ici tout va bien.
Mais j'étudie plus loin et je commence à penser que peut - être X
et Y
la relation « peut - être plus curvilignes que linéaire. Pour moi, il ressemble à la relation X
et Y
peut - être plus proche de Y ~ log(X)
, Y ~ sqrt(X)
ou Y ~ X + X^2
, ou quelque chose comme ça. J'ai des raisons empiriques de supposer que la relation pourrait être curviligne, mais pas de raisons de supposer qu'une relation non linéaire pourrait être meilleure qu'une autre.
J'ai quelques questions connexes d'ici. Tout d'abord, ma X
variable prend quatre valeurs: 0, 0,2, 0,4 et 0,6. Lorsque je transforme en journal ou en racine carrée ces données, l'espacement entre ces valeurs se déforme de sorte que les valeurs 0 sont beaucoup plus éloignées de toutes les autres. Faute d'une meilleure façon de demander, est-ce ce que je veux? Je suppose que non, car j'obtiens des résultats très différents selon le niveau de distorsion que j'accepte. Si ce n'est pas ce que je veux, comment dois-je l'éviter?
Deuxièmement, pour transformer ces données en journal, je dois ajouter un certain montant à chaque X
valeur car vous ne pouvez pas prendre le journal de 0. Lorsque j'ajoute une très petite quantité, disons 0,001, j'obtiens une distorsion très importante. Lorsque j'ajoute une plus grande quantité, disons 1, j'obtiens très peu de distorsion. Y a-t-il un montant «correct» à ajouter à une X
variable? Ou est-il inapproprié d'ajouter quoi que ce soit à une X
variable au lieu de choisir une transformation alternative (par exemple cube-racine) ou un modèle (par exemple régression logistique)?
Le peu que j'ai pu découvrir sur cette question me donne l'impression de devoir faire preuve de prudence. Pour les autres utilisateurs de R, ce code créerait des données avec une sorte de structure similaire à la mienne.
X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)
Réponses:
La question principale sur la transformation des proportions (j'utiliserai comme symbole, de manière similaire mais pas identique à votre notation) permet quelques commentaires généraux.x
Dans ce qui suit, je suppose que le principal motif de transformation des proportions qui sont des covariables (prédicteurs, variables indépendantes) est d'améliorer l'approximation de la linéarité de la relation, ou, en mode exploratoire, d'avoir une idée plus claire graphiquement de la forme ou de l'existence même de toute relation. Comme d'habitude, la question de savoir si une covariable est (par exemple) approximativement normalement distribuée n'est pas cruciale en soi. (Les proportions sont un parent pas trop éloigné des variables indicatrices avec des valeurs qui ne peuvent jamais être distribuées normalement, et les proportions sont également nécessairement bornées.)0,1
Si les proportions peuvent atteindre des zéros exacts ou exacts, il est essentiel qu'une définition soit définie pour ces limites, ce qui exclut clairement , car log 0 est indéterminé. Au-delà, une forme particulière nécessite idéalement une justification substantielle (scientifique, pratique), mais à défaut d'une simple analyse, le log ( x + c ) est très sensible à la valeur de c , comme vous le suggérez.logx log0 log(x+c) c
Les deux principaux points que je souhaite souligner sont les suivants:
Pour vos données d'exemple, aucune transformation que j'ai essayée ne semble aider.
En même temps, d'autres possibilités sont loin d'être épuisées. (Notamment, je n'ai pas essayé la racine carrée ou la racine cubique, et je souligne que dans de nombreux autres problèmes, ils pourraient être des candidats évidents et sérieux.)
EDIT: Les données originales ont pu être tracées ici parce que le PO a brièvement affiché les données, mais les a ensuite supprimées.
D'autres fils ici utilisant des pouvoirs pliés incluent
Transformer les données de proportion: lorsque la racine carrée de l'arcsin ne suffit pas
Régression: nuage de points avec un faible R au carré et des valeurs de p élevées
Tracer un ensemble de données très asymétrique
la source
Y
est un rapport plutôt qu'une proportion, ce qui est probablement une différence assez substantielle, donc il était bon de votre part de le souligner.