Existe-t-il une alternative (plus forte?) À la transformation de racine carrée en arcsin pour les données de pourcentage / proportion? Dans l'ensemble de données sur lequel je travaille en ce moment, une hétéroscédasticité marquée subsiste après l'application de cette transformation, c'est-à-dire que le tracé des valeurs résiduelles en fonction des valeurs ajustées est toujours très rhomboïde.
Édité pour répondre aux commentaires: les données sont des décisions d'investissement prises par des participants expérimentaux qui peuvent investir 0-100% d'une dotation en multiples de 10%. J'ai également examiné ces données en utilisant une régression logistique ordinale, mais j'aimerais voir ce qu'un GLM valide produirait. De plus, je pouvais voir la réponse utile pour les travaux futurs, car la racine carrée arcsin semble être utilisée comme une solution universelle dans mon domaine et je n'avais trouvé aucune alternative employée.
la source
Réponses:
Sûr. John Tukey décrit une famille de transformations (croissantes, un à un) dans l' EDA . Il est basé sur ces idées:
Pouvoir étendre les queues (vers 0 et 1) comme contrôlé par un paramètre.
Néanmoins, pour faire correspondre les valeurs d' origine (non transformées) près du milieu (1/2 ), ce qui rend la transformation plus facile à interpréter.
Pour rendre la ré-expression symétrique d'environ1/2. Autrement dit, si p est ré-exprimé comme f(p) , alors 1−p sera ré-exprimé comme −f(p) .
Si vous commencez par une fonction monotone croissanteg:(0,1)→R différentiables à 1/2 , vous pouvez l' ajuster pour répondre aux deuxième et troisième critères: il suffit de définir
Le numérateur est explicitement symétrique (critère(3) ), car l'échange de p avec 1−p inverse la soustraction, la niant ainsi. Pour voir que (2) est satisfaite, la note que le dénominateur est précisément le facteur nécessaire pour rendre f′(1/2)=1. On rappelle que les approximations dérivés du comportement local d'une fonction ayant une fonction linéaire; une pente de 1=1:1 signifie ainsi que f(p)≈p (plus une constante −1/2 1 / 2. Ceci est le sens dans lequel les valeurs d' origine sont « appariées près du milieu. » ) lorsquep est suffisamment proche de1/2.
Tukey appelle cela la version "pliée" deg . Sa famille se compose des transformations de puissance et de log g(p)=pλ où, lorsque λ=0 , nous considérons g(p)=log(p) .
Regardons quelques exemples. Lorsqueλ=1/2 on obtient la racine plié, ou "froot," f(p)=1/2−−−√(p–√−1−p−−−−√) . Lorsqueλ=0 nous avons le logarithme replié, ou "flog",f(p)=(log(p)−log(1−p))/4. Évidemment, ce n'est qu'un multiple constant de latransformationlogit,log(p1−p) .
Dans ce graphe correspond la ligne bleue pourλ=1 , la ligne rouge intermédiaire à λ=1/2 , et l'extrême ligne verte à λ=0 . La ligne d'or en pointillés est la transformation d'arc sinus, arcsin(2p−1)/2=arcsin(p–√)−arcsin(1/2−−−√) . Le « alignement » des pistes (critère(2) ) amène tous les graphes pour coïncider prèsp=1/2.
Les valeurs les plus utiles du paramètreλ se situent entre 1 et 0 . (Vous pouvez faire la queue encore plus lourd avec des valeurs négatives de λ , mais cette utilisation est rare.) λ=1 ne fait rien du tout , sauf les valeurs recenter ( f(p)=p−1/2 ). Lorsque λ se rétrécit vers zéro, les queues sont tirées davantage vers ±∞ . Cela répond au critère n ° 1. Ainsi, en choisissant une valeur appropriée de λ , vous pouvez contrôler la "force" de cette ré-expression dans les queues.
la source
One way to include is to include an indexed transformation. One general way is to use any symmetric (inverse) cumulative distribution function, so thatF(0)=0.5 and F(x)=1−F(−x) . One example is the standard student t distribution, with ν degrees of freedom. The parameter v controls how quickly the transformed variable wanders off to infinity. If you set v=1 then you have the arctan transform:
This is much more extreme than arcsine, and more extreme than logit transform. Note that logit transform can be roughly approximated by using the t-distribution withν≈8 . SO in some way it provides an approximate link between logit and probit (ν=∞ ) transforms, and an extension of them to more extreme transformations.
The problem with these transforms is that they give±∞ when the observed proportion is equal to 1 or 0 . So you need to somehow shrink these somehow - the simplest way being to add +1 "successes" and +1 "failures".
la source