Transformation des données de proportion: lorsque la racine carrée de l'arcsin ne suffit pas

20

Existe-t-il une alternative (plus forte?) À la transformation de racine carrée en arcsin pour les données de pourcentage / proportion? Dans l'ensemble de données sur lequel je travaille en ce moment, une hétéroscédasticité marquée subsiste après l'application de cette transformation, c'est-à-dire que le tracé des valeurs résiduelles en fonction des valeurs ajustées est toujours très rhomboïde.

Édité pour répondre aux commentaires: les données sont des décisions d'investissement prises par des participants expérimentaux qui peuvent investir 0-100% d'une dotation en multiples de 10%. J'ai également examiné ces données en utilisant une régression logistique ordinale, mais j'aimerais voir ce qu'un GLM valide produirait. De plus, je pouvais voir la réponse utile pour les travaux futurs, car la racine carrée arcsin semble être utilisée comme une solution universelle dans mon domaine et je n'avais trouvé aucune alternative employée.

Freya Harrison
la source
2
De quelles valeurs ajustées? Quel est ton modèle? arcsin stabilise (approximativement) la variance pour le binôme, mais vous aurez toujours des effets de "bord" si les proportions sont proches de 0 ou 1 - car la partie normale est effectivement tronquée.
probabilitéislogic
1
Permettez-moi de revenir sur ce que @probabilityislogic a dit et de savoir d'où viennent les données. Il pourrait y avoir quelque chose dans le problème qui suggère une autre transformation, ou un autre modèle entièrement, qui pourrait être plus approprié et / ou interprétable.
JMS
1
@prob @JMS Pourquoi ne laissons-nous pas l'OP, qui, je pense, connaît bien les statistiques, essayer d'abord la voie de la transformation? Ensuite, si cela ne fonctionne pas, il serait utile de commencer un nouveau fil dans lequel le problème est présenté de manière moins étroite. Vos commentaires seraient appropriés dans ce contexte.
whuber
1
Il y a d' énormes problèmes avec la transformation de la racine carrée arcsinus, décrit sans ménagement dans le document intitulé d'une manière amusante Le arcsinus est ânerie: l'analyse des proportions en écologie
MKT - Réintégrer Monica
1
@mkt Merci pour la référence, ceci est allé directement dans la conférence du prochain trimestre sur les modèles linéaires généralisés.
Freya Harrison

Réponses:

28

Sûr. John Tukey décrit une famille de transformations (croissantes, un à un) dans l' EDA . Il est basé sur ces idées:

  1. Pouvoir étendre les queues (vers 0 et 1) comme contrôlé par un paramètre.

  2. Néanmoins, pour faire correspondre les valeurs d' origine (non transformées) près du milieu ( 1/2 ), ce qui rend la transformation plus facile à interpréter.

  3. Pour rendre la ré-expression symétrique d'environ 1/2. Autrement dit, si p est ré-exprimé comme f(p) , alors 1p sera ré-exprimé comme f(p) .

Si vous commencez par une fonction monotone croissante g:(0,1)R différentiables à 1/2 , vous pouvez l' ajuster pour répondre aux deuxième et troisième critères: il suffit de définir

f(p)=g(p)g(1p)2g(1/2).

Le numérateur est explicitement symétrique (critère (3) ), car l'échange de p avec 1p inverse la soustraction, la niant ainsi. Pour voir que (2) est satisfaite, la note que le dénominateur est précisément le facteur nécessaire pour rendre f(1/2)=1. On rappelle que les approximations dérivés du comportement local d'une fonction ayant une fonction linéaire; une pente de 1=1:1 signifie ainsi que f(p)p(plus une constante 1/2 1 / 2. Ceci est le sens dans lequel les valeurs d' origine sont « appariées près du milieu. » ) lorsquep est suffisamment proche de1/2.

Tukey appelle cela la version "pliée" de g . Sa famille se compose des transformations de puissance et de log g(p)=pλ où, lorsque λ=0 , nous considérons g(p)=log(p) .

Regardons quelques exemples. Lorsque λ=1/2 on obtient la racine plié, ou "froot," f(p)=1/2(p1p). Lorsqueλ=0nous avons le logarithme replié, ou "flog",f(p)=(log(p)log(1p))/4. Évidemment, ce n'est qu'un multiple constant de latransformationlogit,log(p1p).

Graphs for lambda=1, 1/2, 0, and arcsin

Dans ce graphe correspond la ligne bleue pour λ=1 , la ligne rouge intermédiaire à λ=1/2 , et l'extrême ligne verte à λ=0 . La ligne d'or en pointillés est la transformation d'arc sinus, arcsin(2p1)/2=arcsin(p)arcsin(1/2). Le « alignement » des pistes (critère(2)) amène tous les graphes pour coïncider prèsp=1/2.

Les valeurs les plus utiles du paramètre λ se situent entre 1 et 0 . (Vous pouvez faire la queue encore plus lourd avec des valeurs négatives de λ , mais cette utilisation est rare.) λ=1 ne fait rien du tout , sauf les valeurs recenter ( f(p)=p1/2 ). Lorsque λ se rétrécit vers zéro, les queues sont tirées davantage vers ± . Cela répond au critère n ° 1. Ainsi, en choisissant une valeur appropriée de λ , vous pouvez contrôler la "force" de cette ré-expression dans les queues.

whuber
la source
whuber, know of any R function that does this one automatically?
John
1
@John No I don't, but it's simple enough to implement.
whuber
2
I didn't see it as basically difficult but it would be nice if there was something like the boxcox tranforms that automatically plot out the best selection for lambda. Yes, not terrible to implement...
John
2
Thanks whuber, this is exactly the kind of thing I was looking for and the graph is really helpful. Definitely agree with John that something like the boxcox would be helpful, but this seems simple enough to work through.
Freya Harrison
7

One way to include is to include an indexed transformation. One general way is to use any symmetric (inverse) cumulative distribution function, so that F(0)=0.5 and F(x)=1F(x). One example is the standard student t distribution, with ν degrees of freedom. The parameter v controls how quickly the transformed variable wanders off to infinity. If you set v=1 then you have the arctan transform:

x=arctan(π[2p1]2)

This is much more extreme than arcsine, and more extreme than logit transform. Note that logit transform can be roughly approximated by using the t-distribution with ν8. SO in some way it provides an approximate link between logit and probit (ν=) transforms, and an extension of them to more extreme transformations.

The problem with these transforms is that they give ± when the observed proportion is equal to 1 or 0. So you need to somehow shrink these somehow - the simplest way being to add +1 "successes" and +1 "failures".

probabilityislogic
la source
2
For various reasons, Tukey recommends adding +1/6 to counts. Note that this reply is a special case of Tukey's folding approach that I described: any CDF with positive PDF is monotonic; folding a symmetric CDF leaves it unchanged.
whuber
2
I have been wondering where your rough approximation comes from. How do you arrive at ν8? I can't reproduce this. I accept that the approximation must break down at the extremes of p near 0 or 1, but I find that ν=5 is a much better match for the logit for p near 1/2. Are you perhaps optimizing some measure of an average difference between the CDF of tν and logit?
whuber
2
@whuber - you give me too much credit. My suggestion was based on looking at a graph of the pdf of t8, a graph of the logistic pdf f(x)=ex(1+ex)2, and a graph of standard normal pdf. 5 degrees of freedom matches the excess kurtosis, and may well be better.
probabilityislogic
5
@whuber Une raison pour ajouter 1/6 aux nombres est que le nombre "commencé" résultant se rapproche de la médiane postérieure en supposant une distribution binomiale avec Jeffreys avant (j'écris un peu à ce sujet ici: sumsar.net/blog/2013/09/ a-bayesian-twist-on-tukeys-flogs ). Cependant, je ne sais pas si c'était la raison pour laquelle Tukey a ajouté 1/6. Savez-vous quelle aurait pu être sa raison?
Rasmus Bååth
4
@Rasmuth In EDA, p. 496, Tukey writes "The [usage] we here recommend does have an excuse, but since this excuse (i) is indirect and (ii) involves more sophisticated considerations, we shall say no more about it. What we recommend is adding 1/6 to all split counts, thus 'starting' them." (A "split count" of any value x is the number of xi<x plus half the number of xi=x in a batch of data (xi).) I don't recall coming across these "sophisticated considerations" in other Tukey papers or books I have read, but always imagined they might be related to probability plotting points.
whuber