Réponses expresses en termes d'unités originales, en données transformées Box-Cox

13

Pour certaines mesures, les résultats d'une analyse sont présentés de manière appropriée sur l'échelle transformée. Dans la plupart des cas, cependant, il est souhaitable de présenter les résultats sur l'échelle de mesure d'origine (sinon votre travail est plus ou moins sans valeur).

Par exemple, dans le cas de données transformées en logarithme, un problème d'interprétation à l'échelle d'origine se pose car la moyenne des valeurs enregistrées n'est pas le logarithme de la moyenne. La prise de l'antilogarithme de l'estimation de la moyenne sur l'échelle logarithmique ne donne pas d'estimation de la moyenne sur l'échelle originale.

Si, cependant, les données transformées en journaux ont des distributions symétriques, les relations suivantes sont respectées (car le journal conserve l'ordre):

Mean[log(Y)]=Median[log(Y)]=log[Median(Y)]

(l'antilogarithme de la moyenne des valeurs logarithmiques est la médiane sur l'échelle originale des mesures).

Je ne peux donc que faire des inférences sur la différence (ou le rapport) des médianes sur l'échelle de mesure d'origine.

Les tests t à deux échantillons et les intervalles de confiance sont les plus fiables si les populations sont à peu près normales avec des écarts-types approximatifs, donc nous pouvons être tentés d'utiliser la Box-Coxtransformation pour que l'hypothèse de normalité se vérifie (je pense aussi que c'est une transformation stabilisatrice de variance aussi ).

Cependant, si nous appliquons des outils t à Box-Cox données transformées, nous obtiendrons des inférences sur la différence de moyenne des données transformées. Comment pouvons-nous les interpréter sur l'échelle de mesure d'origine? (La moyenne des valeurs transformées n'est pas la moyenne transformée). En d'autres termes, prendre la transformée inverse de l'estimation de la moyenne, sur l'échelle transformée, ne donne pas d'estimation de la moyenne sur l'échelle d'origine.

Puis-je également faire des déductions uniquement sur les médianes dans ce cas? Y a-t-il une transformation qui me permettra de revenir aux moyens (à l'échelle originale)?

Cette question a été initialement publiée sous forme de commentaire ici

George Dontas
la source

Réponses:

11

Si vous voulez des inférences spécifiquement sur la moyenne de la variable d'origine, alors n'utilisez pas la transformation Box-Cox. Les transformations IMO Box-Cox sont plus utiles lorsque la variable transformée a sa propre interprétation, et la transformation Box-Cox ne vous aide qu'à trouver la bonne échelle pour l'analyse - cela s'avère être le cas de manière surprenante souvent. Deux exposants inattendus que j'ai trouvés de cette façon étaient 1/3 (lorsque la variable de réponse était le volume de la vessie) et -1 (lorsque la variable de réponse était des respirations par minute).

La transformation de journal est probablement la seule exception à cela. La moyenne sur l'échelle logarithmique correspond à la moyenne géométrique dans l'échelle d'origine, qui est au moins une quantité bien définie.

Aniko
la source
Eh bien, vous avez aussi d'autres exceptions. -1 correspond à la moyenne harmonique, ...
kjetil b halvorsen
9

Si la transformation de Box-Cox donne une distribution symétrique, alors la moyenne des données transformées est retransformée à la médiane sur l'échelle d'origine. Cela est vrai pour toute transformation monotone, y compris les transformations de Box-Cox, les transformations IHS, etc. Ainsi, les inférences sur les moyennes sur les données transformées correspondent aux inférences sur la médiane sur l'échelle d'origine.

Comme les données d'origine étaient asymétriques (ou vous n'auriez pas utilisé une transformation Box-Cox en premier lieu), pourquoi voulez-vous des inférences sur les moyens? J'aurais pensé que travailler avec des médianes aurait plus de sens dans cette situation. Je ne comprends pas pourquoi cela est considéré comme un "problème d'interprétation à l'échelle d'origine".

Rob Hyndman
la source
λ
Je vous remercie. Peut-être parce que l'échantillon (d'une population qui, selon moi, devrait suivre une distribution approximativement symétrique) pourrait juste se trouver être faussé par hasard.
George Dontas
4
Un bel exemple de la nécessité de faire des déductions sur les moyens, quoi qu'il en soit, offerts par certaines évaluations des risques environnementaux. Pour simplifier grandement, imaginez que vous envisagez d'aménager un terrain en parc. Vous testez les sols à la recherche de composés préoccupants et, comme c'est souvent le cas, vous constatez que leur concentration est approximativement lognormalement répartie. Néanmoins, les personnes qui utilisent le parc - qui pourraient être directement exposées à ces sols - «échantillonner» efficacement les sols au hasard au fur et à mesure qu'ils se déplacent. Leur exposition dans le temps sera la concentration moyenne arithmétique, pas sa moyenne géométrique.
whuber
1
Parfois, nous nous intéressons aux problèmes qui proviennent de formulations de la quantité totale de quelque chose. Si vous connaissez la moyenne, vous pouvez passer de la moyenne au total (en multipliant par le nombre d'observations). Il n'y a aucun moyen de passer de la médiane au total!
George Dontas
6

Si vous voulez faire une inférence sur les moyens sur l'échelle d'origine, vous pouvez envisager d'utiliser une inférence qui n'utilise pas une hypothèse de normalité.

Attention cependant. Il suffit de brancher une comparaison directe des moyens via, par exemple, un rééchantillonnage (tests de permutation ou bootstrap) lorsque les deux échantillons ont des variances différentes peut être un problème si votre analyse suppose que les variances sont égales (et des variances égales sur l'échelle transformée seront des variances de différence sur l'échelle d'origine si les moyens diffèrent). Ces techniques n'évitent pas la nécessité de penser à ce que vous faites.

F(X+h)t[μ+(Oui-μ)]Ouiμσ2t()

t(μ) est une constante - vous laissant avec une approximation à un seul terme pour la variance.

-

Le cas le plus simple est lorsque vous avez une normalité sur l'échelle logarithmique, et donc une lognormale sur l'échelle d'origine. Si votre variance est connue (ce qui arrive très rarement au mieux), vous pouvez construire des IC et des PI lognormaux sur l'échelle d'origine, et vous pouvez donner une moyenne prédite à partir de la moyenne de la distribution de la quantité pertinente.

tt . Donc, la moyenne d'une prédiction n'existe tout simplement pas.

Vous devez réfléchir très attentivement à la question à laquelle vous essayez de répondre.

Glen_b -Reinstate Monica
la source