Pourquoi la transformation de racine carrée est-elle recommandée pour les données de comptage?

57

Il est souvent recommandé de prendre la racine carrée lorsque vous avez des données de comptage. (Pour des exemples sur CV, voir la réponse de @ HarveyMotulsky ici ou celle de @ whuber ici .) Par contre, lors de l'ajustement d'un modèle linéaire généralisé avec une variable de réponse distribuée sous la forme de Poisson, le journal est le lien canonique . Cela ressemble un peu à une transformation de journal de vos données de réponse (bien qu’il soit plus précis de prendre une transformation de journal de , paramètre qui régit la distribution de la réponse). Ainsi, il y a une certaine tension entre ces deux. λ

  • Comment conciliez-vous cette divergence (apparente)?
  • Pourquoi la racine carrée serait-elle meilleure que le logarithme?
gung - Rétablir Monica
la source

Réponses:

45

La racine carrée stabilise approximativement la variance pour le Poisson . Il existe un certain nombre de variations sur la racine carrée qui améliorent les propriétés, telles que l' ajout de 38 avant de prendre la racine carrée, ou leFreeman-Tukey(X+X+1 - bien que souvent aussi ajusté pour la moyenne).

entrez la description de l'image ici

La transformation de la racine carrée améliore quelque peu la symétrie - mais pas aussi bien que la 23 puissance [1]:

entrez la description de l'image ici

Si vous voulez en particulier une quasi-normalité (tant que le paramètre de Poisson n'est pas vraiment petit) et que vous ne vous souciez pas de / ne pouvez pas vous adapter à l' hétéroscédasticité, essayez 23

y=log(y+c)0c0.40.5μ120.43

Pour ce qui est de savoir pourquoi les gens choisissent une transformation plutôt qu’une autre (ou aucune), c’est vraiment ce qu’ils cherchent à accomplir.

[1]: Les parcelles inspirées des parcelles d'Henrik Bengtsson dans son document intitulé "Modèles linéaires généralisés et résidus transformés" sont disponibles ici (voir la première diapositive à la page 4). J'ai ajouté un peu de j-y et omis les lignes.

Glen_b
la source
1
(0,+)(,+)λ
2
Xy
1
+1 La racine carrée est simplement un point de départ pour traiter les données de comptage. Le logarithme est également un bon choix. Les données vous indiqueront souvent lequel est le plus efficace pour obtenir une description utile et succincte. Gung, dans la réponse à laquelle vous faites référence , la démonstration que la racine carrée était un bon choix réside dans la distribution symétrique des résidus non périphériques apparents dans la figure de droite. Lorsque vous modifiez les paramètres de la simulation, vous constaterez que la symétrie est conservée.
whuber
1
@Glen Je n'ai pas dit que les journaux étaient toujours un bon choix. Mais parfois, ils sont supérieurs aux racines. Lorsque zéro compte apparaît, alors oui, vous avez besoin d'un logarithme "démarré" . D'autres discussions ici ont discuté des moyens d'obtenir une valeur de départ . Lorsqu'il n'y a pas de compte zéro dans les données, il n'y aura aucun problème avec les journaux.
whuber
2
x+3/8xx+ccx+3/8