Quand la transformation z de Fisher est-elle appropriée?

13

Je veux tester la corrélation d'un échantillon pour la signification, en utilisant des valeurs de p, c'est-à-dire $r$

$H_0: \rho = 0, \; H_1: \rho \neq 0.$

J'ai compris que je peux utiliser la transformée en z de Fisher pour calculer cela en

$z_{obs}= \displaystyle\frac{\sqrt{n-3}}{2}\ln\left(\displaystyle\frac{1+r}{1-r}\right)$

et trouver la valeur de p par

$p = 2P\left(Z>z_{obs}\right)$

en utilisant la distribution normale standard.

Ma question est: quelle taille $n$ devrait être pour que cela soit une transformation appropriée? Évidemment, $n$ doit être supérieur à 3. Mon manuel ne mentionne aucune restriction, mais sur la diapositive 29 de cette présentation, il est dit que $n$ doit être supérieur à 10. Pour les données que j'examinerai, j'aurai quelque chose comme $5 \leq n \leq 10$ .

correlation sample-size fisher-transform Gunnhild
la source

2

La page Wikipedia répertorie l'erreur standard de qui est donnée par où est la taille de l'échantillon. Vous aurez donc besoin d'au moins 4 paires complètes. Je ne suis au courant d'aucune restriction au-delà de celle concernant la taille de l'échantillon.

z_{o b s}

$z_{obs}$

1 / \sqrt{N - 3}

$1/\sqrt{N-3}$

N

$N$

COOLSerdash

8

Je ne sais pas à quel point faire confiance à une présentation de quelqu'un qui ne peut pas épeler son propre nom d'université. Plus sérieusement, méfiez-vous de tous les conseils qui sous-entendent que les choses vont bien au-dessus d'une certaine taille d'échantillon et que tout va bien dans le cas contraire. C'est une question de qualité d'approximation augmentant en douceur avec la taille de l'échantillon et dépendant également de la distribution des données. Un conseil simple est d'être très prudent, de tout tracer et de recouper avec des intervalles de confiance amorcés.

Nick Cox

1

La diapositive 17 décrit un test t pour le cas spécial .

ρ = 0

$\rho=0$

whuber

8

Pour des questions comme celles-ci, je voudrais simplement lancer une simulation et voir si les valeurs se comportent comme je m'y attendais. La valeur est la probabilité de tirer au hasard un échantillon qui s'écarte au moins autant de l'hypothèse nulle que des données que vous avez observées si l'hypothèse nulle est vraie. Donc, si nous avions beaucoup de ces échantillons, et l'un d'eux avait une valeur de de 0,04, alors nous nous attendrions à ce que 4% de ces échantillons aient une valeur inférieure à 0,04. Il en va de même pour toutes les autres valeurs possibles . $p$ $p$ $p$ $p$

Ci-dessous, une simulation dans Stata. Les graphiques vérifient si les valeurs mesurent ce qu'elles sont censées mesurer, c'est-à-dire qu'elles montrent à quel point la proportion d'échantillons avec des valeurs inférieures à la valeur nominale s'écarte de la valeur nominale . Comme vous pouvez le voir, ce test est quelque peu problématique avec un si petit nombre d'observations. Que cela soit ou non trop problématique pour votre recherche est votre jugement. $p$ $p$ $p$ $p$

clear all
set more off

program define sim, rclass
    tempname z se
    foreach i of numlist 5/10 20(10)50 {
        drop _all
        set obs `i'
        gen x = rnormal()
        gen y = rnormal()
        corr x y 
        scalar `z'  = atanh(r(rho))
        scalar `se' = 1/sqrt(r(N)-3)
        return scalar p`i' = 2*normal(-abs(`z'/`se'))
    }
end

simulate p5 =r(p5)  p6 =r(p6)  p7  =r(p7)     ///
         p8 =r(p8)  p9 =r(p9)  p10 =r(p10)    ///
         p20=r(p20) p30=r(p30) p40 =r(p40)    ///
         p50=r(p50), reps(200000) nodots: sim 

simpplot p5 p6 p7 p8 p9 p10, name(small, replace) ///
    scheme(s2color) ylabel(,angle(horizontal))

entrez la description de l'image ici

simpplot p20 p30 p40 p50 , name(less_small, replace) ///
    scheme(s2color) ylabel(,angle(horizontal))

entrez la description de l'image ici

Maarten Buis
la source

1

Essayez de soustraire 2,5 au lieu de 3 de :-).

n

$n$

whuber

5

FWIW Je vois la recommandation dans Myers & Well (plan de recherche et analyses statistiques, deuxième édition, 2003, p. 492). La note de bas de page indique: $N\ge 10$

À strictement parler, la transformation est biaisée d'un montant : voir Pearson et Hartley (1954, p. 29). Ce biais sera généralement négligeable à moins que soit petit et grand, et nous l'ignorons ici. $Z$ $r/(2(N-1))$ $N$ $\rho$

Burak Aydin
la source

3

Cela semble être une réponse pour moi.

gung - Rétablir Monica

1

$z$ $H_0: \rho=0$ $\rho$ $r$ $z$ $t$

$H_0: \rho = \rho_0 \not = 0$ $\rho_0$ $n$ $n$ $\alpha$

Le point de Nick est juste: les approximations et les recommandations fonctionnent toujours dans une zone grise.

$n\geq (t_{\alpha/2} s/\epsilon)^2$ $t$ $s$ $n \geq (1.96 s/\epsilon)^2$

Lucozade
la source

4

z

$z$

z

$z$

z

$z$

1

z

$z$

H_{0} : ρ = ρ_{0} \neq 0

$H_0: \rho = \rho_0 \neq 0$

t

$t$

3

z

$z$

t

$t$

ρ = 0

$\rho = 0$

1

z

$z$

ϵ

$\epsilon$

n

$n$

Quand la transformation z de Fisher est-elle appropriée?

Réponses: