Estimateur de James-Stein: Comment Efron et Morris ont-ils calculé

18

J'ai une question sur le calcul du facteur de rétrécissement de James-Stein dans l'article de 1977 de Scientific American de Bradley Efron et Carl Morris, "Stein's Paradox in Statistics" .

J'ai rassemblé les données pour les joueurs de baseball et elles sont données ci-dessous:

Name, avg45, avgSeason    
Clemente, 0.400, 0.346    
Robinson, 0.378, 0.298    
Howard, 0.356, 0.276    
Johnstone, 0.333, 0.222    
Berry, 0.311, 0.273    
Spencer, 0.311, 0.270    
Kessinger, 0.289, 0.263    
Alvarado, 0.267, 0.210    
Santo, 0.244, 0.269    
Swoboda, 0.244, 0.230    
Unser, 0.222, 0.264    
Williams, 0.222, 0.256    
Scott, 0.222, 0.303    
Petrocelli, 0.222, 0.264    
Rodriguez, 0.222, 0.226    
Campaneris, 0.200, 0.285    
Munson, 0.178, 0.316    
Alvis, 0.156, 0.200

avg45est la moyenne après 45 aux chauves-souris et est notée y dans l'article. avgSeasonest la moyenne de fin de saison.

L'estimateur de James-Stein pour la moyenne ( ) est donné par z = ˉ y + c ( y - ˉ y ) et le facteur de rétrécissement c est donné par (page 5 de l'article de Scientific American 1977) c = 1 - ( k - 3 ) σ 2z

z=y¯+c(yy¯)
c
c=1(k3)σ2(yy¯)2,

est le nombre de moyennes inconnues. Ici, il y a 18 joueurs donc k = 18 . Je peux calculer ( y - ˉ y ) 2 en utilisant des valeurs. Mais je ne sais pas comment calculer σ 2 . Les auteurs disent c = 0,212 pour l'ensemble de données donné.kk=18(yy¯)2avg45σ2c=0.212

J'ai essayé d'utiliser à la fois et σ 2 y pour σ 2 mais ils ne donnent pas la bonne réponse de c = 0,212σx2σy2σ2c=0.212

Quelqu'un peut-il avoir la gentillesse de me faire savoir comment calculer σ2 pour cet ensemble de données?

Anand
la source
1
Je sais que MAD ( en.wikipedia.org/wiki/Median_absolute_deviation ) est beaucoup utilisé pour le rétrécissement des ondelettes.
robin girard

Réponses:

19

Le paramètre est la variance commune (inconnue) des composantes vectorielles, dont nous supposons que chacune est normalement distribuée. Pour les données de baseball, nous avons 45 Y ib i n o m ( 45 , p i ) , donc l'approximation normale de la distribution binomiale donne (en prenant ^ p i = Y i )σ245Yibinom(45,pi)pi^=Yi

p^inorm(mean=pi,var=pi(1pi)/45).

Il est évident que dans ce cas , les écarts ne sont pas égaux, mais si elles avaient été égales à une valeur commune alors nous pourrions estimer avec l'estimateur mis en commun σ 2 = p ( 1 - p ) p est la moyenne générale p =1

σ^2=p^(1p^)45,
p^ Il semble que c'est ce que Efron et Morris ont fait (dans l'article de 1977).
p^=11845i=11845Yi=Y¯.

Vous pouvez vérifier cela avec le code R suivant. Voici les données:

y <- c(0.4, 0.378, 0.356, 0.333, 0.311, 0.311, 0.289, 0.267, 0.244, 0.244, 0.222, 0.222, 0.222, 0.222, 0.222, 0.2, 0.178, 0.156)

et voici l'estimation pour :σ2

s2 <- mean(y)*(1 - mean(y))/45

qui est σ 20,004332392 . Le facteur de retrait dans le papier est alorsσ^20.004332392

1 - 15*s2/(17*var(y))

c0.2123905k2k3


la source
Excellente explication, j'adore l'approximation normale du binôme.
Chamberlain Foncha
14

c=0.212 , mais l'article suivant fournit une description beaucoup plus détaillée de ces données:

Efron, B. et Morris, C. (1975). Analyse des données à l'aide de l'estimateur de Stein et de ses généralisations. Journal de l'American Statistical Association, 70 (350), 311-319 (lien vers le pdf)

ou plus détaillé

Efron, B. et Morris, C. (1974). Analyse des données à l'aide de l'estimateur de Stein et de ses généralisations. R-1394-OEO, The RAND Corporation, mars 1974 (lien vers le pdf) .

À la page 312, vous verrez qu'Efron et Morris utilisent une transformation arc-sin de ces données, de sorte que la variance des moyennes au bâton est approximativement égale à l'unité:

> dat <- read.table("data.txt", header=T, sep=",")
> yi  <- dat$avg45
> k   <- length(yi)
> yi  <- sqrt(45) * asin(2*yi-1)
> c   <- 1 - (k-3)*1 / sum((yi - mean(yi))^2)
> c
[1] 0.2091971

z

> zi  <- mean(yi) + c * (yi - mean(yi))
> round((sin(zi/sqrt(45)) + 1)/2,3) ### back-transformation
[1] 0.290 0.286 0.282 0.277 0.273 0.273 0.268 0.264 0.259
[10] 0.259 0.254 0.254 0.254 0.254 0.254 0.249 0.244 0.239

Ce sont donc les valeurs de l'estimateur Stein. Pour Clemente, nous obtenons .290, ce qui est assez proche du .294 de l'article de 1977.

Wolfgang
la source