J'ai une question sur le calcul du facteur de rétrécissement de James-Stein dans l'article de 1977 de Scientific American de Bradley Efron et Carl Morris, "Stein's Paradox in Statistics" .
J'ai rassemblé les données pour les joueurs de baseball et elles sont données ci-dessous:
Name, avg45, avgSeason
Clemente, 0.400, 0.346
Robinson, 0.378, 0.298
Howard, 0.356, 0.276
Johnstone, 0.333, 0.222
Berry, 0.311, 0.273
Spencer, 0.311, 0.270
Kessinger, 0.289, 0.263
Alvarado, 0.267, 0.210
Santo, 0.244, 0.269
Swoboda, 0.244, 0.230
Unser, 0.222, 0.264
Williams, 0.222, 0.256
Scott, 0.222, 0.303
Petrocelli, 0.222, 0.264
Rodriguez, 0.222, 0.226
Campaneris, 0.200, 0.285
Munson, 0.178, 0.316
Alvis, 0.156, 0.200
avg45
est la moyenne après aux chauves-souris et est notée dans l'article. avgSeason
est la moyenne de fin de saison.
L'estimateur de James-Stein pour la moyenne ( ) est donné par z = ˉ y + c ( y - ˉ y ) et le facteur de rétrécissement c est donné par (page 5 de l'article de Scientific American 1977) c = 1 - ( k - 3 ) σ 2
où est le nombre de moyennes inconnues. Ici, il y a 18 joueurs donc k = 18 . Je peux calculer ∑ ( y - ˉ y ) 2 en utilisant des valeurs. Mais je ne sais pas comment calculer σ 2 . Les auteurs disent c = 0,212 pour l'ensemble de données donné.avg45
J'ai essayé d'utiliser à la fois et σ 2 y pour σ 2 mais ils ne donnent pas la bonne réponse de c = 0,212
Quelqu'un peut-il avoir la gentillesse de me faire savoir comment calculer pour cet ensemble de données?
Réponses:
Le paramètre est la variance commune (inconnue) des composantes vectorielles, dont nous supposons que chacune est normalement distribuée. Pour les données de baseball, nous avons 45 ⋅ Y i ∼ b i n o m ( 45 , p i ) , donc l'approximation normale de la distribution binomiale donne (en prenant ^ p i = Y i )σ2 45⋅Yi∼binom(45,pi) pi^=Yi
Il est évident que dans ce cas , les écarts ne sont pas égaux, mais si elles avaient été égales à une valeur commune alors nous pourrions estimer avec l'estimateur mis en commun σ 2 = p ( 1 - p ) où p est la moyenne générale p =1
Vous pouvez vérifier cela avec le code R suivant. Voici les données:
et voici l'estimation pour :σ2
qui est σ 2 ≈ 0,004332392 . Le facteur de retrait dans le papier est alorsσ^2≈0.004332392
la source
Efron, B. et Morris, C. (1975). Analyse des données à l'aide de l'estimateur de Stein et de ses généralisations. Journal de l'American Statistical Association, 70 (350), 311-319 (lien vers le pdf)
ou plus détaillé
Efron, B. et Morris, C. (1974). Analyse des données à l'aide de l'estimateur de Stein et de ses généralisations. R-1394-OEO, The RAND Corporation, mars 1974 (lien vers le pdf) .
À la page 312, vous verrez qu'Efron et Morris utilisent une transformation arc-sin de ces données, de sorte que la variance des moyennes au bâton est approximativement égale à l'unité:
Ce sont donc les valeurs de l'estimateur Stein. Pour Clemente, nous obtenons .290, ce qui est assez proche du .294 de l'article de 1977.
la source