Que pouvons-nous dire de la population moyenne à partir d’un échantillon de 1?

45

Je me demande ce que nous pouvons dire, le cas échéant, sur la moyenne de la population, quand tout ce que j’ai, c’est une seule mesure, (taille de l’échantillon de 1). Évidemment, nous aimerions avoir plus de mesures, mais nous ne pouvons pas les obtenir. $\mu$ $y_1$

Il me semble que puisque la moyenne de l'échantillon, , est trivialement égale à , alors . Cependant, avec une taille d'échantillon de 1, la variance de l'échantillon n'est pas définie et notre confiance dans l'utilisation de comme estimateur de est également non définie, n'est-ce pas? Y aurait-il un moyen de restreindre notre estimation de ? $\bar{y}$ $y_1$ $E[\bar{y}]=E[y_1]=\mu$ $\bar{y}$ $\mu$ $\mu$

mean sample-size small-sample unbiased-estimator Thedu
la source

Oui, un intervalle de confiance sur peut être construit sous certaines hypothèses. Si personne ne l'affiche, je la retrouverai.

μ

$\mu$

Soakley

5

Voir stats.stackexchange.com/questions/1807 pour une autre version de la même question (la moyenne d'un échantillon est disponible, mais pas sa taille, si bien que la moyenne correspond à une seule observation de la distribution d'échantillonnage inconnue) et stats.stackexchange .com / questions / 20300 pour une discussion connexe.

whuber

un article récent traitant de l'optimalité de ces estimateurs dans le cas normal: tandfonline.com/doi/full/10.1080/00031305.2017.1360796

user795305 le

9

Voici un tout nouvel article sur cette question pour le cas Poisson, adoptant une approche pédagogique intéressante:

Andersson. Per Gösta (2015). Une approche en salle de classe pour la construction d'un intervalle de confiance approximatif d'une moyenne de Poisson utilisant une observation. The Statistician américain , 69 (3), 160-164, DOI: 10.1080 / 00031305.2015.1056830 .

S. Kolassa - Rétablir Monica
la source

... malheureusement derrière un paywall.

Tim

@ Tim: c'est vrai. Encore une fois, une adhésion à l'ASA n'est pas très chère et vous avez accès à The American Statistician , JASA et à de nombreux autres journaux à un prix très raisonnable, que je paie personnellement très volontiers de ma propre poche. Je pense vraiment que vous en avez pour votre argent. YMMV, bien sûr.

S. Kolassa - Réintégrer Monica le

4

+1 mais le cas de Poisson est radicalement différent du cas normal car la variance doit être égale à la moyenne. Le résultat de Poisson est assez simple, alors que le résultatrésultat pour le cas normal est contre-intuitif et mystérieux.

x \pm 9.68 | x |

$x\pm 9.68 |x|$

Amibe dit de réintégrer Monica le

@ amoeba: tout à fait correct, mais le PO n'a spécifié aucune restriction quant à la distribution.

S. Kolassa - Réintégrer Monica le

C’est si bref que cela servirait mieux de commentaire. Mais puisque c'est la réponse acceptée, vous ne voudrez probablement pas la convertir en commentaire. Pourriez-vous alors peut-être résumer les principaux points de l'article?

Richard Hardy

42

Si la population est connue pour être normale, un intervalle de confiance de 95% basé sur une seule observation est donné par $x$

x \pm 9.68 | x |

$x \pm 9.68 \left| x \right|$

Ceci est discuté dans l'article "Un intervalle de confiance effectif pour la moyenne avec des échantillons de tailles un et deux", de Wall, Boen et Tweedie, The Statistician américain , mai 2001, vol. 55, n ° 2 . ( pdf )

Soakley
la source

5

Je déteste avoir l'air stupide mais… sûrement pas. Cela dépend des unités et ne se comporte pas du tout correctement (par correctement, je veux dire une multiplication scalaire ...)

Alec Teal le

8

@Alec Le fait qu'une procédure dépende d'unités de mesure (c'est-à-dire qu'elle n'est pas invariante) ne signifie pas qu'elle est automatiquement invalide ou même incorrecte. Celui-ci est valide: lisez l'article et faites le calcul. Beaucoup admettront que c'est un peu dérangeant , cependant. Encore plus surprenant, vous n’avez même pas à supposer que la distribution sous-jacente est Normale: un résultat similaire s’applique à toute distribution unimodale (mais il faut augmenter la valeur de 9,68 à environ 19): voir les liens que j’ai fournis dans un commentaire à cette question.

whuber

4

Un numéro ultérieur du journal contenait trois lettres au rédacteur en chef, dont l'une évoquait le point d'Alec Teal concernant les unités. La réponse de Wall dit ceci: "L’intervalle de confiance n’est pas équivariant (c’est-à-dire que sa probabilité de couverture dépend du rapport ...)" Plus tard, elle "L’intervalle de confiance n’est pas basé sur une quantité essentielle ..." c’est une approche et un résultat inhabituels, sans aucun doute!

\frac{| μ |}{σ}

${{\left| \mu \right| } \over {\sigma}}$

Soakley

5

Juste pour vous garder un peu de travail: les lettres au rédacteur en chef et les notes de réponse @soakley sont parues dans The American Statistician , vol. 56, non. 1 (2002) .

S. Kolassa - Réintégrer Monica le

3

Cela semble donner des intervalles de confiance couvrant la moyenne avec une probabilité d’environ lorsque mais avec des probabilités beaucoup plus élevées autrement. Si alors la probabilité est clairement de car les intervalles de confiance contiennent toujours .

95 %

$95\%$

σ \approx | μ | > 0

$\sigma \approx | \mu | \gt 0$

μ = 0

$\mu = 0$

100 %

$100\%$

0

$0$

Henry

28

Bien sûr il y a. Utilisez un paradigme bayésien . Il est fort probable que vous ayez au moins une idée de ce que pourrait être - par exemple, que cela ne peut pas être physiquement négatif, ou qu'il ne peut évidemment pas dépasser 100 (peut-être mesurez-vous la hauteur des membres de votre équipe de football des écoles secondaires locales en pieds). Mettez un préalable sur cela, mettez-le à jour avec votre observation solitaire, et vous aurez un merveilleux postérieur. $\mu$

S. Kolassa - Rétablir Monica
la source

18

(+1) Une observation sera dépassée par le prieur, il semblerait donc que ce que vous obtenez du postérieur ne sera pas beaucoup plus que ce que vous avez mis dans le prieur.

whuber

Et si nous combinions un tel préalable avec le genre de probabilité implicite de ce misérable?

x \pm 9.68 | x |

$x \pm 9.68 \left|x\right|$

Simon Kuang

@SimonKuang: un problème conceptuel est que nous ne pouvons utiliser queintervalle après avoir observé , cela ne peut donc pas entrer dans le précédent .

x \pm 9.68 | x |

$x\pm 9.68|x|$

x

$x$

S. Kolassa - Rétablissement de Monica le

@StephanKolassa Non, cet intervalle (et la distribution associée) forme la probabilité. Notre prieur est séparé.

Simon Kuang

@ SimonKuang: oui, vous avez raison, mon erreur. Malheureusement, je n'ai pas le temps de passer à travers cela en ce moment, mais si vous faites cela, merci de poster ce que vous trouvez!

S. Kolassa - Réintégrer Monica le

14

Un petit exercice de simulation pour illustrer si la réponse de @soakley fonctionne:

# Set the number of trials, M
M=10^6
# Set the true mean for each trial
mu=rep(0,M)
# Set the true standard deviation for each trial
sd=rep(1,M)
# Set counter to zero
count=0
for(i in 1:M){
 # Control the random number generation so that the experiment is replicable 
 set.seed(i)
 # Generate one draw of a normal random variable with a given mean and standard deviation
 x=rnorm(n=1,mean=mu[i],sd=sd[i])
 # Estimate the lower confidence bound for the population mean
 lower=x-9.68*abs(x)
 # Estimate the upper confidence bound for the population mean
 upper=x+9.68*abs(x)
 # If the true mean is within the confidence interval, count it in
 if( (lower<mu[i]) && (mu[i]<upper) ) count=count+1
}
# Obtain the percentage of cases when the true mean is within the confidence interval
count_pct=count/M
# Print the result
print(count_pct)
[1] 1

Sur un million d'essais aléatoires, l'intervalle de confiance inclut la moyenne réelle un million de fois, c'est-à-dire toujours . Cela ne devrait pas se produire si l'intervalle de confiance était de 95% .

La formule ne semble donc pas fonctionner ... Ou ai-je commis une erreur de codage?

Edit: le même résultat empirique est valable lorsqu’on utilise ; cependant, il est pour - donc très proche de l’intervalle de confiance de 95%. $(\mu, \sigma)=(1000,1)$
$0.950097 \approx 0.95$ $(\mu, \sigma)=(1000,1000)$

Richard Hardy
la source

2

En effet, pour de 0, cela est utile (et +1 pour fournir le code en premier lieu!). Je voulais juste dire que pour , il est évident que 0 sera toujours capturé.

μ

$\mu$

μ = 0

$\mu = 0$

Wolfgang

2

(@Wolfgang) Ce n'est pas la façon de tester un intervalle de confiance. La définition n'exige pas que le CI de niveau couvre la moyenne du temps dans chaque cas : il faut seulement que (a) ait au moins autant de couverture dans tous les cas et (b) qu'il se rapproche de cette couverture dans certains cas. Ainsi, pour que votre approche soit valide et convaincante, vous devez rechercher un grand nombre de possibilités. Essayez

α

$\alpha$

1 - α

$1-\alpha$

sim <- function(rho, n.iter=1e5, sigma=1, psi=9.68) {   mu <- runif(n.iter, 0, sigma) * rho;   x <- rnorm(n.iter, mu, sigma);   mean(p <- abs(x - mu) <= psi * abs(x)) }; sim(1.75)

whuber

2

Je comprends ce que vous essayez de dire, mais je suis tout à fait en désaccord avec l’affirmation selon laquelle "ce n’est pas le moyen de tester un intervalle de confiance". Dans la définition / construction d'un CI, le paramètre est une constante fixe. Dans votre simulation, cesse de changer. Pour fixe , si la méthode donne vraiment un IC à 95%, elle devrait couvrir dans 95% des cas. Ce n'est pas. De plus, même avec votre construction, vous obtenez une couverture très proche de 1 (bien entendu, nous nous rapprochons maintenant du fait que soit fixé à 0).

μ

$\mu$

μ

$\mu$

μ

$\mu$ sim(0.1)

μ

$\mu$

Wolfgang

2

@Wolfgang vérifie la définition utilisée par le document cité, il est: , c'est-à-dire la probabilité que soit dans l'intervalle est d' au moins 0,95.

P (X - ζ | X | \leq μ \leq X + ζ | X |) \geq 1 - α

$P(X - \zeta |X| \leq \mu \leq X + \zeta |X|) \geq 1 - \alpha$

μ

$\mu$

Tim

2

Encore une fois, est une constante. Donc, il est parfaitement correct de simuler avec . Bien entendu, alors la couverture doit être 1. La méthode fournit un CI qui couvre au moins 95% et l'exemple montre (par simulation ou par raisonnement) que, dans certaines conditions, la couverture peut atteindre 100%. Donc, ce n'est pas un IC à 95%. C'est toujours une méthode assez intelligente pour tirer une sorte de déduction à partir de si peu d'informations.

μ

$\mu$

μ = 0

$\mu = 0$

Wolfgang

0

Voir Edelman, D (1990) 'Un intervalle de confiance pour le centre d'une distribution unimodale inconnue basée sur un échantillon de taille 1' The American Statistician, Vol 44, n ° 4. Cet article couvre les cas normal et non paramétrique.

David Edelman
la source

3

Bienvenue sur Stats.SE. Pouvez-vous modifier votre réponse pour l'agrandir, afin d'inclure les points principaux du livre que vous citez? Cela sera plus utile à la fois pour l’affiche originale et pour les autres personnes cherchant sur ce site. En passant, profitez-en pour faire le tour , si vous ne l'avez pas déjà fait. Voir également des astuces sur Comment répondre , sur l’ aide pour le formatage et sur la rédaction d’équations avec LaTeX / MathJax .

Ertxiem - rétablir Monica

Bienvenue sur notre site, David. Votre contribution, en tant qu'auteur de cet article (qui, je crois, a été cité dans plusieurs discussions ici), est grandement appréciée. Tout point de vue ou commentaire que vous pourrez fournir dans cette réponse serait donc le bienvenu.

whuber

Que pouvons-nous dire de la population moyenne à partir d’un échantillon de 1?

Réponses: