La distribution d'échantillonnage pour les petits échantillons d'une population normale est-elle normale ou distribuée? [fermé]

8

Si je sais que la population est normalement distribuée, puis que je prends de petits échantillons de cette population, est-il plus correct de prétendre que la distribution d'échantillonnage est normale ou suit plutôt la distribution t ?

Je comprends que les petits échantillons ont tendance à être distribués, mais cela ne s'applique-t-il que lorsque la distribution sous-jacente de la population est inconnue?

Merci!

stattheory
la source
Je pense (mais je ne suis pas sûr) que le wiki de la balise t-distribution pourrait déjà répondre à cela ...
Nick Stauner
7
La distribution d'échantillonnage de quelle statistique?
Glen_b -Reinstate Monica
stattheory - si vous souhaitez que votre question soit rouverte (ce qui permettra des réponses supplémentaires), vous devez modifier votre question pour essayer de la rendre plus claire, par exemple en abordant les problèmes soulevés dans les commentaires.
Glen_b -Reinstate Monica

Réponses:

9

1) un ensemble d'observations aléatoires d'une population de distribution sont des échantillons de cette distribution. Ainsi, même des valeurs uniques échantillonnées à partir d'une population normale sont normalement distribuées. (Eh bien, en parlant un peu plus strictement, la variable aléatoire qui représente le tirage unique est la chose qui est normalement distribuée.)F

2) Si les observations sont des tirages indépendants d'une distribution normale, les moyennes de l'échantillon sont normales. (S'ils sont dépendants, la structure de dépendance importe.)

3) Voici quelque chose qui sera distribué t, si les données sont tirées d'une population normale: les statistiques t. (On obtient autre chose que la normale car il y a un numérateur et un dénominateur)

Je comprends que les petits échantillons ont tendance à être distribués

C'est une compréhension erronée. Sur quoi est basée cette compréhension?

[Cela semble être un malentendu si courant que je ne peux que supposer que c'est quelque part dans un livre populaire ou autrefois populaire. Si vous trouvez un tel livre, postez les détails dans votre question ou dans un commentaire, car j'aimerais savoir d'où il vient.]

Glen_b -Reinstate Monica
la source
Il est courant, par exemple: statisticshowto.com/when-to-use-at-score-vs-z-score
petrelharp
@petrelharp pouvez-vous indiquer où cela signifie que les petits échantillons sont distribués en t? Je dois l'avoir raté lors d'une analyse rapide.
Glen_b -Reinstate Monica
Peut-être pas commun, l'organigramme sur cette page, un hit google top, a "taille d'échantillon inférieure à 30" conduisant à "utiliser le score t", ce qui, je crois, est censé signifier "utiliser la distribution t". Mais, en plus d'avoir tort, cette page ne dit pas vraiment ce que cela signifie.
petrelharp
Cela implique qu'une statistique t calculée sur un petit échantillon aurait une distribution t, et non que l'échantillon lui-même aurait une distribution t.
Glen_b -Reinstate Monica
Pas comme j'imagine les étudiants qui l'interprètent ... mais c'est déjà mal à bien d'autres égards.
petrelharp
6

Si vous avez l'intention de prendre une valeur d'une population normalement distribuée, cette valeur a la même fonction de densité de probabilité que celle de la population. Ainsi, tout tirage d'une population sera tiré de la même distribution de populationxiXN(μ,σ2)N(μ,σ2)

Cela signifie donc que les petits échantillons sont toujours distribués Normal, non? Eh bien, bien sûr, si chaque tirage provient d'une distribution normale, il aura lui-même une distribution normale (avant de prendre le tirage, au moins).

Il semble que vous posiez des questions sur , car nous parlons d'échantillons, de distributions en t, etc. x¯x¯ n'est pas est toujours Normal pour les petits échantillons, même sicar chaque observation a une distribution normale. Pourquoi? Parce que c'est juste une somme d'autres variables aléatoires normales!xi

Glen_b a fait une belle prise où j'ai confondu et le -statistic. Il est important de noter que tandis que est toujours Normal pour toute taille d'échantillon (si la population à partir de laquelle il est échantillonné est Normale), les statistiques construites à partir d'un échantillon Normal ne sont pas Normales pour les petites tailles d'échantillon. Pourquoi?x¯tx¯t

Eh bien, nous avons deux cas distincts ici. Il est possible que la distribution soit déjà connue, auquel cas nous connaissons la vraie valeur de . Il est également possible que ne soit pas connu, auquel cas nous devrons l'estimer.σ2σ2

1: Nous connaissons . Cela signifie que nous pouvons utiliser une statistique calculée directement à partir du paramètre de population .σ2zσ2

Si nous sommes certains de la vraie valeur de , nous pouvons par exemple effectuer des tests d'hypothèse sur utilisant une distribution . En particulier, nous pouvons le standardiser, le transformant en une valeur , pour laquelle la distribution est Et si nous connaissons la valeur de , alors nous pouvons simplement utiliser la distribution Normal Normal pour nos calculs. C'est normal, peu importe la taille de notre échantillon!σ2x¯N(μ,σ2n)ZN(0,1)σ2

2: Nous ne connaissons pas , et donc nous l'estimons par .σ2s2

Si nous ne connaissons pas , alors nous devons remplacer la valeur calculée d'un estimateur par la valeur réelle de la population. Typiquement, ce sera , la variance de l'échantillon. Mais la variance de l'échantillon a aussi sa propre distribution! Nous ne sommes donc pas vraiment certains de sa valeur. Et si notre taille d'échantillon est petite, alors la «variance de la variance d'échantillon» est suffisamment significative pour affecter la façon dont est distribué. Ainsi, lorsque nous normalisons , il n'est plus distribué normalement, même si tous les qui ont à le calculer sont distribués Normal.σ2s2x¯x¯xi

Pour plus d'informations, lisez la définition de la distribution t et la distribution de la variance de l'échantillon .

Mat
la source
C'est une très bonne réponse qui explique beaucoup plus de choses sur les petits et les grands échantillons.
Subhash C. Davar
Matt, si les données sont indépendantes normales, est (manifestement) normal, jusqu'à et , que nous connaissions ou non la variance. Y a-t-il une base pour votre affirmation autrement? x¯ n=1n=2
Glen_b -Reinstate Monica
En effet, il existe plusieurs preuves que la distribution de la somme de deux RV normaux indépendants est ici normale ; que la moyenne doit également être normale est alors simple.
Glen_b -Reinstate Monica
Oops! J'ai fait une erreur en confondant et la statistique t. Belle prise - vous avez très raison. x¯
Matt
Je pense que je l'ai réparé. , hm? tx¯
Matt