Est-ce que «échantillon aléatoire» et «variable aléatoire iid» sont synonymes?

18

J'ai eu du mal à comprendre la signification de "échantillon aléatoire" ainsi que de "variable aléatoire iid". J'ai essayé de trouver le sens à partir de plusieurs sources, mais je suis devenu de plus en plus confus. Je poste ici ce que j'ai essayé et appris à connaître:

Probabilité et statistiques de Degroot dit:

Échantillons aléatoires / iid / taille de l'échantillon: considérons une distribution de probabilité donnée sur la ligne réelle qui peut être représentée par un pf ou un pdf f . On dit que variables aléatoires forme un échantillon aléatoire à partir de cette distribution si ces variables aléatoires sont indépendantes et que le pf ou pdf marginal de chacune d'elles est . Ces variables aléatoires sont également dites indépendantes et identiquement distribuées, abrégées iid. Nous appelons le nombre n de variables aléatoires la taille de l'échantillon.X 1 , . . . , X n fnX1,...,Xnf

Mais l'un des autres livres de statistiques que j'ai dit:

Dans un échantillonnage aléatoire, nous garantissons que chaque unité individuelle dans la population a une chance (probabilité) égale d'être sélectionnée.

J'ai donc le sentiment que les iids sont des éléments qui construisent un échantillon aléatoire, et la procédure pour avoir un échantillon aléatoire est un échantillonnage aléatoire. Ai-je raison?

PS: Je suis très confus sur ce sujet, donc j'apprécierai une réponse détaillée. Merci.

Silencieux
la source
6
La partie indépendance est très importante car nous pouvons avoir un échantillon dans lequel toutes les variables sont distribuées de manière identique (ont la même distribution marginale) mais ne sont pas indépendantes. Un tel échantillon peut toujours être considéré comme un échantillon aléatoire mais pas de l'expérience dont vous pensez qu'il s'agit d'un échantillon aléatoire. Voir cette question .
Dilip Sarwate
La question ne semble pas avoir un sens statistique. L'échantillon iid et aléatoire sont des concepts clairement distincts établis par les alphabétisés.
Subhash C. Davar
2
@ subhashc.davar Sont-ils? Selon une définition: "Un échantillon aléatoire est une séquence de variables aléatoires indépendantes et identiques (IID)". Il semble donc qu'iid et échantillon aléatoire soient la même chose? Le paragraphe cité dans Probroot & Statistics de Degroot dit essentiellement la même chose. Je trouve cela déroutant car un "échantillon" est parfois un individu ou un ensemble d'individus, et parfois une séquence de variables aléatoires.
Gary Chang
@Gary Chang La définition que vous avez citée se rapporte au pdf. L'échantillon de variables aléatoires a été populaire dans la discipline de la psychométrie. Généralement, il est utilisé en référence à une estimation de fiabilité ou de validité et pour une analyse factorielle. La psychométrie s'intéresse à établir l'équivalence des tests pour un domaine. Le concept iid semble provenir de l'algèbre linéaire. Un échantillon pourrait provenir d'une population d'individus donnée et / ou d'une population de variables (aléatoires) selon l'objectif d'une étude. Les statistiques actuelles semblent avoir emprunté à la théorie de la mesure.
Subhash C. Davar

Réponses:

9

Vous ne dites pas ce que l'autre livre de statistiques est, mais je suppose que c'est un livre (ou une section) sur l' échantillonnage de population finie .

Lorsque vous échantillonnez des variables aléatoires, c'est-à-dire lorsque vous considérez un ensemble de n variables aléatoires, vous savez que si elles sont indépendantes, f ( xX1,,Xnn , et de distribution identiqueF(X1,,Xn)=F(X1)F(Xn), notammentetVar( X i )E(Xje)=μ pour tout i , alors: ¯ X = i X iVar(Xje)=σ2iσ2est le deuxième moment central.

X¯=jeXjen,E(X¯)=μ,Var(X¯)=σ2n
σ2

L'échantillonnage d'une population finie est quelque peu différent. Si la population est de taille , dans l'échantillonnage sans remplacement, il y a ( NN échantillons possiblesside taillenet ils sont équiprobables: p(si)=1(Nn)sjen Par exemple, siN=5etn=3, l'espace d'échantillonnage est{s1,,s10} et les échantillons possibles sont: s 1 ={1,2,3}, s 2 ={1,2,4}, s 3 ={1,2,5}, s 4

p(sje)=1(Nn)je=1,,(Nn)
N=5n=3{s1,,sdix} Si vous comptez le nombre d'occurrences de chaque individu, vous pouvez voir qu'ils sont six, c'est-à-dire que chaque individu a une chance égale d'être sélectionné (6/10). Ainsi, chaquesiest un échantillon aléatoire selon la deuxième définition. En gros, il ne s'agit pas d'un échantillon aléatoire iid car les individus ne sont pas des variables aléatoires: vous pouvez toujours estimerE[X]par une moyenne d'échantillon mais vous ne connaîtrez jamais sa valeur exacte, mais vouspouvezconnaître la moyenne exacte de la population sin=N(soit je répète: à peu près.)
s1={1,2,3},s2={1,2,4},s3={1,2,5},s4={1,3,4},s5={1,3,5},s6={1,4,5},s7={2,3,4},s8={2,3,5},s9={2,4,5},sdix={3,4,5}
sjeE[X]n=N1

Soit une moyenne de polulation (taille moyenne, revenu moyen, ...). Quand nμn<Nμ

y¯s=je=1nyje,E(y¯s)=μ
˜ σ 2
Var(y¯s)=σ~2n(1-nN)
σ~2je=1N(yje-y¯)2N-1(1-n/N)

Ceci est un exemple rapide de la différence entre un échantillon aléatoire (variable aléatoire) et un échantillon aléatoire (population finie). L'inférence statistique concerne principalement l'échantillonnage variable aléatoire, la théorie de l'échantillonnage concerne l'échantillonnage à population finie.


1et interpréter un ensemble d'ampoules comme un échantillon (variable aléatoire). Dites maintenant que vous trouvez une boîte de 1000 ampoules et que vous souhaitez connaître leur durée de vie moyenne. Vous pouvez sélectionner un petit ensemble d'ampoules (un échantillon de population finie), mais vous pouvez toutes les sélectionner. Si vous sélectionnez un petit échantillon, cela ne transforme pas les ampoules en variables aléatoires: la variable aléatoire est générée par vous, car vous avez le choix entre "tout" et "un petit ensemble". Cependant, lorsqu'une population finie est très importante (par exemple la population de votre pays), lorsque le choix de "tout" n'est pas viable, la deuxième situation est mieux gérée que la première.

Sergio
la source
1
Que voulez-vous dire par "les individus ne sont pas des variables aléatoires?" Whuber a de très belles réponses ici et ici qui utilisent l'échantillonnage à population finie pour expliquer le concept d'une variable aléatoire.
jsk
Je veux dire ce que j'ai dit: si n=N alors il n'y a pas d'incertitude.
Sergio
Cela n'a pas été utile pour clarifier votre déclaration qui semble être en contradiction directe avec celles faites dans les liens. S'il vous plaît, il n'est pas nécessaire d'être défensif. Le point sur n=N n'a rien à voir avec l'énoncé qui m'intéresse. De plus, une variable aléatoire dégénérée n'est-elle pas une variable aléatoire?
jsk
Défensive? Vous n'avez pas compris ces liens. Comme le dit Whubner, a) le modèle de tickets dans une boîte n'est qu'un exemple de jouet pour éviter "ce sont des choses de niveau supérieur" se plaint; b) il évite d' appeler "population" les billets dans une boîte, et explique pourquoi. Il n'y a donc pas de contradiction . Si l'on peut comprendre ce que Whubner a dit. BTW, je ne suis pas une variable aléatoire, êtes-vous?
Sergio
À mon humble avis, bien sûr.
Sergio
2

Je ne vous ennuierai pas avec des définitions et des formules probabilistes, que vous pouvez facilement trouver dans n'importe quel manuel (ou voici un bon point de départ)

je.je..how

je.je.

je.je..

Alex Kreimer
la source
1

Une variable aléatoire généralement écrite X, est une variable dont les valeurs possibles sont les résultats numériques d'un phénomène aléatoire. Le phénomène aléatoire peut produire des résultats dont les valeurs numériques sont capturées par la variable aléatoire - par exemple le nombre de têtes dans 10 lancers d'une pièce ou les revenus / hauteurs, etc. dans un échantillon - mais ce n'est pas nécessaire.
Plus généralement, une variable aléatoire est une fonction qui mappe des résultats aléatoires à des valeurs numériques. Par exemple, chaque jour peut être ensoleillé, nuageux ou pluvieux. Nous pouvons définir une variable aléatoire qui prend la valeur 1 s'il pleut, 2 s'il est nuageux et 3 s'il est ensoleillé. Le domaine d'une variable aléatoire est l'ensemble des résultats possibles.
Pour établir une variable aléatoire, il doit y avoir un processus ou une expérience associé à des résultats possibles qui ne peuvent être prédits avec certitude.

Venons-en maintenant à la question de l'indépendance. Deux variables aléatoires sont indépendantes si la valeur de l'une d'entre elles n'affecte pas le PDF de l'autre. Nous ne révisons pas nos prévisions concernant les probabilités de valeurs différentes d'une variable lorsque nous savons quelque chose sur l'autre variable. Par conséquent, en cas d'indépendance, les PDF postérieurs sont identiques aux PDF précédents. Par exemple, lorsque nous lançons une pièce non biaisée à plusieurs reprises, les informations dont nous disposons sur le résultat des 5 lancers précédents n'affectent pas notre prédiction sur le tirage actuel, elles seront toujours de 0,5. Cependant, si le biais de la pièce est inconnu et est modélisé comme une variable aléatoire, le résultat des 5 lancers précédents affecte nos prédictions concernant le tirage actuel car il nous permet de faire des inférences concernant le biais inconnu de la pièce.

Venons-en maintenant à la question de l'échantillonnage. Le but de l'échantillonnage est de nous informer sur les propriétés d'une distribution sous-jacente qui n'est pas connue et doit être déduite. N'oubliez pas qu'une distribution fait référence à la probabilité relative de résultats possibles dans l'espace d'échantillonnage (qui peut également être un univers conditionnel). Ainsi, lorsque nous échantillonnons, nous choisissons un nombre fini de résultats dans l'espace échantillon et nous reproduisons l'espace échantillon à une échelle plus petite et plus gérable. La probabilité égale se réfère alors au processus de l'échantillonnage et non à la probabilité des résultats dans l'échantillon. L'échantillonnage à probabilité égale implique que l'échantillon reflétera les proportions des résultats dans l'espace d'échantillonnage d'origine. Par exemple, si nous demandons 10, 000 personnes si elles ont déjà été arrêtées, il est probable que l'échantillon que nous finirons ne sera pas représentatif de la population - l'espace échantillon - car les personnes qui auraient été arrêtées pourraient refuser de répondre, donc la proportion des résultats possibles (arrêté - non arrêté) différera entre notre échantillon et la population pour des raisons systématiques. Ou si nous choisissons un quartier particulier pour mener une enquête, les résultats ne seront pas représentatifs de la ville dans son ensemble. L'échantillonnage à probabilité égale implique donc qu'il n'y a pas de raisons systématiques - autres que le pur hasard - qui nous font croire que les proportions de résultats possibles dans notre échantillon sont différentes des proportions de résultats dans l'espace population / échantillon. par conséquent, la proportion de résultats possibles (arrêtés - non arrêtés) différera entre notre échantillon et la population pour des raisons systématiques. Ou si nous choisissons un quartier particulier pour mener une enquête, les résultats ne seront pas représentatifs de la ville dans son ensemble. L'échantillonnage à probabilité égale implique donc qu'il n'y a pas de raisons systématiques - autres que le pur hasard - qui nous font croire que les proportions de résultats possibles dans notre échantillon sont différentes des proportions de résultats dans l'espace population / échantillon. par conséquent, la proportion de résultats possibles (arrêtés - non arrêtés) différera entre notre échantillon et la population pour des raisons systématiques. Ou si nous choisissons un quartier particulier pour mener une enquête, les résultats ne seront pas représentatifs de la ville dans son ensemble. L'échantillonnage à probabilité égale implique donc qu'il n'y a pas de raisons systématiques - autres que le pur hasard - qui nous font croire que les proportions de résultats possibles dans notre échantillon sont différentes des proportions de résultats dans l'espace population / échantillon.

rf7
la source
-2

Un échantillon aléatoire est une réalisation d'une séquence de variables aléatoires. Ces variables aléatoires peuvent être iid ou non.

mohsen
la source