J'ai eu du mal à comprendre la signification de "échantillon aléatoire" ainsi que de "variable aléatoire iid". J'ai essayé de trouver le sens à partir de plusieurs sources, mais je suis devenu de plus en plus confus. Je poste ici ce que j'ai essayé et appris à connaître:
Probabilité et statistiques de Degroot dit:
Échantillons aléatoires / iid / taille de l'échantillon: considérons une distribution de probabilité donnée sur la ligne réelle qui peut être représentée par un pf ou un pdf . On dit que variables aléatoires forme un échantillon aléatoire à partir de cette distribution si ces variables aléatoires sont indépendantes et que le pf ou pdf marginal de chacune d'elles est . Ces variables aléatoires sont également dites indépendantes et identiquement distribuées, abrégées iid. Nous appelons le nombre n de variables aléatoires la taille de l'échantillon.X 1 , . . . , X n f
Mais l'un des autres livres de statistiques que j'ai dit:
Dans un échantillonnage aléatoire, nous garantissons que chaque unité individuelle dans la population a une chance (probabilité) égale d'être sélectionnée.
J'ai donc le sentiment que les iids sont des éléments qui construisent un échantillon aléatoire, et la procédure pour avoir un échantillon aléatoire est un échantillonnage aléatoire. Ai-je raison?
PS: Je suis très confus sur ce sujet, donc j'apprécierai une réponse détaillée. Merci.
la source
Réponses:
Vous ne dites pas ce que l'autre livre de statistiques est, mais je suppose que c'est un livre (ou une section) sur l' échantillonnage de population finie .
Lorsque vous échantillonnez des variables aléatoires, c'est-à-dire lorsque vous considérez un ensemble de n variables aléatoires, vous savez que si elles sont indépendantes, f ( xX1, … , Xn n , et de distribution identiqueF( x1, … , Xn) = f( x1) ⋯ f( xn) , notammentetVar( X i )E(Xi)=μ pour tout i , alors:
¯ X = ∑ i X iVar(Xi)=σ2 i
oùσ2est le deuxième moment central.
L'échantillonnage d'une population finie est quelque peu différent. Si la population est de taille , dans l'échantillonnage sans remplacement, il y a ( NN échantillons possiblesside taillenet ils sont équiprobables:
p(si)=1( Nn) sje n
Par exemple, siN=5etn=3, l'espace d'échantillonnage est{s1,…,s10}
et les échantillons possibles sont:
s 1 ={1,2,3}, s 2 ={1,2,4}, s 3 ={1,2,5}, s 4
Soit une moyenne de polulation (taille moyenne, revenu moyen, ...). Quand nμ n < N μ
Ceci est un exemple rapide de la différence entre un échantillon aléatoire (variable aléatoire) et un échantillon aléatoire (population finie). L'inférence statistique concerne principalement l'échantillonnage variable aléatoire, la théorie de l'échantillonnage concerne l'échantillonnage à population finie.
la source
Je ne vous ennuierai pas avec des définitions et des formules probabilistes, que vous pouvez facilement trouver dans n'importe quel manuel (ou voici un bon point de départ)
la source
Une variable aléatoire généralement écrite X, est une variable dont les valeurs possibles sont les résultats numériques d'un phénomène aléatoire. Le phénomène aléatoire peut produire des résultats dont les valeurs numériques sont capturées par la variable aléatoire - par exemple le nombre de têtes dans 10 lancers d'une pièce ou les revenus / hauteurs, etc. dans un échantillon - mais ce n'est pas nécessaire.
Plus généralement, une variable aléatoire est une fonction qui mappe des résultats aléatoires à des valeurs numériques. Par exemple, chaque jour peut être ensoleillé, nuageux ou pluvieux. Nous pouvons définir une variable aléatoire qui prend la valeur 1 s'il pleut, 2 s'il est nuageux et 3 s'il est ensoleillé. Le domaine d'une variable aléatoire est l'ensemble des résultats possibles.
Pour établir une variable aléatoire, il doit y avoir un processus ou une expérience associé à des résultats possibles qui ne peuvent être prédits avec certitude.
Venons-en maintenant à la question de l'indépendance. Deux variables aléatoires sont indépendantes si la valeur de l'une d'entre elles n'affecte pas le PDF de l'autre. Nous ne révisons pas nos prévisions concernant les probabilités de valeurs différentes d'une variable lorsque nous savons quelque chose sur l'autre variable. Par conséquent, en cas d'indépendance, les PDF postérieurs sont identiques aux PDF précédents. Par exemple, lorsque nous lançons une pièce non biaisée à plusieurs reprises, les informations dont nous disposons sur le résultat des 5 lancers précédents n'affectent pas notre prédiction sur le tirage actuel, elles seront toujours de 0,5. Cependant, si le biais de la pièce est inconnu et est modélisé comme une variable aléatoire, le résultat des 5 lancers précédents affecte nos prédictions concernant le tirage actuel car il nous permet de faire des inférences concernant le biais inconnu de la pièce.
Venons-en maintenant à la question de l'échantillonnage. Le but de l'échantillonnage est de nous informer sur les propriétés d'une distribution sous-jacente qui n'est pas connue et doit être déduite. N'oubliez pas qu'une distribution fait référence à la probabilité relative de résultats possibles dans l'espace d'échantillonnage (qui peut également être un univers conditionnel). Ainsi, lorsque nous échantillonnons, nous choisissons un nombre fini de résultats dans l'espace échantillon et nous reproduisons l'espace échantillon à une échelle plus petite et plus gérable. La probabilité égale se réfère alors au processus de l'échantillonnage et non à la probabilité des résultats dans l'échantillon. L'échantillonnage à probabilité égale implique que l'échantillon reflétera les proportions des résultats dans l'espace d'échantillonnage d'origine. Par exemple, si nous demandons 10, 000 personnes si elles ont déjà été arrêtées, il est probable que l'échantillon que nous finirons ne sera pas représentatif de la population - l'espace échantillon - car les personnes qui auraient été arrêtées pourraient refuser de répondre, donc la proportion des résultats possibles (arrêté - non arrêté) différera entre notre échantillon et la population pour des raisons systématiques. Ou si nous choisissons un quartier particulier pour mener une enquête, les résultats ne seront pas représentatifs de la ville dans son ensemble. L'échantillonnage à probabilité égale implique donc qu'il n'y a pas de raisons systématiques - autres que le pur hasard - qui nous font croire que les proportions de résultats possibles dans notre échantillon sont différentes des proportions de résultats dans l'espace population / échantillon. par conséquent, la proportion de résultats possibles (arrêtés - non arrêtés) différera entre notre échantillon et la population pour des raisons systématiques. Ou si nous choisissons un quartier particulier pour mener une enquête, les résultats ne seront pas représentatifs de la ville dans son ensemble. L'échantillonnage à probabilité égale implique donc qu'il n'y a pas de raisons systématiques - autres que le pur hasard - qui nous font croire que les proportions de résultats possibles dans notre échantillon sont différentes des proportions de résultats dans l'espace population / échantillon. par conséquent, la proportion de résultats possibles (arrêtés - non arrêtés) différera entre notre échantillon et la population pour des raisons systématiques. Ou si nous choisissons un quartier particulier pour mener une enquête, les résultats ne seront pas représentatifs de la ville dans son ensemble. L'échantillonnage à probabilité égale implique donc qu'il n'y a pas de raisons systématiques - autres que le pur hasard - qui nous font croire que les proportions de résultats possibles dans notre échantillon sont différentes des proportions de résultats dans l'espace population / échantillon.
la source
Un échantillon aléatoire est une réalisation d'une séquence de variables aléatoires. Ces variables aléatoires peuvent être iid ou non.
la source