Sous-échantillon d'un échantillon aléatoire: échantillon aléatoire?

8

Disons que vous avez un large échantillon aléatoire de joueurs de football en Europe, mais que vous ne vous intéressez qu'à ce qui se passe en Espagne. Pourriez-vous réduire votre échantillon à des joueurs en Espagne et toujours l'appeler un échantillon aléatoire (mais d'une population différente)? Sinon, comment qualifieriez-vous ce sous-échantillon et quelles précautions spécifiques devriez-vous prendre pour pouvoir faire des déductions sur la population de footballeurs espagnols?

Mon sentiment est que l'utilisation de ce sous-échantillon serait bien tant qu'il est assez grand, mais peut-être que je manque quelque chose.

Antoine Vernet
la source
3
Notez que cela est vaguement similaire à l'échantillonnage de rejet. Cependant, dans la méthode que vous décrivez, notez que la taille de votre échantillon résultant est en fait une variable aléatoire. Selon le type d'analyses que vous envisagez, cela peut ou non entraîner des complications. Par exemple, dans de nombreux GLM (mais pas tous), la taille de l'échantillon est effectivement aléatoire, mais l'inférence est conditionnelle (et cette approche peut être justifiée rigoureusement).
cardinal
@cardinal Merci pour la référence à l'échantillonnage de rejet. Je me demande quel type de complications serait introduit? Si le nouvel échantillon peut être décrit comme un échantillon aléatoire d'une autre population, ne puis-je pas «virtuellement» ignorer le fait qu'il a été obtenu par rééchantillonnage?
Antoine Vernet

Réponses:

2

D'une manière générale, ce que vous attendez vraiment d'un échantillon, c'est d'être "représentatif". L'échantillonnage aléatoire est une bonne façon de procéder car il permet à tous les sujets d'avoir la même probabilité d'être échantillonnés; Dans l'espoir que tous les attributs et relations d'attributs existant dans la population existeront dans l'échantillon. Le rendre "représentatif". Dans votre cas, si vous pensez que tous les joueurs espagnols avaient a priori une chance égale d'être tirés au sort dans le (sous-) échantillon, alors c'est "aléatoire".

Concernant les considérations de taille: Une seule observation peut toujours être un "échantillon aléatoire". Des échantillons plus grands sont nécessaires lorsque vous souhaitez plus de précision, et en particulier lorsque vous recherchez des relations rares dans la population, qui pourraient ne pas être présentes dans un petit échantillon.

JohnRos
la source
3
L'aléatoire est plus que des chances antérieures égales. Par exemple, une équipe en Espagne aurait pu être choisie au hasard. En supposant des tailles d'équipe égales, cela donne à tous les footballeurs les mêmes chances d'être inclus dans l'échantillon, mais il est exagéré de supposer qu'une seule équipe est vraiment représentative de tous les joueurs du pays.
whuber
2
(...) mais c'est exagéré de supposer qu'une seule équipe est vraiment représentative de tous les joueurs du pays ... surtout si ce pays est l' Espagne ! :)
Cardinal
2
@ whuber- vous avez raison. Pour être précis, non seulement des chances antérieures égales , mais également des chances égales étant donné le reste de l'échantillon. Cela exclura le système d'échantillonnage par équipe.
JohnRos
@JohnRos. Merci pour la précision de la relation entre le caractère aléatoire et la représentativité.
Antoine Vernet
@whuber Merci d'avoir souligné que des chances antérieures égales sont nécessaires mais pas suffisantes.
Antoine Vernet
1

En supposant qu'il n'y ait pas de biais dans la technique d'échantillonnage, cela devrait convenir. Certaines questions à poser pourraient être:

-> L'enquête a-t-elle été réalisée en espagnol sur demande? (Préjugé linguistique) -> L'enquête a-t-elle été réalisée par téléphone ou en personne? Si par téléphone et que les téléphones portables étaient exclus, les joueurs espagnols sont-ils plus ou moins susceptibles de posséder des téléphones portables que les joueurs du reste de l'Europe, et pour quelles raisons? -> Le taux auquel les joueurs espagnols ont refusé de répondre aux questions du sondage était-il différent du taux pour les joueurs dans leur ensemble? -> Globalement, quelle proportion de joueurs espagnols ont été échantillonnés?

Sans connaître la composition exacte des données, il est difficile d'en dire plus. Y a-t-il des problèmes spécifiques qui vous préoccupent?

John Doucette
la source
Je suis d'accord avec les remarques que vous faites , mais où est-il dit que les joueurs ont été contactés ou ont tenté d'être contactés? L'OP pourrait juste avoir, disons, des statistiques sommaires pour un sous-ensemble aléatoire de joueurs d'Europe.
cardinal
@John Doucette Merci. Ces précautions ont un sens pour moi, mais à proprement parler, ce ne sont pas des précautions statistiques mais des précautions de conception, ce qui m'amène à penser qu'en supposant qu'il n'y a pas de biais connu pour la sous-population, la sélection de personnes dans cette sous-population de votre échantillon vous laisse avec un échantillon aléatoire . Quant aux données, l'exemple est fictif, j'essayais juste de m'éloigner des enfants dans les salles de classe dans les écoles du type d'exemple.
Antoine Vernet