Des tests comme Z, t et plusieurs autres supposent que les données sont basées sur un échantillonnage aléatoire. Pourquoi?
Supposons que je fais de la recherche expérimentale, où je me soucie beaucoup plus de la validité interne que de la validité externe. Donc, si mon échantillon peut être un peu biaisé, d'accord, car j'ai accepté de ne pas inférer l'hypothèse pour l'ensemble des populations. Et le regroupement sera toujours aléatoire, c'est-à-dire que je choisirai par commodité les participants de l'échantillon, mais je les assignerai au hasard à différents groupes.
Pourquoi ne puis-je pas simplement ignorer cette hypothèse?
Réponses:
Si vous ne faites pas d'inférence pour un groupe plus large que votre échantillon réel, alors il n'y a pas d'application de tests statistiques en premier lieu, et la question du "biais" ne se pose pas. Dans ce cas, vous devez simplement calculer les statistiques descriptives de votre échantillon, qui sont connues. De même, il n'est pas question de «validité» du modèle dans ce cas - vous observez simplement des variables et enregistrez leurs valeurs, et des descriptions des aspects de ces valeurs.
Une fois que vous décidez d'aller au-delà de votre échantillon, de faire des inférences sur un groupe plus large, vous aurez alors besoin de statistiques et vous devrez tenir compte de problèmes tels que le biais d'échantillonnage, etc. Dans cette application, l'échantillonnage aléatoire devient une propriété utile pour aider à obtenir une fiabilité inférences du groupe d'intérêt plus large. Si vous n'avez pas d'échantillonnage aléatoire (et que vous ne connaissez pas les probabilités de vos échantillons en fonction de la population), il devient difficile / impossible de faire des inférences fiables sur la population.
la source
Dans la vraie recherche scientifique, il est assez rare de disposer de données issues d'un véritable échantillonnage aléatoire. Les données sont presque toujours des échantillons de commodité. Cela affecte principalement la population à laquelle vous pouvez généraliser. Cela dit, même s'il s'agissait d'un échantillon de commodité, ils venaient de quelque part, il vous suffit d'être clair sur l'endroit et les limites que cela implique. Si vous pensez vraiment que vos données ne sont représentatives de rien, alors votre étude ne vaudra rien à aucun niveau, mais ce n'est probablement pas vrai 1 . Ainsi, il est souvent raisonnable de considérer vos échantillons comme provenant de quelque part et d'utiliser ces tests standard, au moins dans un sens couvert ou qualifié.
Il existe cependant une philosophie différente des tests, qui fait valoir que nous devrions nous éloigner de ces hypothèses et des tests qui en dépendent. Tukey en était un partisan. Au lieu de cela, la plupart des recherches expérimentales sont considérées (en interne) comme valables parce que les unités d'étude (par exemple, les patients) ont été assignées au hasard aux bras. Compte tenu de cela, vous pouvez utiliser des tests de permutation , qui supposent généralement que la randomisation a été effectuée correctement. Le contre-argument de trop s'inquiéter à ce sujet est que les tests de permutation montreront généralement la même chose que les tests classiques correspondants, et sont plus de travail à effectuer. Encore une fois, des tests standard peuvent être acceptables.
1. Pour plus dans ce sens, il peut être utile de lire ma réponse ici: Identifier la population et les échantillons dans une étude .
la source
Des tests comme Z, t et plusieurs autres sont basés sur des distributions d'échantillonnage connues des statistiques pertinentes. Ces distributions d'échantillonnage, telles qu'elles sont généralement utilisées, sont définies pour la statistique calculée à partir d'un échantillon aléatoire.
Il peut parfois être possible de concevoir une distribution d'échantillonnage pertinente pour l'échantillonnage non aléatoire, mais en général ce n'est probablement pas possible.
la source