Comment interpréter la comparaison des moyennes de différentes tailles d’échantillons?

49

Prenons le cas des cotes de livres sur un site Web. Le livre A est noté par 10 000 personnes avec une note moyenne de 4,25 et la variance . De même, le livre B a été évalué par 100 personnes et a été noté 4.5 avec σ = 0.25 .σ=0.5σ=0.25

Maintenant, à cause de la grande taille de l'échantillon du livre A, la «moyenne stabilisée» à 4,25. Maintenant, pour 100 personnes, il se peut que si plus de personnes lisent le livre B, l’estimation moyenne puisse tomber à 4 ou à 4,25.

  • comment interpréter la comparaison des moyennes d'échantillons différents et quelles sont les meilleures conclusions que l'on puisse / devrait tirer?

Par exemple, pouvons-nous vraiment dire que le livre B est meilleur que le livre A.

Doctorat
la source
Êtes-vous particulièrement intéressé par le contexte de notation?
Jérémie Anglim
@ JeromyAnglim - Hmmm ... probablement. Pas certain. C'est l'exemple le plus commun. Qu'avais tu en tête?
PhD
2
Voir ma réponse concernant les systèmes d'évaluation bayésiens ci-dessous. Des centaines ou des milliers d'objets sont évalués dans les contextes d'évaluation appliqués. Le but est souvent de former la meilleure estimation de l'évaluation pour l'objet, à partir des informations disponibles. Ceci est très différent d'une simple comparaison entre deux groupes, comme vous pourriez le trouver dans une expérience médicale avec deux groupes.
Jeromy Anglim

Réponses:

57

Nn

Pour clarifier mon propos sur le pouvoir, voici une simulation très simple écrite pour R:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

N=100n1=50n2=50n1=75n2=25n1=90n2=10. Notons en outre que le processus normalisé de différence moyenne / génération de données était le même dans tous les cas. Cependant, alors que le test était «significatif» 70% du temps pour l'échantillon 50-50, la puissance était de 56% avec 75-25 et seulement 33% lorsque la taille du groupe était 90-10.

Je pense à cela par analogie. Si vous voulez connaître l'aire d'un rectangle et si le périmètre est fixe, alors l'aire sera maximisée si la longueur et la largeur sont égales (c'est-à-dire si le rectangle est un carré ). D'autre part, lorsque la longueur et la largeur divergent (à mesure que le rectangle s'allonge), la zone se contracte.

gung - Rétablir Monica
la source
le pouvoir est maximisé ?? Je ne suis pas sûr de comprendre. Pourriez-vous s'il vous plaît fournir un exemple si possible?
PhD
5
Le test t peut traiter des tailles d’échantillon inégales parce qu’il prend en compte l’erreur type des estimations des moyennes pour chaque groupe. Il s’agit de l’écart type de la distribution du groupe divisé par la racine carrée de la taille de l’échantillon du groupe. Le groupe dont la taille de l'échantillon est beaucoup plus grande aura l'erreur type la plus petite si les écarts types de la population sont égaux ou presque.
Michael Chernick
@gung - Je ne suis pas sûr de savoir vraiment dans quel «langage» cette simulation est écrite. Je devine 'R'? et j'essaie toujours de le déchiffrer :)
Doctorat le
2
Le code est pour R. Je l'ai commenté pour le rendre plus facile à suivre. Vous pouvez simplement le copier / coller dans R et le lancer vous-même, si vous avez R; la set.seed()fonction vous assurera une sortie identique. Faites-moi savoir s'il est encore trop difficile à suivre.
gung - Rétablir Monica
8
N=n1+n2n1×n2n1n2
10

En plus de la réponse mentionnée par @gung en vous référant au test t, il semble que les systèmes de notation bayésiens pourraient vous intéresser (par exemple, voici une discussion ). Les sites Web peuvent utiliser de tels systèmes pour classer les éléments de commande dont le nombre de votes varie. Essentiellement, ces systèmes fonctionnent en attribuant une note composée des notes moyennes de tous les articles et de la moyenne de l'échantillon de notes pour un objet donné. À mesure que le nombre de notations augmente, le poids attribué à la moyenne de l'objet augmente et le poids attribué à la notation moyenne de tous les articles diminue. Peut-être consulter les moyennes bayésiennes .

Bien sûr, les choses peuvent devenir beaucoup plus complexes lorsque vous traitez un large éventail de problèmes tels que la fraude électorale, les changements au fil du temps, etc.

Jeromy Anglim
la source
Sucré. Jamais entendu parler. Je vais certainement examiner. Peut-être que c'est ce que je recherche après tout :)
Doctorat le