Prenons le cas des cotes de livres sur un site Web. Le livre A est noté par 10 000 personnes avec une note moyenne de 4,25 et la variance . De même, le livre B a été évalué par 100 personnes et a été noté 4.5 avec σ = 0.25 .
Maintenant, à cause de la grande taille de l'échantillon du livre A, la «moyenne stabilisée» à 4,25. Maintenant, pour 100 personnes, il se peut que si plus de personnes lisent le livre B, l’estimation moyenne puisse tomber à 4 ou à 4,25.
- comment interpréter la comparaison des moyennes d'échantillons différents et quelles sont les meilleures conclusions que l'on puisse / devrait tirer?
Par exemple, pouvons-nous vraiment dire que le livre B est meilleur que le livre A.
t-test
mean
sample-size
Doctorat
la source
la source
Réponses:
Pour clarifier mon propos sur le pouvoir, voici une simulation très simple écrite pour R:
Je pense à cela par analogie. Si vous voulez connaître l'aire d'un rectangle et si le périmètre est fixe, alors l'aire sera maximisée si la longueur et la largeur sont égales (c'est-à-dire si le rectangle est un carré ). D'autre part, lorsque la longueur et la largeur divergent (à mesure que le rectangle s'allonge), la zone se contracte.
la source
set.seed()
fonction vous assurera une sortie identique. Faites-moi savoir s'il est encore trop difficile à suivre.En plus de la réponse mentionnée par @gung en vous référant au test t, il semble que les systèmes de notation bayésiens pourraient vous intéresser (par exemple, voici une discussion ). Les sites Web peuvent utiliser de tels systèmes pour classer les éléments de commande dont le nombre de votes varie. Essentiellement, ces systèmes fonctionnent en attribuant une note composée des notes moyennes de tous les articles et de la moyenne de l'échantillon de notes pour un objet donné. À mesure que le nombre de notations augmente, le poids attribué à la moyenne de l'objet augmente et le poids attribué à la notation moyenne de tous les articles diminue. Peut-être consulter les moyennes bayésiennes .
Bien sûr, les choses peuvent devenir beaucoup plus complexes lorsque vous traitez un large éventail de problèmes tels que la fraude électorale, les changements au fil du temps, etc.
la source