Si je comprends bien, les écoles britanniques enseignent que l'écart-type se trouve en utilisant:
alors que les écoles américaines enseignent:
(au niveau de base de toute façon).
Cela a causé un certain nombre de problèmes à mes étudiants dans le passé, car ils ont cherché sur Internet, mais ils ont trouvé la mauvaise explication.
Pourquoi la différence?
Avec des ensembles de données simples, par exemple 10 valeurs, quel degré d'erreur y aura-t-il si la mauvaise méthode est appliquée (par exemple dans un examen)?
Réponses:
La première formule est l' écart type de la population et la deuxième formule est l' écart type de l' échantillon . La deuxième formule est également liée à l'estimateur non biaisé de la variance - voir wikipedia pour plus de détails.
Je suppose (ici) au Royaume-Uni qu'ils ne font pas la distinction entre l'échantillon et la population au lycée. Ils ne touchent certainement pas à des concepts tels que les estimateurs biaisés.
la source
Parce que personne n'a encore répondu à la dernière question - à savoir, pour quantifier les différences entre les deux formules - prenons soin de cela.
Pour de nombreuses raisons, il convient de comparer les écarts-types en termes de ratios plutôt que de différences. Le rapport est
L'approximation peut être considérée comme tronquant la série de Taylor (alternée) pour la racine carrée, indiquant que l'erreur ne peut pas dépasser|(1/22)N−2| 1/(8N2) N 2
la source
Ceci est la correction de Bessel . La version américaine montre la formule de l' écart-type de l' échantillon , où la version britannique ci-dessus est l' écart-type de l'échantillon .
la source
Je ne suis pas sûr que ce soit un problème purement américain contre britannique. Le reste de cette page est extrait d'une FAQ que j'ai écrite ( http://www.graphpad.com/faq/viewfaq.cfm?faq=1383 ).
Comment calculer la SD avec n-1 dans le dénominateur
Calculez le carré de la différence entre chaque valeur et la moyenne de l'échantillon.
Ajoutez ces valeurs.
Divisez la somme par n-1. Le résultat est appelé la variance.
Prenez la racine carrée pour obtenir l'écart-type.
Pourquoi n-1?
Pourquoi diviser par n-1 plutôt que n lors du calcul d'un écart-type? À l'étape 1, vous calculez la différence entre chaque valeur et la moyenne de ces valeurs. Vous ne connaissez pas la véritable moyenne de la population; tout ce que vous savez, c'est la moyenne de votre échantillon. À l'exception des rares cas où la moyenne de l'échantillon est égale à la moyenne de la population, les données seront plus proches de la moyenne de l'échantillon que de la vraie moyenne de la population. Ainsi, la valeur que vous calculez à l'étape 2 sera probablement un peu plus petite (et ne peut pas être plus grande) que ce qu'elle serait si vous utilisiez la moyenne réelle de la population à l'étape 1. Pour compenser cela, divisez par n-1 plutôt que nv C'est ce qu'on appelle la correction de Bessel.
Mais pourquoi n-1? Si vous connaissiez la moyenne de l'échantillon et toutes les valeurs sauf une, vous pourriez calculer quelle doit être cette dernière valeur. Les statisticiens disent qu'il y a n-1 degrés de liberté.
Quand la SD doit-elle être calculée avec un dénominateur de n au lieu de n-1?
Les livres de statistiques montrent souvent deux équations pour calculer la SD, l'une en utilisant n et l'autre en utilisant n-1, dans le dénominateur. Certaines calculatrices ont deux boutons.
L'équation n-1 est utilisée dans la situation courante où vous analysez un échantillon de données et souhaitez tirer des conclusions plus générales. Le SD calculé de cette façon (avec n-1 dans le dénominateur) est votre meilleure estimation de la valeur du SD dans la population globale.
Si vous souhaitez simplement quantifier la variation dans un ensemble particulier de données et ne prévoyez pas d'extrapoler pour tirer des conclusions plus larges, vous pouvez calculer la SD en utilisant n dans le dénominateur. Le SD résultant est le SD de ces valeurs particulières. Cela n'a aucun sens de calculer la SD de cette façon si vous voulez estimer la SD de la population à partir de laquelle ces points ont été tirés. Cela n'a de sens d'utiliser n dans le dénominateur que lorsqu'il n'y a pas d'échantillonnage d'une population, il n'y a pas de désir de tirer des conclusions générales.
Le but de la science est presque toujours de généraliser, donc l'équation avec n au dénominateur ne doit pas être utilisée. Le seul exemple auquel je peux penser où cela pourrait avoir un sens est de quantifier la variation entre les résultats des examens. Mais beaucoup mieux serait de montrer un nuage de points de chaque score, ou un histogramme de distribution de fréquence.
la source
Puisque N est le nombre de points dans l'ensemble de données, on pourrait faire valoir qu'en calculant la moyenne, on a réduit le degré de liberté dans l'ensemble de données de un (car on a introduit une dépendance dans l'ensemble de données), donc on devrait utiliser N -1 lors de l'estimation de l'écart-type d'un ensemble de données dont il fallait auparavant estimer la moyenne.
la source