Donc, j'ai un ensemble de données de pourcentages comme ceci:
100 / 10000 = 1% (0.01)
2 / 5 = 40% (0.4)
4 / 3 = 133% (1.3)
1000 / 2000 = 50% (0.5)
Je veux trouver l'écart type des pourcentages, mais pondéré pour leur volume de données. c'est-à-dire que le premier et le dernier point de données devraient dominer le calcul.
Comment je fais ça? Et existe-t-il un moyen simple de le faire dans Excel?
Réponses:
La formule de l'écart-type pondéré est la suivante:
où
N'oubliez pas que la formule de la moyenne pondérée est:
la source
Les formules sont disponibles à divers endroits, dont Wikipedia .
La clé est de remarquer que cela dépend de la signification des poids . En particulier, vous obtiendrez des réponses différentes si les poids sont des fréquences (c'est-à-dire que vous essayez simplement d'éviter de faire la somme totale), si les poids sont en fait la variance de chaque mesure, ou si ce ne sont que des valeurs externes que vous imposer à vos données.
Dans votre cas, il semble superficiellement que les poids soient des fréquences, mais ils ne le sont pas . Vous générez vos données à partir de fréquences, mais ce n'est pas une simple question d'avoir 45 enregistrements de 3 et 15 enregistrements de 4 dans votre ensemble de données. Au lieu de cela, vous devez utiliser la dernière méthode. (En fait, tout cela est des ordures - vous devez vraiment utiliser un modèle plus sophistiqué du processus qui génère ces nombres! Vous n'avez apparemment pas quelque chose qui crache des nombres normalement distribués, donc caractérisant le système avec l'écart-type n'est pas la bonne chose à faire.)
Dans tous les cas, la formule de variance (à partir de laquelle vous calculez l'écart type de manière normale) avec des poids de «fiabilité» est
Vous n'avez pas d'estimation pour les poids, que je suppose que vous voulez considérer comme proportionnels à la fiabilité. Prendre des pourcentages comme vous allez rendre l'analyse difficile même s'ils sont générés par un processus de Bernoulli, car si vous obtenez un score de 20 et 0, vous avez un pourcentage infini. La pondération par l'inverse du SEM est une chose courante et parfois optimale à faire. Vous devriez peut-être utiliser une estimation bayésienne ou un intervalle de score de Wilson .
la source
La colonne
G
est des poids, la colonneH
est des valeursla source
la source
la source