J'ai créé une page Web qui présente les résultats des médailles olympiques en direct de Thompson Reuters et les chiffres de population mondiale de la CIA.
Les résultats m'intéressent - la Hongrie possède une avance à deux chiffres dans les médailles d'or dans le reste du monde. En outre, les États-Unis et la Chine se situent près du bas dans presque toutes les catégories.
Ma question est - est-ce que je présente les données de manière équitable? J'ai simplement pris la plus grande population, puis créé un facteur pour chaque pays en fonction de cela. Les colonnes relatives au nombre de médailles sont basées sur ce facteur.
Quelle (s) colonne (s) puis-je ajouter? Quels autres facteurs pourrais-je ajouter pour présenter le point de vue le plus juste? La vue absolue est simple - Reuters le fait. Comment créer une vue fidèle?
la source
Réponses:
Vous essayez de trouver une estimation des chances de gagner une médaille, sachant que les "données" dont nous disposons ne sont que le nombre par pays. C'est une grande question, une solution juste étant plus proche de l'esprit des Jeux Olympiques.
Fondamentalement, il s'agit d'un problème statistique qui est bien approché par votre méthode comme le nombre moyen (fréquence) de médailles (pour chaque couleur) par rapport à la population. Mais quelle est la fiabilité de cette méthode? Cela est assez proche du problème d'estimation de la fiabilité d'un tirage binomial à partir d'un nombre différent de lancers qui a des applications, par exemple, pour comparer la qualité des revendeurs sur Amazon en fonction de différents nombres de commentaires (voir cette explication approfondie ).
Dans ce cas particulier, le nombre d'habitants est toujours suffisant pour faire l'approximation de la distribution bêta avec une normale - de sorte qu'il est certainement possible de comparer la significativité de chaque estimation pour chaque pays.
la source