Supposons que j'ai le minimum, la moyenne et le maximum de certains ensembles de données, disons 10, 20 et 25. Y a-t-il un moyen de:
créer une distribution à partir de ces données, et
savoir quel pourcentage de la population se situe probablement au-dessus ou au-dessous de la moyenne
Éditer:
Selon la suggestion de Glen, supposons que nous avons un échantillon de 200.
distributions
standard-deviation
mean
maximum
minimum
user132053
la source
la source
Réponses:
Il existe un nombre infini de distributions possibles qui seraient cohérentes avec ces quantités d'échantillon.
En l'absence de certaines hypothèses probablement injustifiées, pas en général - du moins pas avec beaucoup de sens que cela aura un sens. Les résultats dépendront en grande partie de vos hypothèses (il n'y a pas beaucoup d'informations dans les valeurs elles-mêmes, bien que certains arrangements particuliers donnent des informations utiles - voir ci-dessous).
Il n'est pas difficile de trouver des situations où les réponses à la question des proportions peuvent être très différentes. Lorsqu'il existe des réponses très différentes et cohérentes avec les informations, comment sauriez-vous dans quelle situation vous vous trouvez?
Plus de détails peuvent donner des indices utiles mais en l'état (sans même une taille d'échantillon, bien que ce soit probablement au moins 2, ou 3 si la moyenne n'est pas à mi-chemin entre les points d'extrémité *), vous n'obtiendrez pas nécessairement beaucoup de valeur sur cette question . Vous pouvez essayer d'obtenir des limites, mais dans de nombreux cas, ils ne restreindront pas beaucoup les choses.
* en fait, si la moyenne est proche d'un point final, vous pouvez obtenir une limite inférieure sur la taille de l'échantillon. Par exemple, si au lieu de 10,20,25 pour votre min / moyenne / max vous aviez 10 24 25 alors devrait être d'au moins 15, et cela suggérerait également que la plupart de la population était supérieure à 24; c'est quelque chose. Mais si on disait 10,18,25, il est beaucoup plus difficile de se faire une idée utile de la taille de l'échantillon, sans parler de la proportion inférieure à la moyenne.n
la source
Comme déjà noté par Glen_b , il existe une infinité de possibilités. Jetez un œil aux graphiques suivants, ils montrent huit distributions différentes qui ont les mêmes valeurs min, max et moyenne.
Notez qu'ils sont très différents les uns des autres. Le premier est uniforme, le quatrième est un mélange bimodal de distributions triangulaires, le septième a la masse de probabilité la plus concentrée autour du centre, mais encore min et max sont possibles avec une très faible probabilité, huit est discret et n'a que deux valeurs à min et à max, etc. .
Puisqu'ils répondent tous à vos critères, vous pouvez utiliser n'importe lequel d'entre eux pour la simulation. Cependant, votre choix subjectif aurait un résultat très profond sur le résultat de la simulation. Ce que je veux dire, c'est que si min, max et mean sont vraiment la seule chose que vous savez sur la distribution, alors vous n'avez pas suffisamment d'informations pour effectuer la simulation si vous voulez vraiment imiter la distribution réelle (inconnue).
Vous devez donc vous demander ce que vous savez sur la distribution? Est-ce discret ou continu? Symétrique ou asymétrique? Unimodal ou bimodal? Il y a beaucoup de choses à considérer. Si elle est continue, non uniforme et unimodale, et que vous ne connaissez que le min, le max et la moyenne, alors un choix possible est la distribution triangulaire - il est très peu probable que quoi que ce soit dans la vie réelle ait une telle distribution, mais au moins vous utilisez quelque chose de simple et ne pas imposer trop d'hypothèses sur sa forme.
la source
Une règle basée sur la plage pour calculer l'écart type est largement citée dans la littérature statistique (voici une référence ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Déviation.htm ). Fondamentalement, c'est (max-min) / 4. Il s'agit d'une estimation très approximative.
Étant donné que les informations et la volonté d' assumer des données normalement distribuées, des écarts normaux peuvent être générés à partir de deux nombres, la moyenne et l'écart std basé sur la plage. Cela dit, toute distribution à un ou deux paramètres peut être générée à partir de ces deux informations, à condition que cette distribution soit enracinée au premier ou au deuxième moment.
Un coefficient de variation approximatif pourrait également être produit en prenant le rapport SD / Mean. Cela fournirait une approximation de la variabilité sans unité dans les données.
L'erreur se réfère plus correctement à la distribution d'échantillonnage de la population et nécessite une déclaration de la taille de l'échantillon, n , pour l'estimation. Votre description ne fournit pas ce détail.
la source