Je sais que si je peux avoir deux distributions avec la même moyenne et la même variance avoir des formes différentes, parce que je peux avoir un N (x, s) et un U (x, s)
Mais qu'en est-il si leurs valeurs min, Q1, médiane, Q3 et max sont identiques?
Les distributions peuvent-elles alors être différentes, ou devront-elles prendre la même forme?
Ma seule logique derrière cela est que s'ils ont exactement le même résumé à 5 chiffres, ils doivent prendre exactement la même forme de distribution.
Réponses:
Ce n'est pas parce que le résumé à cinq chiffres est identique que la distribution est identique. Cela vous indique combien d'informations sont perdues lorsque nous présentons des données sous forme graphique dans un diagramme en boîte!
La façon la plus simple de voir le problème est peut-être que le résumé à cinq chiffres ne vous dit rien sur la répartition des valeurs entre le quartile minimum et le quartile inférieur, ou entre le quartile inférieur et la médiane, etc. Vous savez que la fréquence entre le quartile minimum et le quartile inférieur doit correspondre à la fréquence entre le quartile inférieur et la médiane (avec les exceptions évidentes, par exemple si nous avons des données se situant dans un quartile, ou pire, si deux quartiles sont liés) mais ne sais pas à quelles valeurs de la variable ces fréquences sont attribuées. Nous pouvons avoir une situation comme celle-ci:
Ces deux distributions ont le même résumé à cinq chiffres, de sorte que leurs boîtes à moustaches sont identiques, mais j'ai choisi pour avoir une distribution uniforme entre chaque quartile tandis que a une distribution avec des basses fréquences proches des quartiles et des hautes fréquences au milieu de deux quartiles. En effet, la distribution de a été formée en prenant la distribution de et en éloignant la plupart des données proches d'un quartile; mon code effectue cela en sens inverse, en commençant par la distribution irrégulière de et en nivelant les fréquences en réaffectant les données des pics pour remplir les creux.X Oui Oui X Oui
R
EDIT: Comme le dit @Glen_b, cela devient encore plus évident lorsque vous regardez les distributions cumulatives. J'ai ajouté un quadrillage pour montrer l'emplacement des quartiles, qui sont les mêmes pour les deux distributions, de sorte que leurs CDF empiriques se croisent.
Code R
la source
On y répond le plus clairement en considérant la fonction de distribution (cumulative).
La spécification du minimum, du maximum et des trois quartiles spécifie exactement 5 points sur le cdf, mais le cdf entre ces points peut être n'importe quelle fonction monotone non décroissante entre les deux qui passe toujours par ces points:
Dans le dessin, les CDF rouges et noirs partagent les mêmes minimum, maximum et quartiles, mais sont clairement des distributions différentes. De toute évidence, un certain nombre d'autres CDF pourraient être spécifiés qui passent également par les cinq mêmes points.
En fait, tout ce que nous avons fait est de restreindre notre fonction de distribution dans quatre cases:
(tant qu'il continue également de satisfaire aux autres conditions d'un CDF). Ce n'est pas vraiment une restriction.
La même notion peut être appliquée aux quantités d'échantillons - deux CDF empiriques différents peuvent néanmoins avoir le même résumé à cinq chiffres.
la source
Non, certainement pas le cas. Comme exemple de compteur simple, comparez la distribution uniforme continue sur avec la distribution uniforme discrète sur .[0,3] {0,1,2,3}
Un exemple connexe est le célèbre quatuor d'Anscombe, où il y a 4 jeux de données avec 6 propriétés d'échantillonnage identiques (bien que différentes de celles que vous mentionnez) qui semblent complètement différentes. Voir: http://en.wikipedia.org/wiki/Anscombe%27s_quartet
la source