J'ai lu plusieurs articles et extraits de livres qui expliquent comment choisir un bon nombre d'intervalles (bacs) pour l'histogramme d'un ensemble de données, mais je me demande s'il y a un nombre maximum d'intervalles en fonction du nombre de points dans un ensemble de données ou un autre critère.
Contexte: La raison pour laquelle je demande, c'est que j'essaie d'écrire un logiciel basé sur une procédure à partir d'un document de recherche. Une étape de la procédure consiste à créer plusieurs histogrammes à partir d'un ensemble de données, puis à choisir la résolution optimale en fonction d'une fonction caractéristique (définie par les auteurs de l'article). Mon problème est que les auteurs ne mentionnent pas de limite supérieure pour le nombre d'intervalles à tester. (J'ai des centaines de jeux de données à analyser, et chacun peut avoir un nombre de bacs "optimal" différent. De plus, il est important que le nombre optimal de bacs soit sélectionné, donc regarder manuellement les résultats et en choisir un bon ne le sera pas travail.)
Le simple fait de fixer le nombre maximal d'intervalles comme étant le nombre de points dans l'ensemble de données serait-il une bonne ligne directrice, ou existe-t-il un autre critère généralement utilisé dans les statistiques?
la source
Réponses:
Il n'y a vraiment pas de limite supérieure stricte, mais d'un autre côté, dans la plupart des situations, une fois que vous avez obtenu toutes les observations uniques dans leur propre bac, des bacs plus fins ne servent qu'à localiser plus précisément leurs positions sans en transmettre beaucoup plus. par exemple, comparez-les:
Sauf dans certaines circonstances très particulières, il n'y aura probablement aucun avantage pratique dans le deuxième complot, et pas beaucoup dans le premier. Si vos données sont continues, c'est probablement bien au-delà d'un nombre utile de bacs.
Donc, dans la plupart des situations, cela semble être au moins une limite supérieure pratique - chaque observation unique dans son propre bac.
(S'il est avantage dans plus bacs que l' une par l' observation unique, vous devriez probablement faire un rugplot ou un stripchart vacillant pour obtenir ce genre d'information) - quelque chose comme ce qui est fait en marge de ces histogrammes:
(Ces histogrammes sont tirés de cette réponse , vers la fin)
la source
Il y a de bonnes raisons d'avoir un grand nombre de casiers, par exemple des casiers pour chaque valeur possible, chaque fois que l'on soupçonne que le détail d'un histogramme ne serait pas du bruit, mais une structure fine intéressante ou importante.
Ce n'est pas directement lié à la motivation précise de cette question, souhaitant une règle automatisée pour un certain nombre optimal de bacs, mais elle est pertinente pour la question dans son ensemble.
Passons immédiatement aux exemples. En démographie, l'arrondissement des âges déclarés est courant, en particulier, mais pas seulement, dans les pays à alphabétisation limitée. Ce qui peut arriver, c'est que beaucoup de gens ne connaissent pas leur date exacte de naissance, ou qu'il y a des raisons sociales ou personnelles de minimiser ou d'exagérer leur âge. L'histoire militaire regorge d'exemples de personnes qui racontent des mensonges sur leur âge, soit pour éviter, soit pour chercher du service dans les forces armées. En effet, de nombreux lecteurs connaîtront quelqu'un qui est très timide ou autrement pas tout à fait véridique à propos de leur âge, même s'ils ne mentent pas à ce sujet lors d'un recensement. Le résultat net varie, mais comme cela est déjà implicite, il s'agit généralement d'arrondis, par exemple, les âges se terminant par 0 et 5 sont beaucoup plus courants que les âges inférieurs ou supérieurs à un an.
Soit dit en passant, regarder les derniers chiffres des données rapportées est une méthode simple et bonne de vérifier les données fabriquées, une méthode beaucoup plus facile à comprendre et moins problématique que l'examen à la mode des premiers chiffres avec un appel à la loi de Benford.
Le résultat des histogrammes devrait maintenant être clair. Une présentation en forme de pointe peut servir à montrer, ou plus généralement à vérifier, ce type de structure fine. Naturellement, si rien d'intéressant n'est discernable, le graphique peut être de peu d'utilité.
Un exemple montre le regroupement des âges du recensement du Ghana pour 1960. Voir http://www.stata.com/manuals13/rspikeplot.pdf
Il y a eu un bon examen des distributions des derniers chiffres dans
Preece, DA 1981. Distribution des derniers chiffres dans les données. Le statisticien 30: 31-60.
Une note sur la terminologie: certaines personnes écrivent sur les valeurs uniques d'une variable alors qu'elles préfèrent parler des valeurs distinctes d'une variable. Les dictionnaires et les guides d'utilisation indiquent toujours que «unique» signifie ne se produire qu'une seule fois. Ainsi, les âges distincts déclarés d'une population pourraient être, en années, 0, 1, 2, etc., mais la grande majorité de ces âges ne seront pas uniques à une seule personne.
la source
Il n'y a pas de maximum fixe pour le nombre de cases dans un histogramme. Si la variable tracée est continue, alors un argument peut être fait pour un nombre infini de catégories (et l'histogramme devient fondamentalement un tracé de tapis).
Le nombre de points dans l'ensemble de données n'est pas une limite supérieure appropriée. Prenons un ensemble de données contenant deux valeurs: 1 et 1000. Avoir deux bacs ne serait pas approprié.
Deux méthodes pratiques pour déterminer une borne supérieure sont les suivantes: a) Déterminer l'arrondi sous-jacent des données. Par exemple, si les données sont des entiers, il est logique d'avoir des bacs de largeur entière. b) En regardant la résolution visible maximale (par exemple, le nombre de pixels dans la dimension horizontale qui peuvent être utilisés pour le traçage).
la source