Comment présenter l'intrigue avec une valeur aberrante extrême?

17

Je pourrais utiliser quelques conseils sur la présentation de certaines données.

Ce premier tracé est une comparaison cas-témoins pour la cytokine IL-10. J'ai défini manuellement l'axe y pour inclure 99% des données.

IL-10 avec axe Y manuel

La raison pour laquelle j'ai défini cela manuellement est que le groupe de cas a une valeur aberrante extrême. Avec valeur aberrante

Mes collaborateurs hésitent à effectuer une suppression aberrante de notre ensemble de données. Je suis d'accord avec ça, mais ils préfèrent ne pas. Ce serait la solution évidente. Mais si je vais conserver toutes les données et ne pas supprimer cette valeur aberrante, comment puis-je présenter ce boxplot de manière optimale? Axe divisé? Est-il acceptable d'utiliser uniquement le premier graphique et de noter qu'il a été construit pour inclure toutes les données? (Cette option me semble malhonnête). Tout conseil serait bon.

Alex C
la source
5
Pourquoi ne pas présenter les deux parcelles?
Alexis

Réponses:

24

Je dirais qu'avec des données comme celles-ci, vous devez vraiment afficher les résultats sur une échelle transformée. C'est le premier impératif et une question plus importante que la façon précise de dessiner un diagramme en boîte.

Mais je fais écho à Frank Harrell en demandant instamment quelque chose de plus informatif qu'une intrigue minimale, même avec certains points extrêmes identifiés. Vous avez suffisamment d'espace pour afficher beaucoup plus d'informations. Voici l'un des nombreux exemples, une boîte hybride et un tracé quantile. Comme dans vos données, deux groupes sont comparés.

entrez la description de l'image ici

Je vais prendre ces deux points un par un et en dire plus.

Échelle transformée

Dans le cas le plus simple, toutes vos valeurs peuvent être positives et vous devez d'abord essayer d'utiliser une échelle logarithmique.

Si vous avez des zéros exacts, une échelle de racine carrée ou de racine de cube améliorera encore l'extrême asymétrie. Certaines personnes sont satisfaites du log (valeur + constante), où constant est le plus souvent 1, comme moyen de faire face aux zéros.

Les implications pour les boîtes à moustaches de l'utilisation d'une échelle transformée sont subtiles.

Si vous utilisez la convention Tukey commune de montrer individuellement tous les points au-delà du quartile supérieur + 1,5 IQR ou du quartile inférieur - 1,5 IQR, alors sans doute ces limites devraient être calculées sur l'échelle transformée. Ce n'est pas la même chose que de calculer ces limites sur l'échelle d'origine, puis de les transformer.

Au lieu de cela, je soutiendrais ce qui semble être encore une convention minoritaire de sélection des quantiles pour les extrémités des moustaches. Un des nombreux avantages de cela est que transformée de quantile = quantile de transformée, au moins assez étroitement pour des fins graphiques dans la plupart des cas. (Les petits caractères apparaissent chaque fois que les quantiles sont calculés par interpolation linéaire entre les statistiques d'ordre adjacentes.)

Cette convention quantile a été suggérée assez en évidence par Cleveland (1985). Pour mémoire, des boîtes à moustaches améliorées avec des boîtes aux quartiles, des boîtes plus minces aux octiles extérieurs (12,5 et 87,5% points) et des graphiques à bandes ont été utilisées en géographie et en climatologie par (par exemple) Matthews (1936) et Grove (1956), sous le nom "diagrammes de dispersion".

Plus que des parcelles de terrain

Les boîtes à moustaches ont été réinventées par Tukey vers 1970 et les plus visiblement promues dans son livre de 1977. Une grande partie de son objectif était de promouvoir des graphiques qui pourraient être rapidement dessinés à l'aide d'un stylo (cil) et de papier dans l'exploration informelle. Il proposait également des moyens d'identifier les valeurs aberrantes possibles. C'était bien, mais maintenant nous avons tous accès à des ordinateurs, il n'est pas difficile de dessiner des graphiques montrant, sinon toutes les données, du moins beaucoup plus de détails. Le rôle récapitulatif des boîtes à moustaches est précieux, mais un graphique peut également montrer la structure fine, au cas où il serait intéressant ou important. (Et ce que les chercheurs pensent être sans intérêt ou sans importance pourrait être plus frappant pour leurs lecteurs.)

Il y a beaucoup de place pour un désaccord poli sur ce qui fonctionne le mieux, mais les parcelles nues ont été plutôt survendues, à mon avis.

Les utilisateurs de Stata peuvent en savoir plus sur le programme qui a dessiné la figure dans ce post Statalist . Les utilisateurs d'autres logiciels ne devraient avoir aucune difficulté à dessiner quelque chose d'aussi bon ou meilleur (sinon pourquoi utiliser ce logiciel?).

Cleveland, WS 1985. Éléments de données graphiques. Monterey, Californie: Wadsworth.

Grove, AT 1956. Érosion des sols au Nigéria. In Steel, RW et Fisher, CA (Eds) Essais géographiques sur les terres tropicales britanniques. Londres: George Philip, 79-111.

Matthews, HA 1936. Une nouvelle vue de quelques pluies indiennes familières. Scottish Geographical Magazine 52: 84-97.

Tukey, JW 1977. Analyse exploratoire des données. Reading, MA: Addison-Wesley.

Nick Cox
la source
1
Je n'ai jamais vu une telle juxtaposition de boîtes à moustaches et d'ECDF auparavant. Vraiment cool! Que pensez-vous de la superposition des deux ECDF dans un panneau séparé?
Frank Harrell
2
@Frank Harrell Merci. La superposition est également une bonne idée. Voir par exemple stata-journal.com/sjpdf.html?articlenum=gr0018 pour quelques exemples dans mon travail.
Nick Cox
14

Pour ne rien retirer de l'excellente réponse de Nick, qui, je pense, vaut bien une tique et un vote positif - mais je voulais explorer certaines possibilités.

Avec des données aussi fortement asymétriques sur plusieurs ordres de grandeur, le tracé à l'échelle logarithmique est souvent assez révélateur; notez que vous pouvez toujours avoir des graduations et des étiquettes de graduation dans les valeurs d'origine. (Je suis d'accord avec les points de Nick concernant les transformations, donc je ne m'étendrai pas là-dessus.)

Outre la transformation, une autre option consiste à faire quelque chose comme votre deuxième tracé, mais à inclure une indication de toutes les valeurs non tracées:

  entrez la description de l'image ici

De cette façon, vous ne supprimez pas les valeurs aberrantes, vous les affichez simplement différemment.

Cependant, je me joindrais à Frank et Nick pour suggérer d'utiliser un affichage plus informatif qu'un simple boxplot - la combinaison d'un boxplot avec un tracé quantile dans le message de Nick semble être une notion particulièrement bonne, bien que l'on puisse tracer légèrement le tracé quantile sur (ou sous , comme ici) la case correspondante au lieu d'être à côté:

  entrez la description de l'image ici

Si vous ne faites pas quelque chose comme ça (simplement avec un boxplot simple, disons), je suggérerais des boîtes beaucoup plus étroites.

Glen_b -Reinstate Monica
la source
3
La superposition de graphiques en quantiles et en boîtes est également intéressante. Il souligne que le diagramme en boîte est une réduction du diagramme quantile, bien que pour certains, le diagramme en boîte puisse alors sembler redondant. Pour un fort accent sur la relation entre les deux graphiques, voir par exemple Parzen, E. 1979. Modélisation des données statistiques non paramétriques. Journal de l'American Statistical Association 74: 105-121
Nick Cox
Avez-vous l'ensemble de données du PO? Ou êtes-vous en train de gratter le graphique / de le simuler?
Nick Cox
2
@ Nick Juste simuler, en gros; J'ai effectivement gratté les points extrêmes (juste à la main, il y en avait si peu), puis j'ai généré des valeurs inférieures aux quartiles supérieurs en échantillonnant à partir de 3 uniformes entre les valeurs connues (les 3 quartiles et le minimum), et entre les quartiles supérieurs et la fin des moustaches supérieures avec des exponentielles, puis ajouté les points extrêmes (juste pour que mes boxplots se ressemblent). C'est du moins l'essentiel de l'idée. Les points extrêmes ne seront pas précis, donc les valeurs imprimées sur mon tracé ressemblent plus à des exemples.
Glen_b -Reinstate Monica
@Glen_b Je peux poser une question distincte si vous préférez, mais quelle méthode avez-vous utilisée pour superposer le tracé quantile avec le boxplot?
Tavrock
@Tavrock Cela fait deux ans et demi que j'ai écrit ça, donc je suppose. La chose la plus évidente à faire est d'appeler pointspour afficher les valeurs quantiles (cela ressemble à quelque chose le long des lignes xs=sort(x); points(ppoints(xs),xs)après le boxplot, mais en y regardant de plus près, les points sont en dessous du boxplot, donc il peut avoir été tracé puis boxplot avec add = TRUE ou peut avoir été boxplot, puis des points puis boxplot sur le dessus ... peut
Glen_b -Reinstate Monica