Ensembles de données de type Anscombe avec le même tracé de boîte et de moustaches (moyenne / std / médiane / MAD / min / max)

21

EDIT: Comme cette question a été gonflée, un résumé: trouver différents ensembles de données significatifs et interprétables avec les mêmes statistiques mixtes (moyenne, médiane, milieu de gamme et leurs dispersions associées, et régression).

Le quatuor Anscombe (voir Objectif de visualiser des données de grande dimension? ) Est un exemple célèbre de quatre ensembles de données - , avec la même moyenne marginale / écart-type (sur les quatre et les quatre , séparément) et le même ajustement linéaire OLS , régression et somme résiduelle des carrés, et coefficient de corrélation . Les statistiques de type (marginales et conjointes) sont donc les mêmes, tandis que les ensembles de données sont assez différents.y x y R 2 2XyXyR22

Quatuor d'Anscombe

EDIT (à partir des commentaires OP) Laissant de côté la petite taille de l'ensemble de données, permettez-moi de proposer quelques interprétations. L'ensemble 1 peut être considéré comme une relation linéaire standard (affine, pour être correcte) avec le bruit distribué. L'ensemble 2 montre une relation nette qui pourrait être le point culminant d'un ajustement de degré supérieur. L'ensemble 3 montre une dépendance statistique linéaire claire avec une valeur aberrante. L'ensemble 4 est plus délicat: la tentative de "prédire" partir de semble vouée à l'échec. La conception de peut révéler un phénomène d'hystérésis avec une plage de valeurs insuffisante, un effet de quantification (le pourrait être quantifié trop fortement), ou l'utilisateur a changé les variables dépendantes et indépendantes.x x xyXXX

Ainsi, les fonctionnalités de résumé de des comportements très différents. L'ensemble 2 pourrait être mieux traité avec un ajustement polynomial. Ensemble 3 avec des méthodes résistantes aux valeurs aberrantes ( ou similaire), ainsi que l'ensemble 4. On peut se demander si d'autres fonctions de coût ou indicateurs de divergence pourraient s'installer, ou au moins améliorer la discrimination de l'ensemble de données. EDIT (à partir des commentaires OP): le blog Curious Regressions déclare que:121

Soit dit en passant, on me dit que Frank Anscombe n'a jamais révélé comment il a créé ces ensembles de données. Si vous pensez que c'est une tâche facile d'obtenir toutes les statistiques récapitulatives et les résultats de la régression, essayez-le!

Dans les ensembles de données construits dans un but similaire à celui du quatuor d'Anscombe , plusieurs ensembles de données intéressants sont fournis, par exemple avec les mêmes histogrammes basés sur les quantiles. Je n'ai pas vu un mélange de relations significatives et de statistiques mitigées.

Ma question est la suivante: existe-t-il des ensembles de données bivariés (ou trivariés, pour conserver la visualisation) de type Anscombe tels que, en plus d'avoir les mêmes statistiques de type 2 :

  • leurs tracés sont interprétables comme une relation entre et y , comme si l'on cherchait une loi entre les mesures,Xy
  • ils possèdent les mêmes propriétés marginales (plus robustes) (même médiane et médiane d'écart absolu),1
  • ils ont les mêmes boîtes englobantes: mêmes valeurs min, max (et donc statistiques de milieu et de milieu de type ).

De tels ensembles de données auraient les mêmes résumés de tracé "boîte et moustaches" (avec min, max, médiane, déviation absolue médiane / MAD, moyenne et std) sur chaque variable, et seraient toujours très différents dans l'interprétation.

Il serait encore plus intéressant que certaines régressions les moins absolues soient les mêmes pour les ensembles de données (mais peut-être que j'en demande déjà trop). Ils pourraient servir de mise en garde lorsque l'on parle de régression robuste ou non robuste, et aider à garder à l'esprit la citation de Richard Hamming:

Le but de l'informatique est la perspicacité, pas les nombres

EDIT (à partir des commentaires OP) Des problèmes similaires sont traités dans Génération de données avec des statistiques identiques mais des graphiques différents , Sangit Chatterjee et Aykut Firata, The American Statistician, 2007, ou Clonage de données: génération d'ensembles de données avec exactement le même ajustement de régression linéaire multiple, J. Aust. N.-Z. Stat. J. 2009.

(X,y)

21

Laurent Duval
la source
3
Si vous êtes juste après des ensembles de données univariés avec les mêmes boîtes à moustaches, j'ai donné un ensemble dans une réponse à une question il y a quelque temps, basé sur le développement d'un document. Attendez, je vais creuser. (modifier) ​​... ici . Il est facile de créer plus d'ensembles de données avec les mêmes propriétés ... J'aborde cela dans une autre réponse, ici .
Glen_b -Reinstate Monica
2
Xy
Xy
3
Chatterjee & Firat ( The American Statistician , 2007) , liés à cette réponse à cette question , fournissent un algorithme génétique assez général que vous devriez pouvoir adapter de manière simple à vos besoins.
S.Kolassa - Rétablir Monica le
1
Les graphiques sont des exemples de moments de population n'ayant aucun sens lorsque les moments de distribution sont ignorés. La moyenne, l'écart type, l'asymétrie et les autres moments de la population ne correspondent pas aux valeurs attendues, aux écarts types, à l'asymétrie et aux autres moments des distributions qui décrivent le mieux ces populations. Lorsque les graphiques ci-dessus sont considérés comme des distributions de valeurs x et de valeurs y, elles sont toutes différentes et ont donc des moments de distribution différents. C'est pire qu'en ignorant simplement la structure résiduelle, ce qui était peut-être le point, on ne peut ignorer ni l'un ni l'autre en toute impunité.
Carl

Réponses:

1

Pour être concret, j'examine le problème de la création de deux ensembles de données, chacun suggérant une relation, mais la relation de chacun est différente, et pourtant elle a approximativement la même chose:

  • signifie x
  • signifie y
  • SD x
  • SD y
  • médiane x
  • médiane y
  • minimum x
  • minimum y
  • maximum x
  • maximum y
  • écart médian absolu par rapport à la médiane de x
  • écart médian absolu par rapport à la médiane de y
  • coefficients de régression linéaire simple de y sur x

signifiery=0miny=-maxy

Considérez, par exemple,

X019293949596979891y-1-1201211120-12-1

qui a un graphique en forme de V ascendant comme celui-ci:

graphique

y-y

Kodiologue
la source
Belle contribution. En effet, je suis tombé sur la ligne horizontale, c'est un peu de la tricherie par rapport à l'OLS. Le retournement est une bonne idée, mais si les jeux de données sont différents, ils restent similaires. Mais je pense que vous avez une bonne idée, peut-être qu'une forme "N" et une forme "W" de la même manière pourraient être le début d'un chemin
Laurent Duval