EDIT: Comme cette question a été gonflée, un résumé: trouver différents ensembles de données significatifs et interprétables avec les mêmes statistiques mixtes (moyenne, médiane, milieu de gamme et leurs dispersions associées, et régression).
Le quatuor Anscombe (voir Objectif de visualiser des données de grande dimension? ) Est un exemple célèbre de quatre ensembles de données - , avec la même moyenne marginale / écart-type (sur les quatre et les quatre , séparément) et le même ajustement linéaire OLS , régression et somme résiduelle des carrés, et coefficient de corrélation . Les statistiques de type (marginales et conjointes) sont donc les mêmes, tandis que les ensembles de données sont assez différents.y x y R 2 ℓ 2
EDIT (à partir des commentaires OP) Laissant de côté la petite taille de l'ensemble de données, permettez-moi de proposer quelques interprétations. L'ensemble 1 peut être considéré comme une relation linéaire standard (affine, pour être correcte) avec le bruit distribué. L'ensemble 2 montre une relation nette qui pourrait être le point culminant d'un ajustement de degré supérieur. L'ensemble 3 montre une dépendance statistique linéaire claire avec une valeur aberrante. L'ensemble 4 est plus délicat: la tentative de "prédire" partir de semble vouée à l'échec. La conception de peut révéler un phénomène d'hystérésis avec une plage de valeurs insuffisante, un effet de quantification (le pourrait être quantifié trop fortement), ou l'utilisateur a changé les variables dépendantes et indépendantes.x x x
Ainsi, les fonctionnalités de résumé de des comportements très différents. L'ensemble 2 pourrait être mieux traité avec un ajustement polynomial. Ensemble 3 avec des méthodes résistantes aux valeurs aberrantes ( ou similaire), ainsi que l'ensemble 4. On peut se demander si d'autres fonctions de coût ou indicateurs de divergence pourraient s'installer, ou au moins améliorer la discrimination de l'ensemble de données. EDIT (à partir des commentaires OP): le blog Curious Regressions déclare que:ℓ 1
Soit dit en passant, on me dit que Frank Anscombe n'a jamais révélé comment il a créé ces ensembles de données. Si vous pensez que c'est une tâche facile d'obtenir toutes les statistiques récapitulatives et les résultats de la régression, essayez-le!
Dans les ensembles de données construits dans un but similaire à celui du quatuor d'Anscombe , plusieurs ensembles de données intéressants sont fournis, par exemple avec les mêmes histogrammes basés sur les quantiles. Je n'ai pas vu un mélange de relations significatives et de statistiques mitigées.
Ma question est la suivante: existe-t-il des ensembles de données bivariés (ou trivariés, pour conserver la visualisation) de type Anscombe tels que, en plus d'avoir les mêmes statistiques de type :
- leurs tracés sont interprétables comme une relation entre et y , comme si l'on cherchait une loi entre les mesures,
- ils possèdent les mêmes propriétés marginales (plus robustes) (même médiane et médiane d'écart absolu),
- ils ont les mêmes boîtes englobantes: mêmes valeurs min, max (et donc statistiques de milieu et de milieu de type ).
De tels ensembles de données auraient les mêmes résumés de tracé "boîte et moustaches" (avec min, max, médiane, déviation absolue médiane / MAD, moyenne et std) sur chaque variable, et seraient toujours très différents dans l'interprétation.
Il serait encore plus intéressant que certaines régressions les moins absolues soient les mêmes pour les ensembles de données (mais peut-être que j'en demande déjà trop). Ils pourraient servir de mise en garde lorsque l'on parle de régression robuste ou non robuste, et aider à garder à l'esprit la citation de Richard Hamming:
Le but de l'informatique est la perspicacité, pas les nombres
EDIT (à partir des commentaires OP) Des problèmes similaires sont traités dans Génération de données avec des statistiques identiques mais des graphiques différents , Sangit Chatterjee et Aykut Firata, The American Statistician, 2007, ou Clonage de données: génération d'ensembles de données avec exactement le même ajustement de régression linéaire multiple, J. Aust. N.-Z. Stat. J. 2009.
la source
Réponses:
Pour être concret, j'examine le problème de la création de deux ensembles de données, chacun suggérant une relation, mais la relation de chacun est différente, et pourtant elle a approximativement la même chose:
Considérez, par exemple,
qui a un graphique en forme de V ascendant comme celui-ci:
la source