Quels aspects de l'ensemble de données «Iris» le rendent si efficace en tant qu'ensemble de données d'exemple / d'enseignement / de test

Le jeu de données "Iris" est probablement familier à la plupart des gens ici - c'est l'un des jeux de données de test canoniques et un jeu de données d'exemple pour tout, de la visualisation des données à l'apprentissage automatique. Par exemple, tout le monde dans cette question a fini par l'utiliser pour une discussion de nuages de points séparés par traitement.

Qu'est-ce qui rend l' ensemble de données Iris si utile? Juste que c'était là en premier? Si quelqu'un essayait de créer un exemple / ensemble de données de test utile, quelles leçons pourrait-il en tirer?

dataset Fomite
la source

Petit mais pas banal. Simple mais difficile. De vraies données. La réputation de Fisher, bien que ce ne soit pas ses données. Tradition. Inertie. Continuité. Vous pouvez trouver des photos de fleurs pour le préciser.

Nick Cox

Et maintenant, cela fonctionne comme sur des roulettes.

Michael M

Je dirais que @NickCox a raison.

Marc Claesen

@NickCox Vous voulez développer un peu cela comme réponse?

Fomite

L'ensemble de données «iris» peut être utilisé pour une analyse discriminante, ainsi que pour une classification non supervisée (clustering basé sur un modèle ou sans modèle) à des fins d'illustration. Cette question mérite une référence croisée à Quels sont les bons ensembles de données pour illustrer des aspects particuliers de l'analyse statistique?

chl

Réponses:

Le jeu de données Iris est largement utilisé à juste titre dans la science statistique, en particulier pour illustrer divers problèmes dans les graphiques statistiques, les statistiques multivariées et l'apprentissage automatique.

Contenant 150 observations, il est petit mais pas anodin.
La tâche qu'il pose de distinguer entre trois espèces d' iris des mesures de leurs pétales et sépales est simple mais difficile.
Les données sont de vraies données, mais apparemment de bonne qualité. En principe et dans la pratique, les ensembles de données de test peuvent être synthétiques et cela peut être nécessaire ou utile pour faire valoir un point. Néanmoins, peu de personnes s'opposent aux données réelles.
Les données ont été utilisées par le célèbre statisticien britannique Ronald Fisher en 1936. (Plus tard, il a été fait chevalier et est devenu Sir Ronald.) Au moins certains enseignants aiment l'idée d'un ensemble de données avec un lien vers quelqu'un si bien connu dans le domaine. Les données ont été initialement publiées par le botaniste à l'esprit statistique Edgar S. Anderson, mais cette origine antérieure ne diminue pas l'association.
L'utilisation de quelques ensembles de données célèbres est l'une des traditions que nous transmettons, comme dire à chaque nouvelle génération que Student travaillait pour Guinness ou que de nombreux statisticiens célèbres se sont brouillés. Cela peut ressembler à de l'inertie, mais en comparant les méthodes anciennes et nouvelles, et en évaluant n'importe quelle méthode, il est souvent considéré utile de les essayer sur des ensembles de données connus, maintenant ainsi une certaine continuité dans la façon dont nous évaluons les méthodes.
Dernier point, mais non des moindres, l' ensemble de données Iris peut être agréablement couplé avec des images des fleurs concernées, comme par exemple l'entrée utile de Wikipédia sur l'ensemble de données .

Remarque. Faites votre part pour l'exactitude biologique en citant attentivement les plantes concernées. Iris setosa , Iris versicolor et Iris virginica sont trois espèces (pas des variétés, comme dans certains comptes statistiques); leurs binominaux doivent être présentés en italique, comme ici; et Iris comme nom de genre et les autres noms indiquant des espèces particulières doivent commencer par des majuscules et des minuscules respectivement.

Nick Cox
la source

(+1) Merci d'avoir joliment étendu votre commentaire en réponse.

cardinal

Je donnerais un +1 supplémentaire si je pouvais pour une position de principe pour l'exactitude biologique.

Fomite

L'ensemble de données est suffisamment grand et intéressant pour être non trivial, mais assez petit pour «tenir dans votre poche» et ne pas ralentir l'expérimentation avec.

Je pense qu'un aspect clé est qu'il enseigne également le sur-ajustement. Il n'y a pas assez de colonnes pour donner un score parfait: nous le voyons immédiatement lorsque nous regardons les nuages de points, et ils se chevauchent et se croisent. Ainsi, toute approche d'apprentissage automatique qui obtient un score parfait peut être considérée comme suspecte.

Darren Cook
la source