S'agit-il simplement de l'agrégation de points de données? Ou s'agit-il de la représentation de points de données pour différents éléments dans un format tabulaire arrangé avec les valeurs des différentes variables? En quoi est-ce différent des données brutes?
10
Réponses:
D'après mon expérience, "ensemble de données" (ou "ensemble de données") est un terme informel qui fait référence à une collection de données. En général, un ensemble de données contient plus d'une variable et concerne un seul sujet; elle concernera probablement un seul échantillon.
Une erreur que je vois souvent les auteurs de questions de validation croisée est d'utiliser "ensemble de données" comme synonyme de "variable" ou "vecteur".
la source
Je pense que Wikipedia fait un travail décent pour le définir:
Comme vous pouvez le voir, le terme est quelque peu vague.
la source
Je pense que vous pourriez avoir besoin de définir un point de données avant de pouvoir définir un ensemble de données : pourquoi une primitive et n'ayant pas besoin de définition, mais pas l'inverse?
Au moins deux définitions ont du sens pour moi:
Une ou plusieurs observations (observations, enregistrements, lignes) pour une ou plusieurs variables (champs. Colonnes).
Tout ce qui est stocké sous forme de données dans un fichier lisible par un programme de choix.
La disposition tabulaire est courante mais je ne pense pas que cela fasse partie d'une définition; la façon dont les données sont stockées peut être pratiquement importante, naturellement.
PS Le mot "format" est tellement surchargé qu'il est préférable de l'éviter sauf s'il est spécifié sans ambiguïté. Je l'ai vu utilisé pour
Format de fichier général ou spécifique ou fichier binaire
Structure de données, p.ex. tabulaire ou autre
Stockage de données ou types de variables, par exemple bit, entier, réel, caractère
Format d'affichage contrôlant la présentation, par exemple détails sur le nombre de décimales; affichage décimal, hexadécimal ou binaire.
la source
Il y a déjà de bonnes réponses ici et je ne pense pas pouvoir pénétrer plus profondément que Nick Cox ou Franck Dernoncourt la question de savoir si "l'ensemble de données" se réfère à la collecte conceptuelle de données connexes, ou à l' arrangement particulier de ces données, par exemple dans une table / matrice ou un fichier lisible par ordinateur. L'extrait de Franck mentionne des cas marginaux comme des données collectées en continu ou des données réparties sur plusieurs tableaux, qui méritent d'être prises en compte si vous supposez qu'il y aura une définition simple. (Tous les logiciels de statistiques ne peuvent pas le gérer, mais il est très facile d'imaginer un cas où les données sont stockées dans une base de données relationnelle avec plusieurs tables. La base de données entière est-elle un "ensemble de données" unique?)
Une chose que j'ajouterai cependant, c'est que les ensembles de données ne sont généralement pas des ensembles, au sens mathématique! Sensu stricto soit un ensemble contient un objet, soit il n'en contient pas, mais ne peut pas contenir plus d'une copie de cet objet. Si je lance un dé huit fois et que je marque 1, 4, 3, 5, 5, 4, 6, 4, alors l' ensemble des scores obtenus est simplement {1, 3, 4, 5, 6}. Notez que les éléments peuvent être dans n'importe quel ordre, je viens de les écrire en ordre croissant mais l'ensemble {5, 4, 1, 6, 3} est mathématiquement égal à lui, par exemple. Ce n'est cependant pas ce que nous entendons habituellement par un ensemble de données!
Mais les vecteurs ne servent qu'à enregistrer une variable - pour plusieurs, il peut être plus pratique d'utiliser une matrice pour tabuler avec l'ordre préservé. Pour des situations plus sophistiquées telles que la mesure d'une propriété d'une grille tridimensionnelle de voxels dans le temps, vous pouvez même passer à la disposition des données dans un tenseur (voir par exemple cette question ).
Mais notez que conceptuellement un multiset peut suffire dans la plupart des situations simples, même s'il n'est pas pratique à des fins pratiques. Si je lançais une pièce simultanément avec le lancer du dé et que je voulais enregistrer les deux résultats ensemble, je pouvais utiliser un multiset comme {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} au lieu d'une matrice. Un ensemble ordinaire ne suffira pas, car il ne compterait pas la multiplicité des (4, H), par exemple.
la source