Qu'entend-on exactement par «ensemble de données»?

10

S'agit-il simplement de l'agrégation de points de données? Ou s'agit-il de la représentation de points de données pour différents éléments dans un format tabulaire arrangé avec les valeurs des différentes variables? En quoi est-ce différent des données brutes?

ankit
la source
Que voulez-vous dire par «point de données», vous attendez-vous à ce qu'il soit au moins 2D? Une série chronologique ou un ensemble de notes d'examen peut être un ensemble de données; celles-ci pourraient au minimum être des séries dans une variable, éventuellement sans étiquettes de ligne. Selon la réponse de @FranckDernoncourt
smci
1
Je pense vraiment que c'est une collection de données. C'est certainement ainsi que j'utilise le terme. Je ne pense pas qu'il y ait trop à cela. Que les données soient "brutes" ou prétraitées ou nettoyées, etc., est orthogonale.
gung - Rétablir Monica

Réponses:

9

D'après mon expérience, "ensemble de données" (ou "ensemble de données") est un terme informel qui fait référence à une collection de données. En général, un ensemble de données contient plus d'une variable et concerne un seul sujet; elle concernera probablement un seul échantillon.

Une erreur que je vois souvent les auteurs de questions de validation croisée est d'utiliser "ensemble de données" comme synonyme de "variable" ou "vecteur".

Kodiologue
la source
3
Convenu sur l'ensemble de données vs variable ou vecteur. Ne me lancez pas sur "une donnée", comme dans "J'ai une donnée". À l'inverse, "j'ai un ensemble de données" est une merveilleuse façon de ne pas irriter l'une ou l'autre façon, soit d'irriter ceux qui insistent sur le fait que les données sont plurielles ou d'irriter ceux qui considèrent cette insistance comme pédante, s'ils y pensent du tout.
Nick Cox
3
@NickCox Dans les guerres de grammaire sur les "données", je suis dans la faction la moins populaire, qui prétend que "données" est un nom de masse.
Kodiologist
3
Je soupçonne que c'est une majorité maintenant et je pense plus fermement que cela gagne en popularité.
Nick Cox
8

Je pense que Wikipedia fait un travail décent pour le définir:

Le plus souvent, un ensemble de données correspond au contenu d'une seule table de base de données ou d'une seule matrice de données statistiques, où chaque colonne de la table représente une variable particulière et chaque ligne correspond à un membre donné de l'ensemble de données en question. L'ensemble de données répertorie les valeurs de chacune des variables, telles que la hauteur et le poids d'un objet, pour chaque membre de l'ensemble de données. Chaque valeur est connue sous le nom de donnée. L'ensemble de données peut comprendre des données pour un ou plusieurs membres, correspondant au nombre de lignes.

Le terme ensemble de données peut également être utilisé de manière plus lâche, pour faire référence aux données dans une collection de tableaux étroitement liés, correspondant à une expérience ou un événement particulier. Un exemple de ce type est les ensembles de données collectés par les agences spatiales effectuant des expériences avec des instruments à bord de sondes spatiales.

Dans la discipline des données ouvertes, l'ensemble de données est l'unité pour mesurer les informations publiées dans un référentiel public de données ouvertes. Le portail européen des données ouvertes regroupe plus d'un demi-million d'ensembles de données. Dans ce domaine, d'autres définitions ont été proposées mais il n'y en a pas actuellement de officielle. Certains autres problèmes (sources de données en temps réel, jeux de données non relationnels, etc.) augmentent la difficulté de parvenir à un consensus à ce sujet.

Comme vous pouvez le voir, le terme est quelque peu vague.

Franck Dernoncourt
la source
Et dans un environnement de vision par ordinateur, un ensemble de données pourrait simplement être une collection d'images naturelles et de leurs étiquettes ou annotations.
Sycorax dit Réintégrer Monica
Qu'entend-on par "base de données *?"
ankit
@ankit Le sens CS traditionnel en.wikipedia.org/wiki/Database
Franck Dernoncourt
@Sycorax Oui, je suppose que nous pourrions considérer une image (ou un autre signal) comme une donnée blob dans la base de données.
Franck Dernoncourt
7

Je pense que vous pourriez avoir besoin de définir un point de données avant de pouvoir définir un ensemble de données : pourquoi une primitive et n'ayant pas besoin de définition, mais pas l'inverse?

Au moins deux définitions ont du sens pour moi:

  1. Une ou plusieurs observations (observations, enregistrements, lignes) pour une ou plusieurs variables (champs. Colonnes).

  2. Tout ce qui est stocké sous forme de données dans un fichier lisible par un programme de choix.

La disposition tabulaire est courante mais je ne pense pas que cela fasse partie d'une définition; la façon dont les données sont stockées peut être pratiquement importante, naturellement.

PS Le mot "format" est tellement surchargé qu'il est préférable de l'éviter sauf s'il est spécifié sans ambiguïté. Je l'ai vu utilisé pour

  1. Format de fichier général ou spécifique ou fichier binaire

  2. Structure de données, p.ex. tabulaire ou autre

  3. Stockage de données ou types de variables, par exemple bit, entier, réel, caractère

  4. Format d'affichage contrôlant la présentation, par exemple détails sur le nombre de décimales; affichage décimal, hexadécimal ou binaire.

Nick Cox
la source
6

Il y a déjà de bonnes réponses ici et je ne pense pas pouvoir pénétrer plus profondément que Nick Cox ou Franck Dernoncourt la question de savoir si "l'ensemble de données" se réfère à la collecte conceptuelle de données connexes, ou à l' arrangement particulier de ces données, par exemple dans une table / matrice ou un fichier lisible par ordinateur. L'extrait de Franck mentionne des cas marginaux comme des données collectées en continu ou des données réparties sur plusieurs tableaux, qui méritent d'être prises en compte si vous supposez qu'il y aura une définition simple. (Tous les logiciels de statistiques ne peuvent pas le gérer, mais il est très facile d'imaginer un cas où les données sont stockées dans une base de données relationnelle avec plusieurs tables. La base de données entière est-elle un "ensemble de données" unique?)

Une chose que j'ajouterai cependant, c'est que les ensembles de données ne sont généralement pas des ensembles, au sens mathématique! Sensu stricto soit un ensemble contient un objet, soit il n'en contient pas, mais ne peut pas contenir plus d'une copie de cet objet. Si je lance un dé huit fois et que je marque 1, 4, 3, 5, 5, 4, 6, 4, alors l' ensemble des scores obtenus est simplement {1, 3, 4, 5, 6}. Notez que les éléments peuvent être dans n'importe quel ordre, je viens de les écrire en ordre croissant mais l'ensemble {5, 4, 1, 6, 3} est mathématiquement égal à lui, par exemple. Ce n'est cependant pas ce que nous entendons habituellement par un ensemble de données!

X¯=1nje=1nXjeX1X2

Mais les vecteurs ne servent qu'à enregistrer une variable - pour plusieurs, il peut être plus pratique d'utiliser une matrice pour tabuler avec l'ordre préservé. Pour des situations plus sophistiquées telles que la mesure d'une propriété d'une grille tridimensionnelle de voxels dans le temps, vous pouvez même passer à la disposition des données dans un tenseur (voir par exemple cette question ).

Mais notez que conceptuellement un multiset peut suffire dans la plupart des situations simples, même s'il n'est pas pratique à des fins pratiques. Si je lançais une pièce simultanément avec le lancer du dé et que je voulais enregistrer les deux résultats ensemble, je pouvais utiliser un multiset comme {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} au lieu d'une matrice. Un ensemble ordinaire ne suffira pas, car il ne compterait pas la multiplicité des (4, H), par exemple.

Silverfish
la source
1
Je pourrais acheter l'idée qu'un ensemble de données est un ensemble d'observations avec juste la ride qu'il pourrait avoir besoin de leurs identifiants pour les rendre distincts. Mais vous avez raison de dire que le sens ici est quelque peu éloigné de celui de la théorie des ensembles. Soulignez, comme vous le suggérez ici, que l'ordre des observations est souvent crucial et sera souvent, mais pas toujours, donné par un temps ou une autre variable d'ordre.
Nick Cox
@NickCox (+1) En effet, ce que je n'ai pas encore trouvé le temps, ni d'ailleurs la manière d'exprimer, c'est que les observations viennent souvent avec un identifiant - parfois temporel, parfois basé sur la localisation, parfois les deux. Lorsque nous encodons les données dans un vecteur, une matrice ou un tenseur, cela fournit souvent directement la structure que nous voulons et un identificateur explicite (comme un index codé en dur) peut être rendu inutile, en particulier si ce n'est que l'ordre ou la position relative qui importe. Il y a sans aucun doute une terminologie correcte pour tout cela.
Silverfish
Je n'ai aucun problème à dire que la commande n'a pas d'importance. Il n'a pas de variable unique. L'ordre est important lorsque vous avez des valeurs X appariées avec, disons, l'heure de la mesure. Mais alors, nous pouvons vraiment penser que les points sont multidimensionnels, et l'ordre d'un ensemble de données multidimensionnelles n'a plus d'importance. Je n'ai pas non plus de problème à penser qu'il existe en réalité ou un identifiant implicite qui rend deux 5 uniques.
gung - Rétablir Monica
@gung Je pensais à des ensembles de données dans lesquels le temps ou l'ordre de série est implicite. Je dirais que c'était une mauvaise pratique, et maintenant inutile, de ne pas avoir de variable de commande explicite, mais le manque d'une telle variable de commande ne disqualifie pas d'être un ensemble de données. En fait, dans les années 1970, je traitais régulièrement des séries spatiales avec un identifiant implicite parce que mes propres programmes Fortran rendaient le travail (non trivial) d'en saisir un inutile.
Nick Cox
Cela me semble bien, @NickCox. Je dirais que la variable d'ordre est implicite, dans ce cas, mais dans un sens toujours là.
gung - Rétablir Monica