Quelle est la définition du «Big Data»?

23

Est-ce qu'il y a un?

Toutes les définitions que je peux trouver décrivent la taille, la complexité / variété ou la vitesse des données.

La définition de Wikipédia est la seule que j'ai trouvée avec un nombre réel

La taille des mégadonnées est une cible en constante évolution, depuis 2012, allant de quelques dizaines de téraoctets à plusieurs pétaoctets de données dans un seul ensemble de données.

Cependant, cela contredit apparemment la définition de MIKE2.0 , référencée dans le paragraphe suivant, qui indique que les "grandes" données peuvent être petites et que 100 000 capteurs sur un avion ne créant que 3 Go de données pourraient être considérés comme gros.

IBM malgré avoir dit que:

Les mégadonnées sont plus simples qu'une question de taille.

ont mis l'accent sur la taille dans leur définition .

O'Reilly l'a également souligné "volume, velocity and variety" . Bien que bien expliquée et plus en profondeur, la définition semble être un remaniement des autres - ou vice-versa bien sûr.

Je pense qu'un titre d' article de Computer Weekly résume assez bien un certain nombre d'articles "Qu'est-ce que le big data et comment peut-il être utilisé pour obtenir un avantage concurrentiel" .

Mais ZDNet gagne avec ce qui suit à partir de 2012 :

«Big Data» est un slogan qui fait son apparition dans le créneau de l'informatique haute performance du marché informatique ... Si l'on se fie aux présentations de dix fournisseurs de technologie, une quinzaine de définitions différentes sont susceptibles de se présenter. Bien entendu, chaque définition tend à répondre au besoin des produits et services de ce fournisseur. Imagine ça.

Fondamentalement, le «big data» est «big» d'une manière ou d'une autre.

Qu'est-ce que "gros"? Est-il quantifiable à l'heure actuelle?

Si «gros» n'est pas quantifiable, existe-t-il une définition qui ne repose pas uniquement sur des généralités?

Ben
la source
7
"Qu'est-ce qui est" gros "? Est-il quantifiable à l'heure actuelle?". Sûr. Big est plus que ce que vous pouvez gérer à l'heure actuelle;)
Oded
1
@Oded, vous devez définir "handle" puis :-).
Ben
14
Si vous devez demander, le vôtre n'est pas assez grand pour compter. ;)
FrustratedWithFormsDesigner
@Ben - C'est défini différemment pour chaque individu et système ...
Oded
4
"Gros" se réfère très probablement à "difficile à gérer". Assez pour ne pas tenir dans la mémoire, remplir le disque, prendre le temps de transférer sur le réseau, etc.

Réponses:

42

Il n'y en a pas; c'est un mot à la mode.

Le délimiteur est cependant que vos données dépassent les capacités des systèmes traditionnels. Les données sont trop volumineuses pour être stockées sur le plus grand disque, les requêtes prennent des tonnes trop longtemps sans optimisation spéciale, le réseau ou le disque ne peut pas prendre en charge le flux de trafic entrant, une ancienne vue de données ne va pas gérer la visualisation de la forme / taille / étendue des données ...

Fondamentalement, le fait que vos données dépassent un point de basculement mal défini où "ajouter simplement plus de matériel" ne va pas les couper.

Telastyn
la source
+1 et de plus, ce qui compte comme «gros» change toujours car un meilleur matériel rattrape et des outils précédemment personnalisés deviennent matures, standardisés et vendus commercialement pour faire face à de tels problèmes.
FrustratedWithFormsDesigner
En d'autres termes: non, aucune idée, non, non :-).
Ben
De plus, avant que les mégadonnées ne deviennent une grande chose, de nombreuses entreprises et instituts de recherche ont déjà fait des mégadonnées. Ce n'est que maintenant, avec tous les défis des médias sociaux / du Big Data en ligne, qu'il est devenu le flux principal.
Paul Hiemstra
2

Comme indiqué dans le lien Oracle (commentaire d'Immad Careem) oracle.com/us/technologies/big-data/index.html. Le Big Data est tout ce qui n'est pas une donnée relationnelle stockée dans un SGBDR. Quelques années avant le battage médiatique, c'était juste «beaucoup de données». Maintenant, il a grandi et a été promu par les commerçants comme une sorte de données spéciales.

Il existe plusieurs raisons secondaires (autres que le marketing) pour considérer le Big Data comme une chose réelle.

  1. Invention de Map-Reduce
  2. Technologies NOSQL comme Hadoop
  3. Une certaine évolution du SGBDR traditionnel influencée par la demande de types de données non structurés
  4. Peut-être certaines technologies matérielles proposées par la société EMC2

la source
2
"Invention de Map-Reduce"? Tu rigoles.
Telastyn
1
"Tout ce qui n'est pas des données relationnelles" est une définition qui ne peut provenir que d'une personne aussi centrée sur RDB qu'Oracle (et c'est faux). Selon cette définition, chaque index SolR, chaque base de données MongoDB et chaque DB Berkley sont des «big data». Et c'est juste stupide.
Joachim Sauer
0

En utilisant la réponse de Doug Laney comme point de départ, nous avons procédé à une rétro-ingénierie d'une liste de définitions de Big Data, qui a maintenant plus de 30 ans et qui va bien. Notre liste de définitions pour "Big Data" se trouve ici .

Nous acceptons les corrections, les entrées, les graphiques, etc.

Opentracker BData
la source
-1

C'est formidable de voir O'Reilly et d'autres enfin se connecter aux 3V de Big Data de Gartner que nous avons introduits pour la première fois il y a plus de 11 ans. Pour référence, voici la pièce originale que j'ai écrite en 2001: http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ .

La définition récemment mise à jour de Gartner reconnaît également l'aspect de la valeur: «Les mégadonnées sont des actifs d'information avec des volumes, des vitesses et / ou une variété nécessitant des formes innovantes de traitement de l'information pour une meilleure découverte des informations, la prise de décision et l'automatisation des processus.

Nous avons également développé une méthode pour quantifier l'amplitude des données le long des trois vecteurs qui sont normatifs en termes d'adoption de la technologie. Cependant, je ne peux pas le partager publiquement.

Doug Laney
la source