Est-ce qu'il y a un?
Toutes les définitions que je peux trouver décrivent la taille, la complexité / variété ou la vitesse des données.
La définition de Wikipédia est la seule que j'ai trouvée avec un nombre réel
La taille des mégadonnées est une cible en constante évolution, depuis 2012, allant de quelques dizaines de téraoctets à plusieurs pétaoctets de données dans un seul ensemble de données.
Cependant, cela contredit apparemment la définition de MIKE2.0 , référencée dans le paragraphe suivant, qui indique que les "grandes" données peuvent être petites et que 100 000 capteurs sur un avion ne créant que 3 Go de données pourraient être considérés comme gros.
IBM malgré avoir dit que:
Les mégadonnées sont plus simples qu'une question de taille.
ont mis l'accent sur la taille dans leur définition .
O'Reilly l'a également souligné "volume, velocity and variety"
. Bien que bien expliquée et plus en profondeur, la définition semble être un remaniement des autres - ou vice-versa bien sûr.
Je pense qu'un titre d' article de Computer Weekly résume assez bien un certain nombre d'articles "Qu'est-ce que le big data et comment peut-il être utilisé pour obtenir un avantage concurrentiel" .
Mais ZDNet gagne avec ce qui suit à partir de 2012 :
«Big Data» est un slogan qui fait son apparition dans le créneau de l'informatique haute performance du marché informatique ... Si l'on se fie aux présentations de dix fournisseurs de technologie, une quinzaine de définitions différentes sont susceptibles de se présenter. Bien entendu, chaque définition tend à répondre au besoin des produits et services de ce fournisseur. Imagine ça.
Fondamentalement, le «big data» est «big» d'une manière ou d'une autre.
Qu'est-ce que "gros"? Est-il quantifiable à l'heure actuelle?
Si «gros» n'est pas quantifiable, existe-t-il une définition qui ne repose pas uniquement sur des généralités?
Réponses:
Il n'y en a pas; c'est un mot à la mode.
Le délimiteur est cependant que vos données dépassent les capacités des systèmes traditionnels. Les données sont trop volumineuses pour être stockées sur le plus grand disque, les requêtes prennent des tonnes trop longtemps sans optimisation spéciale, le réseau ou le disque ne peut pas prendre en charge le flux de trafic entrant, une ancienne vue de données ne va pas gérer la visualisation de la forme / taille / étendue des données ...
Fondamentalement, le fait que vos données dépassent un point de basculement mal défini où "ajouter simplement plus de matériel" ne va pas les couper.
la source
Comme indiqué dans le lien Oracle (commentaire d'Immad Careem) oracle.com/us/technologies/big-data/index.html. Le Big Data est tout ce qui n'est pas une donnée relationnelle stockée dans un SGBDR. Quelques années avant le battage médiatique, c'était juste «beaucoup de données». Maintenant, il a grandi et a été promu par les commerçants comme une sorte de données spéciales.
Il existe plusieurs raisons secondaires (autres que le marketing) pour considérer le Big Data comme une chose réelle.
la source
En utilisant la réponse de Doug Laney comme point de départ, nous avons procédé à une rétro-ingénierie d'une liste de définitions de Big Data, qui a maintenant plus de 30 ans et qui va bien. Notre liste de définitions pour "Big Data" se trouve ici .
Nous acceptons les corrections, les entrées, les graphiques, etc.
la source
C'est formidable de voir O'Reilly et d'autres enfin se connecter aux 3V de Big Data de Gartner que nous avons introduits pour la première fois il y a plus de 11 ans. Pour référence, voici la pièce originale que j'ai écrite en 2001: http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ .
La définition récemment mise à jour de Gartner reconnaît également l'aspect de la valeur: «Les mégadonnées sont des actifs d'information avec des volumes, des vitesses et / ou une variété nécessitant des formes innovantes de traitement de l'information pour une meilleure découverte des informations, la prise de décision et l'automatisation des processus.
Nous avons également développé une méthode pour quantifier l'amplitude des données le long des trois vecteurs qui sont normatifs en termes d'adoption de la technologie. Cependant, je ne peux pas le partager publiquement.
la source