On m'a posé à plusieurs reprises la question:
Qu'est-ce que le Big Data?
À la fois par les étudiants et mes parents qui attirent l'attention sur les statistiques et ML.
J'ai trouvé ce CV-post . Et je sens que je suis d’accord avec la seule réponse possible.
La page Wikipedia contient également quelques commentaires, mais je ne suis pas sûr d’être vraiment d’accord avec tout ce qu’il contient.
EDIT: (j’ai le sentiment que la page Wikipedia n’explique pas suffisamment les méthodes pour y remédier et le paradigme que je mentionne ci-dessous) .
J'ai récemment assisté à une conférence d' Emmanuel Candès , où il a présenté le paradigme du Big-Data:
Recueillez d'abord les données Posez des questions plus tard
C'est la principale différence par rapport à la recherche fondée sur des hypothèses, dans laquelle vous formulez d'abord une hypothèse, puis collectez des données pour en dire quelque chose.
Il s'est beaucoup intéressé aux questions de quantification de la fiabilité des hypothèses générées par le snooping de données. La principale chose que j’ai tirée de son exposé est que nous devons vraiment commencer à contrôler le FDR et il a présenté la méthode d’ imitation pour le faire.
Je pense que CV devrait avoir une question sur ce qui est Big Data et quelle est votre définition à ce sujet. Je pense qu'il y a tellement de "définitions" différentes qu'il est difficile de vraiment comprendre ce qu'il en est, ou de l'expliquer à d'autres, s'il n'y a pas de consensus général sur son contenu.
Je pense que la "définition / paradigme / description" fournie par Candès est la chose la plus proche sur laquelle je suis d’accord, quelles sont vos pensées?
EDIT2: Je pense que la réponse devrait fournir plus que simplement une explication des données elles-mêmes. Ce devrait être une combinaison de données / méthodes / paradigme.
EDIT3: Je pense que cette interview avec Michael Jordan pourrait également ajouter quelque chose à la table.
EDIT4: J'ai décidé de choisir la réponse la plus votée comme étant la bonne. Bien que je pense que toutes les réponses ajoutent quelque chose à la discussion et j’ai le sentiment que c’est plutôt une question de paradigme quant à la façon dont nous générons des hypothèses et travaillons avec des données. J'espère que cette question servira de réservoir de références pour ceux qui cherchent ce qu'est le Big Data. J'espère que la page Wikipedia sera modifiée pour mettre davantage l'accent sur le problème de la comparaison multiple et du contrôle du FDR.
la source
Réponses:
J'ai eu le plaisir d'assister à une conférence donnée par le Dr Hadley Wickham, de la renommée de RStudio. Il l'a défini de telle sorte que
Hadley pense également que la plupart des données peuvent au moins être réduites à des problèmes gérables et qu’une très petite quantité est constituée de véritables données massives. Il appelle cela le "Big Data Mirage".
Les diapositives peuvent être trouvés ici .
la source
Un ensemble de données / flux est appelé Big Data, s'il répond aux quatre V
Sauf si et jusqu'à ce qu'il ne soit pas satisfait, le jeu de données ne peut pas être qualifié de Big Data.
Une réponse similaire à moi, pour référence.
Cela dit, en tant que scientifique de données; Je trouve le framework Map-Reduce vraiment sympa. Fractionner vos données, les mapper, puis les résultats de l’étape de mappage sont réduits en un seul résultat. Je trouve ce framework vraiment fascinant et comment il a profité au monde des données.
Et voici comment je résous quotidiennement le problème des données:
Et voici comment une expérience de données est effectuée:
Oui, il existe des algorithmes Big Data comme hyper loglog, etc. mais je n'ai pas trouvé le besoin de les utiliser.
Donc oui. Les données sont d'abord collectées avant de générer l'hypothèse.
la source
Je pense que la seule définition utile du Big Data est celle qui répertorie toutes les informations relatives à un phénomène particulier. Ce que je veux dire par là, c'est que plutôt que de prélever un échantillon d'une population d'intérêt et de collecter des mesures sur ces unités, le big data collecte des mesures sur l'ensemble de la population d'intérêt. Supposons que vous soyez intéressé par les clients Amazon.com. Il est parfaitement possible pour Amazon.com de collecter des informations sur tous les achats de leurs clients, plutôt que de suivre uniquement certains utilisateurs ou uniquement certaines transactions.
Selon moi, les définitions qui dépendent de la taille de la mémoire des données elles-mêmes ont une utilité quelque peu limitée. Par cette métrique, étant donné un ordinateur suffisamment grand, aucune donnée n'est en réalité une donnée volumineuse. À la limite d'un ordinateur de très grande taille, cet argument peut sembler réducteur, mais considérons le cas de la comparaison de mon ordinateur portable grand public avec les serveurs de Google. Il est clair que j'aurais d'énormes problèmes de logistique en essayant de passer au crible un téraoctet de données, mais Google dispose des ressources nécessaires pour gérer cette tâche assez facilement. Plus important encore, la taille de votre ordinateur n'est pas une propriété intrinsèque des données . Par conséquent, définir les données uniquement en fonction de la technologie utilisée revient à mesurer la distance en fonction de la longueur de vos bras.
Cet argument n'est pas qu'un formalisme. La nécessité de schémas de parallélisation complexes et de plates-formes informatiques distribuées disparaît dès que vous disposez d'une puissance de calcul suffisante. Donc, si nous acceptons la définition selon laquelle le Big Data est trop volumineux pour tenir dans la RAM (ou bloque Excel, ou autre), alors, après la mise à niveau de nos machines, le Big Data cesse d'exister. Cela semble idiot.
Mais regardons quelques données sur le Big Data, et je l'appellerai "Big Metadata". Cet article de blog observe une tendance importante: la RAM disponible augmente plus rapidement que la taille des données, et affirme de manière provocante que "Une grande RAM mange des Big Data" - c'est-à-dire qu'avec une infrastructure suffisante, vous n'avez plus de problème de Big Data, vous venez avoir des données, et vous revenez au domaine des méthodes d'analyse conventionnelles.
De plus, les différentes méthodes de représentation ayant des tailles différentes, il n’est pas clair ce que cela signifie de définir le "big data" en référence à sa taille en mémoire. Si vos données sont construites de manière à stocker une grande quantité d’informations redondantes (c’est-à-dire que vous choisissez un codage inefficace), vous pouvez facilement dépasser le seuil de ce que votre ordinateur peut facilement gérer. Mais pourquoi voudriez-vous une définition pour avoir cette propriété? À mon avis, si le jeu de données est constitué ou non de "données volumineuses", cela ne devrait pas dépendre de savoir si vous avez fait des choix efficaces dans la conception de la recherche.
En passant, je pense que cette question est importante car elle explique implicitement pourquoi les définitions sont importantes - c’est-à-dire pour qui définissez-vous le sujet. Une discussion sur l'addition pour les élèves de première année ne commence pas par la théorie des ensembles, elle commence par une référence au comptage d'objets physiques. D'après mon expérience, le terme "big data" est principalement utilisé dans la presse populaire ou dans les communications entre personnes qui ne sont pas des spécialistes des statistiques ou de l'apprentissage automatique (supports marketing sollicitant des analyses professionnelles, par exemple), Exprimez l’idée que les pratiques informatiques modernes signifiaient qu’il existait une mine d’informations disponibles pouvant être exploitées. C’est presque toujours dans le contexte des données révélant des informations sur les consommateurs qui sont, peut-être si pas privées, pas immédiatement évidentes.
Ainsi, la connotation et l'analyse entourant l'usage courant du "big data" emporte également l'idée que les données peuvent révéler des détails obscurs, cachés ou même privés de la vie d'une personne, à condition d'appliquer une méthode inférentielle suffisante. Quand les médias rapportent le big data, c'est généralement vers cela qu'ils se dirigent - cette dégradation de l'anonymat - définir ce que sont les "big data" semble quelque peu erroné à cet égard, car la presse populaire et les non-spécialistes ne se soucient pas du bien-fondé du hasard. les forêts et les machines à vecteurs de soutien, etc., et ils ne comprennent pas non plus les défis de l'analyse des données à différentes échelles. Et c'est bon.La préoccupation de leur point de vue est centrée sur les conséquences sociales, politiques et juridiques de l’ère de l’information. Une définition précise des médias ou des non-spécialistes n’est pas vraiment utile car leur compréhension n’est pas précise non plus. (Ne me croyez pas suffisant - j'observe simplement que tout le monde ne peut pas être expert en tout.)
la source
En recoupant l’énorme littérature sur le Big Data, j’ai rassemblé jusqu’à 14 termes en "V", dont 13 sur 11 dimensions:
Le 14ème terme est Vacuity. Selon un récent article provocateur, le Big Data n’existe pas . Ses points principaux sont les suivants:
Une définition appropriée du Big Data évoluerait avec le matériel, les logiciels, les besoins et les connaissances, et ne devrait probablement pas dépendre d'une taille fixe. D'où la définition saisissable du Big Data: la prochaine frontière en matière d'innovation, de concurrence et de productivité , juin 2011:
la source
Les gens semblent se concentrer sur un gros qualificatif dans le Big Data. Cependant, la taille n'est qu'un des composants de ce terme (domaine). Il ne suffit pas que votre ensemble de données soit volumineux pour appeler votre problème (domaine) une grande quantité de données, vous avez également besoin que ce soit difficile à comprendre, à analyser et même à traiter. Certains qualifient cette fonctionnalité de non structurée , mais ce n'est pas seulement la structure mais aussi la relation floue entre différents éléments et données.
Examinons les ensembles de données selon lesquels des physiciens des hautes énergies travaillent dans des endroits tels que le CERN . Ils travaillaient avec des données de taille en pétaoctets depuis des années avant que le terme Big Data ne soit inventé. Pourtant, même maintenant, ils n'appellent pas ces données massives pour autant que je sache. Pourquoi? Comme les données sont plutôt régulières, ils savent quoi en faire. Ils ne sont peut-être pas encore en mesure d'expliquer toutes les observations et travaillent donc sur de nouveaux modèles, etc.
Nous appelons maintenant Big Data les problèmes liés aux ensembles de données dont la taille peut être générée en quelques secondes à partir du LHC au CERN. La raison en est que ces ensembles de données sont généralement constitués d'éléments de données provenant d'une multitude de sources ayant des formats différents, de relations peu claires entre les données et d'une valeur incertaine pour l'entreprise. Cela pourrait ne représenter que 1 To mais il est si difficile de traiter tout l'audio, les vidéos, les textes, la parole, etc. Ainsi, en termes de complexité et de ressources, cela dépasse les pétaoctets des données du CERN. Nous ne savons même pas s'il existe des informations utiles discernables dans nos ensembles de données.
Par conséquent, la résolution de problèmes Big Data implique l'analyse, l'extraction d'éléments de données de valeur inconnue, puis leur liaison. "Analyser" une image peut être un gros problème en soi. Vous recherchez des images de vidéosurveillance dans les rues de la ville pour savoir si les gens deviennent plus en colère et si cela a un impact sur les accidents de la route impliquant des piétons. Il y a une tonne de vidéos, vous trouvez les visages, essayez de jauger leurs humeurs par des expressions, puis associez cela au nombre de jeux de données d'accidents, de rapports de police, etc., tout en contrôlant les conditions météorologiques (précitipotation, température) et les embouteillages. Vous avez besoin des outils de stockage et d’analyse qui prennent en charge ces grands ensembles de données et qui permettent de relier efficacement les données entre eux.
Le Big Data est un problème d'analyse complexe dont la complexité provient à la fois de la taille même et de la complexité de la structure et du codage de l'information qu'il contient.
la source
Je pense que la raison pour laquelle les gens s'embrouillent à propos du Big Data est qu'ils n'en voient pas les avantages. La valeur des Big Data (technique) ne concerne pas seulement la quantité de données que vous pouvez collecter, mais également la modélisation prédictive, qui est finalement plus importante:
Davantage de prédicteurs, car nous sommes maintenant en mesure de capturer des données qui étaient impossibles auparavant (en raison de la puissance matérielle limitée, de la capacité limitée de traitement des données non structurées). Plus de prédicteurs signifient plus de chances d'avoir les prédicteurs significatifs, à savoir un meilleur modèle, une meilleure prédiction, une meilleure décision pour l'entreprise.
Davantage d'observations non seulement rend le modèle plus robuste au fil du temps, mais aide également le modèle à apprendre / détecter tous les modèles possibles pouvant être présentés / générés dans la réalité.
la source
La difficulté du Big Data par rapport à son antonyme (vraisemblablement de petites données?) Est qu’il s’agit d’un continuum. Les spécialistes des données volumineuses se sont tournés vers l’autre côté du spectre, les petits opérateurs des données se sont tournés vers l’autre, mais il n’ya pas de ligne claire dans le sable sur laquelle tout le monde peut s’entendre.
Je regarderais les différences de comportement entre les deux. Dans les petites situations de données, vous avez un "petit" jeu de données et vous cherchez à extraire autant d'informations que possible de chacun de vos points de données. Obtenez plus de données, vous pouvez obtenir plus de résultats. Cependant, obtenir plus de données peut coûter cher. Les données collectées sont souvent contraintes de s’adapter à des modèles mathématiques, tels que la factorisation partielle de tests pour dépister des comportements intéressants.
Dans les situations de données volumineuses, vous avez un "grand" jeu de données, mais votre jeu de données a tendance à être moins contraint. En général, vous ne devez pas convaincre vos clients d’acheter un carré latin de meubles, simplement pour faciliter l’analyse. Au lieu de cela, vous avez tendance à avoir des tas de données mal structurées. Pour résoudre ces problèmes, l'objectif ne consiste généralement pas à "sélectionner les meilleures données et à en extraire tout ce que vous pouvez," comme on pourrait le tenter naïvement si on est habitué aux petites données. L’objectif a tendance à ressembler davantage à "si vous pouvez obtenir un petit smidgen de chaque point de donnée, la somme sera énorme et profonde."
Entre eux se trouvent les ensembles de données de taille moyenne, avec une structure correcte. Ce sont des "problèmes vraiment difficiles", nous avons donc tendance à nous organiser en deux camps: l'un avec de petites données en serrant tout le contenu, l'autre avec le big data essayant de laisser chaque point de données briller de son côté. droite. À mesure que nous avancerons, je m'attends à voir davantage de processus de petites données essayant de s'adapter à de plus grands ensembles de données, et davantage de processus de grandes données essayant de s'adapter pour tirer parti de données plus structurées.
la source
Je dirais que trois éléments sont essentiels pour définir les mégadonnées: la direction de l'analyse, la taille des données par rapport à la population et la taille des données en ce qui concerne les problèmes de calcul.
La question elle-même pose que les hypothèses sont développées après que les données existent. Je n'utilise pas le terme "collecté" parce que je pense que le mot "collecté" implique un objectif et que les données n'existent souvent pas à ce jour. La collecte se produit souvent dans le Big Data en mettant en parallèle des données existantes au service d'une question.
Un deuxième élément important est que ce n'est pas n'importe quelle donnée pour laquelle une analyse post-hoc, ce que l'on pourrait appeler une analyse exploratoire avec des jeux de données plus petits, est appropriée. Il doit avoir une taille suffisante pour que les estimations ainsi recueillies soient suffisamment proches des estimations de la population pour que de nombreux problèmes d'échantillonnage plus petits puissent être ignorés. À cause de cela, je crains un peu que des efforts soient actuellement déployés pour obtenir des corrections comparatives multiples. Si vous avez la population entière ou une approximation que vous avez de bonnes raisons de croire valable, de telles corrections devraient être discutables. Bien que je sache qu'il arrive que des problèmes surviennent parfois qui transforment les "données massives" en un petit échantillon (par exemple, de grandes régressions logistiques), cela revient à comprendre ce qu'est un grand échantillon pour une question spécifique. La plupart des questions de comparaison multiples doivent plutôt être tournées vers des questions de taille d'effet. Et, bien sûr, l'idée d'utiliser des tests avec alpha = 0,05, comme beaucoup le font encore avec le Big Data, est simplement absurde.
Et enfin, les petites populations ne sont pas admissibles. Dans certains cas, la population est petite et il est possible de collecter toutes les données nécessaires pour l’examiner très facilement et permettre de respecter les deux premiers critères. Les données doivent être suffisamment importantes pour devenir un problème de calcul. En tant que tel, nous devons, à certains égards, admettre que «Big Data» peut être un mot à la mode transitoire et peut-être un phénomène perpétuellement à la recherche d’une définition stricte. Certaines des choses qui font que le «big data» est grand disparaîtront maintenant dans quelques années et les définitions comme celle de Hadley, basée sur la capacité de l'ordinateur, sembleront étranges. Mais à un autre niveau, les problèmes de calcul ne concernent pas la capacité informatique ni peut-être une capacité informatique impossible à résoudre. Je pense que dans ce sens les problèmes de définition "
On peut noter que je n’ai pas fourni d’exemples ni de définitions précises de ce qu’est un problème informatique complexe pour ce domaine (il existe de nombreux exemples en général dans comp sci, et certains applicables, dans lesquels je n’entrerai pas). Je ne veux pas en faire car je pense que cela devra rester un peu ouvert. Au fil du temps, les œuvres rassemblées par de nombreuses personnes se rassemblent pour rendre ces choses faciles, plus souvent par le développement de logiciels que de matériel. Peut-être que le champ devra mûrir plus complètement afin de rendre cette dernière exigence plus solidement délimitée, mais les bords seront toujours flous.
la source
Wikipedia fournit une définition assez claire
autre définition simple que je connais est
Malheureusement, je ne me souviens pas de référence pour cela. Tout le reste émerge de ces définitions - vous devez gérer de grandes quantités de données.
la source
J'ajouterais que les données volumineuses sont une référence au travail sur un ensemble de données volumineuses (des millions et / ou des milliards de lignes) ou à la recherche d'informations / de schémas sur des ressources de données étendues que vous pouvez maintenant collecter partout.
la source