Ou plus encore "ça va être"? Le Big Data rend les statistiques et les connaissances pertinentes d'autant plus importantes mais semble sous-estimer la théorie de l'échantillonnage.
J'ai déjà vu ce battage publicitaire autour du «Big Data» et je ne peux m'empêcher de me demander «pourquoi» voudrais-je tout analyser ? N'y avait-il pas une raison pour que la "théorie de l'échantillonnage" soit conçue / mise en œuvre / inventée / découverte? Je ne comprends pas l'intérêt d'analyser l'ensemble de la "population" de l'ensemble de données. Ce n’est pas parce que vous pouvez le faire que vous devriez (la stupidité est un privilège mais vous ne devez pas en abuser :)
Ma question est donc la suivante: est-il statistiquement pertinent d’analyser l’ensemble des données? Le mieux que vous puissiez faire serait de minimiser les erreurs si vous échantillonniez. Mais le coût de la minimisation de cette erreur en vaut-il vraiment la peine? Est-ce que la "valeur de l'information" en vaut vraiment la peine, les coûts en temps, etc. liés à l'analyse de données massives sur des ordinateurs massivement parallèles?
Même si l’on analyse toute la population, le résultat serait au mieux une estimation avec une probabilité plus élevée d’avoir raison. Probablement un peu plus élevé que l'échantillonnage (ou serait-ce beaucoup plus?) Les connaissances tirées de l'analyse de la population par rapport à l'analyse de l'échantillon seraient-elles très différentes?
Ou devrions-nous l'accepter comme "les temps ont changé"? L'échantillonnage en tant qu'activité pourrait devenir moins important avec suffisamment de puissance de calcul :)
Remarque: je n'essaie pas de lancer un débat, mais de chercher une réponse pour comprendre pourquoi le big data fait ce qu'il fait (c'est-à-dire tout analyser) et ne pas tenir compte de la théorie de l'échantillonnage (ou pas?)
la source
Réponses:
En un mot, oui . Je crois qu'il existe encore des situations claires dans lesquelles l'échantillonnage est approprié, à l'intérieur et à l'extérieur du monde des "données volumineuses", mais la nature des données volumineuses modifiera certainement notre approche en matière d'échantillonnage et nous utiliserons davantage d'ensembles de données qui représentent presque complètement les données sous-jacentes. population.
Sur l’échantillonnage: En fonction des circonstances, il sera presque toujours clair si l’échantillonnage est une bonne chose à faire. L'échantillonnage n'est pas une activité intrinsèquement bénéfique; c'est ce que nous faisons, car nous devons faire des compromis sur le coût de la mise en œuvre de la collecte de données. Nous essayons de caractériser les populations et nous devons sélectionner la méthode appropriée pour collecter et analyser les données relatives à la population. L'échantillonnage a du sens lorsque le coût marginal d'une méthode de collecte ou de traitement de données est élevé. Essayer d'atteindre 100% de la population n'est pas une bonne utilisation des ressources dans ce cas, car il est souvent préférable de s'attaquer à des problèmes tels que le biais de non-réponse plutôt que d'apporter de minimes améliorations à l'erreur d'échantillonnage aléatoire.
En quoi le Big Data est-il différent? Les "données volumineuses" répondent à beaucoup des questions que nous posons depuis longtemps, mais ce qui est "nouveau", c'est que la collecte de données s'effectue à l'aide d'un processus informatisé existant. Le coût marginal de la collecte de données est donc pratiquement nul. Cela réduit considérablement notre besoin d'échantillonnage.
Quand utiliserons-nous toujours l'échantillonnage? Si votre population de "données volumineuses" est la bonne population pour le problème, vous n’utiliserez un échantillonnage que dans quelques cas: nécessité de gérer des groupes expérimentaux distincts, ou si le volume de données est trop important pour être capturé et traité (beaucoup d’entre nous peuvent traiter facilement des millions de lignes de données, la limite s’éloigne donc de plus en plus). S'il semble que je rejette votre question, c'est probablement parce que j'ai rarement rencontré des situations où le volume des données posait problème, que ce soit au stade de la collecte ou du traitement, bien que je sache que beaucoup
La situation qui me semble difficile est celle où votre population de "données volumineuses" ne représente pas parfaitement votre population cible. Les compromis sont donc plus favorables que les oranges. Supposons que vous soyez un planificateur régional des transports et que Google vous propose de vous donner accès à ses journaux de navigation Android pour vous aider. Il serait sans doute intéressant d'utiliser l'ensemble de données, mais la population serait probablement systématiquement biaisée contre les utilisateurs à faible revenu, les utilisateurs des transports en commun et les personnes âgées. Dans une telle situation, les carnets de voyage traditionnels envoyés à un échantillon aléatoire de ménages, bien que plus coûteux et moins nombreux, pourraient toujours constituer la méthode la plus efficace de collecte de données. Mais ce n’est pas simplement une question "d’échantillonnage vs Big Data", c’est
la source
Bien que les dispositifs mobiles produisent énormément de Big Data, ils contiennent peu de données utilisables. Si vous souhaitez prédire les modèles de déplacements urbains à l’aide de foursquare, vous risquez de ne pas connaître un ordre de grandeur des flux estimés. Pire encore, vous ne saurez pas si vous êtes surestimé ou sous-estimé ces flux. Vous pouvez obtenir une image incroyablement précise des habitudes de déplacement urbain des utilisateurs foursquare maniacaux, mais à moins que tout le monde soit obligé (1) de garder un smartphone fonctionnel, (2) de lancer l'application foursquare tout le temps et (3) de s'inscrire à n'importe quel endroit où ils restent plus de 10 minutes (c.-à-d., obtenez un recensement électronique; laissez les libertaires se plaindre de ce que Google et Facebook savent tout sur vous), vos données contiendront des biais inconnus et vos Deweys électroniques continueront de vaincre le vrai mot Trumans (cliquable):
(source: whatisasurvey.info )
Si tel était le cas, je m'attendrais à ce que cette partie de l'histoire se répète et que des chercheurs utilisant des méthodes d'échantillonnage plus rigoureuses renversent certaines grandes prévisions "bière + couches" issues du Big Data. Il est surprenant que les enquêtes basées sur les probabilités restent précises même malgré la chute des taux de réponse.
la source
Chaque fois que l'on applique des techniques d'inférence statistique, il est important de bien préciser la population sur laquelle on souhaite tirer des conclusions. Même si les données collectées sont très volumineuses, elles peuvent ne concerner qu'une petite partie de la population et ne pas être très représentatives de l'ensemble.
Supposons, par exemple, qu'une société opérant dans un secteur donné ait collecté des «données volumineuses» sur ses clients situés dans un pays donné. S'il souhaite utiliser ces données pour tirer des conclusions sur ses clients existants dans ce pays, l'échantillonnage peut ne pas être très pertinent. Si toutefois il souhaite tirer des conclusions sur une population plus large - clients potentiels ou existants, ou clients d'un autre pays -, il devient essentiel de déterminer dans quelle mesure les clients pour lesquels des données ont été collectées sont représentatifs - en termes de revenu, d'âge, etc. , genre, éducation, etc. - de la population en général.
La dimension temporelle doit également être prise en compte. Si l'objectif est d'utiliser l'inférence statistique pour étayer les prévisions, il faut comprendre que la population s'étendra dans le futur. Si tel est le cas, il devient à nouveau essentiel de déterminer si l'ensemble de données, quelle que soit sa taille, a été obtenu dans des circonstances représentatives de celles pouvant être obtenues à l'avenir.
la source
D'après ce que j'ai vu de l'engouement pour les mégadonnées et les données massives, penser à l'échantillonnage et à la population à partir de laquelle votre échantillon est tiré est tout aussi important que jamais - mais pensez encore moins.
Je «vérifie» la classe ML de Stanford et, jusqu'à présent, nous avons traité de la régression et des réseaux de neurones sans aucune mention de l'inférence de population. Étant donné que cette classe a été choisie par six personnes, il y a maintenant énormément de personnes qui savent comment adapter les données sans aucune notion de l’échantillon.
la source
Oui, l'échantillonnage est pertinent et le restera. En fin de compte, l’exactitude d’une estimation statistique dépend généralement de la taille de l’échantillon et non de la population à généraliser. Ainsi, une moyenne ou une proportion moyenne calculée à partir d’un échantillon de 1 000 répondants donnera une estimation d’une certaine précision (par rapport à la population entière à partir de laquelle nous avons effectué l’échantillonnage), quelle que soit la taille de la population (ou Big Data ”sont sont).
Cela dit: Il existe des problèmes et des défis spécifiques qui méritent d’être mentionnés:
Vous pouvez consulter notre «révolution du Big Data» ici.
la source
De nombreuses méthodes Big Data sont en fait conçues autour de l'échantillonnage.
La question devrait être plus sur la ligne de:
Une grande partie du «big data» est encore assez fraîche et parfois naïve. K-means, par exemple, peut être parallélisé de manière triviale, et fonctionne donc pour des "données volumineuses" (je ne parlerai pas des résultats, ils ne sont pas très significatifs et ne sont probablement pas très différents de ceux obtenus sur un échantillon!). Autant que je sache, c’est ce que fait la mise en oeuvre de k-signifie dans Mahout.
Cependant, les recherches vont au-delà de la parallélisation naïve (qui peut encore nécessiter un grand nombre d'itérations) et essaient de faire K-means dans un nombre fixe d'itérations. Exemple pour cela:
Ene, A. et Im, S. et Moseley, B.
Actes de la 17e conférence internationale ACM SIGKDD sur la découverte de connaissances et l'exploration de données, 2011
Et devinez quoi, leur approche est fortement basée sur l’échantillonnage .
Exemple suivant: forêts de décision . C’est essentiellement le cas: pour plusieurs échantillons de l’ensemble de données, créez chacun un arbre de décision. Peut encore être trivialement parallélisé: placez chaque échantillon sur une machine séparée. Et encore une fois, il s’agit d’une approche basée sur l’échantillonnage.
L'échantillonnage est donc l'un des ingrédients clés des approches Big Data!
Et il n'y a rien de mal à cela.
la source
La validation croisée est un exemple spécifique de sous-échantillonnage qui est assez important dans ML / Big Data. Plus généralement, les mégadonnées constituent toujours un échantillon de la population, comme d'autres personnes l'ont mentionné.
Mais, je pense que OP pourrait faire spécifiquement référence à l’échantillonnage s’appliquant à des expériences contrôlées, par opposition à des données d’observation. Généralement, les grandes données sont considérées comme ces dernières, mais pour moi au moins, il y a des exceptions. Je pense par exemple aux essais randomisés, aux tests A / B et aux bandits multiarmés dans le commerce électronique et les réseaux sociaux, comme un "échantillonnage dans des paramètres de données volumineuses".
la source
Dans les domaines où le Big Data gagne en popularité: recherche, publicité, systèmes de recommandation tels qu'Amazon, Netflix, il existe une très grosse incitation à explorer l'ensemble des données.
L'objectif de ces systèmes est d'adapter les recommandations / suggestions à chaque membre de la population. En outre, le nombre d'attributs étudiés est énorme. Le système d'analyse Web moyen peut mesurer le taux de clic, le "suivi thermique" des "zones sensibles" d'une page, les interactions sociales, etc., et les comparer à un grand nombre d'objectifs prédéterminés.
Plus important encore, la plupart des endroits où le Big Data est maintenant omniprésent sont des flux de données "en ligne", c’est-à-dire que les données sont constamment ajoutées / mises à jour. Concevoir un plan d'échantillonnage qui couvre tous ces attributs sans biais inhérent et qui donne toujours des résultats prometteurs (lire les marges meilleures) est un défi.
L'échantillonnage reste très pertinent pour les enquêtes, les essais médicaux, les tests A / B, l'assurance de la qualité.
En résumé, l'échantillonnage est très utile lorsque la population à étudier est très grande et que vous vous intéressez aux propriétés macroscopiques de la population. Une vérification à 100% (Big Data) est nécessaire pour exploiter les propriétés microscopiques du système
J'espère que cela t'aides :)
la source