Le "big data" est omniprésent dans les médias. Tout le monde dit que le "big data" est le gros problème pour 2012, par exemple, un sondage KDNuggets sur des sujets d'actualité pour 2012 . Cependant, j'ai de profondes préoccupations ici. Avec le Big Data, tout le monde semble content d’obtenir quoi que ce soit . Mais ne violons-nous pas tous les principes statistiques classiques tels que les tests d'hypothèses et l'échantillonnage représentatif?
Tant que nous ne faisons que des prédictions sur le même ensemble de données, cela devrait aller. Donc, si j'utilise les données Twitter pour prédire le comportement des utilisateurs de Twitter, c'est probablement correct. Cependant, en utilisant des données Twitter pour prédire, par exemple, Elections néglige complètement le fait que les utilisateurs de Twitter ne constituent pas un échantillon représentatif de la population entière. De plus, la plupart des méthodes ne pourront en réalité pas faire la différence entre une véritable humeur «populaire» et une campagne. Et Twitter est plein de campagnes. Ainsi, lorsque vous analysez Twitter, vous vous retrouvez rapidement à mesurer les campagnes et les robots. (Voir par exemple "Yahoo prédit les vainqueurs politiques de l'Amérique"qui est plein de sondages et "l'analyse des sentiments est beaucoup mieux". Ils ont prédit que "Romney a plus de 90% de chances de remporter la nomination et de remporter la primaire de Caroline du Sud" (il avait 28%, tandis que Gingrich en avait 40%).
Savez-vous que d'autres big data ont échoué ? Je me souviens à peu près qu'un scientifique a prédit que vous ne pourriez pas entretenir plus de 150 amitiés. En fait, il n'avait découvert qu'une limite de cap chez Friendster ...
En ce qui concerne les données Twitter, ou en réalité toutes les "données volumineuses" collectées sur le Web, je pense que souvent, les gens introduisent même un biais supplémentaire par la manière dont ils collectent leurs données. Peu auront tous de Twitter. Ils auront un certain sous-ensemble qu'ils spidered, et ceci est juste un autre biais dans leur ensemble de données.
Le fractionnement des données en un ensemble de tests ou pour effectuer une validation croisée n'aidera probablement pas beaucoup. L'autre ensemble aura le même parti pris. Et pour le Big Data, j'ai besoin de "compresser" mes informations si fortement qu'il est peu probable que je sur-utilise.
J'ai récemment entendu cette blague, avec le scientifique du Big Data qui a découvert qu'il y a environ 6 sexes dans le monde ... et je peux imaginer qu'il en soit ainsi ... "Homme, Femme, Orc, Furry, Oui et Non".
Alors, quelles méthodes devons-nous utiliser pour retrouver une validité statistique dans l'analyse, en particulier lorsque nous essayons de prédire quelque chose en dehors du jeu de données "Big Data"?
la source
Un certain nombre de techniques de conception et d'analyse expérimentales peuvent vous aider à réduire vos biais, mais cela revient toujours à la même chose: il faut savoir ce que l'on fait. L'analyse de données volumineuses présente le même problème que toute autre analyse de données; il souffre d'un manque d'hypothèses.
Un exemple clair est la régression multiple avec sélection variable par étapes. Très bien, dit-on, mais avec 100 variables mesurées, les lois statistiques dictent que certaines d’entre elles montreront une relation significative lorsqu’elles seront évaluées en regardant si le coefficient respectif est significativement différent de zéro. Ainsi, plus il y a de variables dans votre jeu de données, plus vous avez de chances de trouver deux relations présentant une relation (dénuée de sens). Et plus votre jeu de données est grand, plus il y a de chances que des modèles dénués de sens soient dus, par exemple, à un léger effet de confusion. Si vous testez de nombreux modèles (et même avec seulement 10 variables pouvant représenter un grand nombre de modèles), vous en trouverez très probablement un au moins. Est-ce que ça veut dire quelque chose? Non.
Que doit-on faire alors? Utilise ton cerveau:
Ces choses sont toutes évidentes et bien connues. Heck, déjà en 1984, Rosenbaum et Rubin ont montré comment utiliser les scores de propension pour réduire les biais dans les études d’observation, et c’est ce que la plupart des grands ensembles de données sont: des données d’observation. Dans des travaux plus récents de Feng et al. , L’utilisation de la distance de Mahalanobis est également préconisée. Et en fait, un de mes héros de la statistique, Cochran, a écrit une critique de ce problème dès 1973! Et que dire de Rubin, qui a introduit l'échantillonnage apparié multivarié et la correction de régression dès 1979. Les publications anciennes sont sérieusement sous-estimées et trop souvent ignorées, certainement dans un domaine comme les statistiques.
Toutes ces techniques ont des avantages et des inconvénients, et il faut comprendre que réduire le biais n’est pas la même chose que l’éliminer. Mais si vous êtes au courant de:
Les données massives ne sont pas une excuse pour produire des résultats erronés.
Edité après la remarque (correc) de @DW qui a souligné que j’avais utilisé le terme «sur-ajustement» dans un mauvais contexte.
la source