J'ai l'impression qu'une grande partie de ce qui se fait ici est extrêmement heuristique. En fait, la plupart des gens semblent appliquer cela aux <120 caractères des déclarations twitter. Les résultats (bien qu'ils ne soient pas calculés de cette façon) ne sont probablement pas meilleurs que de compter les mots "positifs" et "négatifs" avec une petite information de position ("A mieux que B" = positif pour A, négatif pour B)
Lorsque vous voyez alors des entreprises acheter un flux Twitter complet (c'est combien de mbit par seconde?) Et prétendre faire une analyse des sentiments à ce sujet, je me demande sérieusement s'il y a une validité statistique ici. Pas étonnant, par exemple, que Yahoo n'ait pas bien réussi à prédire les pré-sélections pour la Caroline du Sud: http://www.technologyreview.com/web/39487/
Les gens sont fiers et moyen de vif sur tout être du tout en mesure de traiter la quantité de données, ils semblent complètement négliger la validation correctement leur performance.
Désolé d'être aussi pessimiste sur l'état de l'art.
A QUIT - Anony-Mousse
la source