Pour expérimenter, nous aimerions utiliser les Emoji intégrés dans de nombreux Tweets comme données de vérité / formation au sol pour une analyse quantitative de sénitment simple. Les tweets sont généralement trop peu structurés pour que la PNL fonctionne correctement.
Quoi qu'il en soit, il y a 722 Emoji dans Unicode 6.0, et probablement 250 autres seront ajoutés dans Unicode 7.0.
Existe-t-il une base de données (comme par exemple SentiWordNet) qui contient des annotations de sentiment pour eux?
(Notez que SentiWordNet permet aussi des significations ambiguës . Considérez par exemple drôle , ce qui n'est pas seulement positif: "ça a un drôle de goût" n'est probablement pas positif ... il en va de même ;-)
par exemple. Mais je ne pense pas que ce soit plus difficile pour Emoji que pour les mots normaux ...)
De plus, si vous avez de l'expérience avec leur utilisation pour l'analyse des sentiments, je serais intéressé de les entendre.
la source
Réponses:
Au total, 972 emoji ne sont pas vraiment si gros pour ne pas pouvoir les étiqueter manuellement, mais je doute qu'ils fonctionneront comme une bonne vérité de terrain. Des sources comme Twitter sont pleines d'ironie, de sarcasme et d'autres paramètres délicats où les symboles émotionnels (tels que les emoji ou les émoticônes) signifient quelque chose de différent de l'interprétation normale. Par exemple, quelqu'un peut écrire "xxx a trompé ses clients, et maintenant ils sont eux-mêmes trompés! Ha ha ha!: D". C'est certainement un commentaire négatif, mais l'auteur est heureux de voir xxx entreprise en difficulté et ajoute ainsi une émoticône positive. Ces cas ne sont pas si fréquents, mais ne conviennent certainement pas à la vérité fondamentale.
L'approche beaucoup plus courante consiste à utiliser l'émoticône comme graine pour collecter un ensemble de données réel . Par exemple, dans cet article, les auteurs utilisent des émoticônes et des balises de hachage émotionnel pour saisir le lexique de mots utiles pour une classification ultérieure.
la source
J'ai trouvé ce dépôt Github utile (un bon début): https://github.com/wooorm/emoji-emotion Liste des emoji évalués pour la valence avec un entier entre moins cinq (négatif) et plus cinq (positif).
Voir la liste des emojis unicode pris en charge: https://github.com/wooorm/emoji-emotion/blob/master/Support.md
la source