Questions marquées «nlp»

Le traitement du langage naturel (PNL) est un domaine de l'informatique, de l'intelligence artificielle et de la linguistique qui s'intéresse aux interactions entre les ordinateurs et les langues (naturelles) humaines. À ce titre, la PNL est liée au domaine de l'interaction homme-ordinateur. De nombreux défis en PNL impliquent la compréhension du langage naturel, c'est-à-dire permettre aux ordinateurs de tirer un sens de la saisie du langage humain ou naturel, et d'autres impliquent la génération du langage naturel.

29
Pourquoi xgboost est-il tellement plus rapide que sklearn GradientBoostingClassifier?

J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine...

22
Quelle est une meilleure entrée pour Word2Vec?

Cela ressemble plus à une question générale de PNL. Quelle est l'entrée appropriée pour former l'intégration d'un mot, à savoir Word2Vec? Est-ce que toutes les phrases appartenant à un article devraient être un document séparé dans un corpus? Ou chaque article doit-il être un document dans ledit...

21
Comment charger le modèle pré-formé FastText avec Gensim?

J'ai essayé de charger le modèle pré-formé fastText à partir d'ici le modèle Fasttext . J'utilise wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) Mais, il montre les erreurs suivantes Traceback (most...

18
PNL - pourquoi «n'est pas» un mot d'arrêt?

J'essaie de supprimer les mots vides avant d'effectuer la modélisation du sujet. J'ai remarqué que certains mots de négation (pas, ni, jamais, aucun, etc.) sont généralement considérés comme des mots vides. Par exemple, NLTK, spacy et sklearn incluent "not" dans leurs listes de mots vides....