“Créer un sac de mots dans Scikit-Learn” Réponses codées

Créer un sac de mots dans Scikit-Learn

# Import CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer

# Create the token pattern: TOKENS_ALPHANUMERIC
TOKENS_ALPHANUMERIC = '[A-Za-z0-9]+(?=\\s+)'

# Fill missing values in df.Position_Extra
df.Position_Extra.fillna('', inplace=True)

# Instantiate the CountVectorizer: vec_alphanumeric
vec_alphanumeric = CountVectorizer(token_pattern=TOKENS_ALPHANUMERIC)

# Fit to the data
vec_alphanumeric.fit(df.Position_Extra)

# Print the number of tokens and first 15 tokens
msg = "There are {} tokens in Position_Extra if we split on non-alpha numeric"
print(msg.format(len(vec_alphanumeric.get_feature_names())))
print(vec_alphanumeric.get_feature_names()[:15])

josh.ipynb

Réponses similaires à “Créer un sac de mots dans Scikit-Learn”

Supprimez le nœud à une position donnée 2 dans une liste liée et renvoyez une référence au nœud de tête. La tête est en position 0. La liste peut être vide après avoir supprimé le nœud. Dans ce cas, renvoyez une valeur nulle.

Questions similaires à “Créer un sac de mots dans Scikit-Learn”

Plus de réponses similaires à “Créer un sac de mots dans Scikit-Learn” dans Python

Parcourir les réponses de code populaires par langue

Parcourir d'autres langages de code

Shell/Bash

C++

CSS

HTML

Java

JavaScript

Objective-C

PHP

Python

Sql

Swift

Ruby

TypeScript

Kotlin

Assembly

VBA

Scala

Rust

Dart

Elixir

Clojure

Haskell

Matlab

Erlang

Cobol

Fortran

Scheme

Perl

Groovy

Lua

Julia

Delphi

Abap

Lisp

Prolog

Pascal

ActionScript

Basic

Solidity

PowerShell

GDScript

Excel