Questions marquées «machine-learning»

10
Importance des coefficients de régression (GAM) lorsque la vraisemblance du modèle n'est pas significativement plus élevée que nulle

J'exécute une régression basée sur GAM en utilisant le gamlss du package R et en supposant une distribution bêta gonflée à zéro des données. Je n'ai qu'une seule variable explicative dans mon modèle, il est donc essentiellement: mymodel = gamlss(response ~ input, family=BEZI). L'algorithme me donne...

10
Pourquoi utiliser l'AUC?

Surtout du côté informatique de la littérature sur l'apprentissage automatique, l'ASC (aire sous la courbe caractéristique de l'opérateur du récepteur) est un critère populaire pour évaluer les classificateurs. Quelles sont les justifications de l'utilisation de l'AUC? Par exemple, existe-t-il une...

10
Concernant l'utilisation du modèle bigramme (N-gramme) pour créer un vecteur d'entités pour un document texte

Une approche traditionnelle de la construction d'entités pour l'exploration de texte est une approche par sac de mots, et peut être améliorée à l'aide de tf-idf pour configurer le vecteur d'entités caractérisant un document texte donné. À l'heure actuelle, j'essaie d'utiliser un modèle de langage...

10
R régression linéaire variable catégorielle valeur «cachée»

Ceci est juste un exemple que j'ai rencontré plusieurs fois, donc je n'ai pas d'échantillons de données. Exécution d'un modèle de régression linéaire dans R: a.lm = lm(Y ~ x1 + x2) x1est une variable continue. x2est catégorique et a trois valeurs, par exemple "Low", "Medium" et "High". Cependant,...

10
Comment comparer l'exactitude de deux modèles différents en utilisant la signification statistique

Je travaille sur la prédiction de séries chronologiques. J'ai deux ensembles de données et . J'ai trois modèles de prédiction: . Tous ces modèles sont entraînés à l'aide d'échantillons dans l'ensemble de données , et leurs performances sont mesurées à l'aide des échantillons dans l'ensemble de...

10
Un modèle de P (Y | X) peut-il être formé par descente de gradient stochastique à partir d'échantillons non iid de P (X) et d'iid échantillons de P (Y | X)?

Lors de la formation d'un modèle paramétré (par exemple pour maximiser la probabilité) par descente de gradient stochastique sur certains ensembles de données, il est communément supposé que les échantillons d'apprentissage sont tirés de la distribution des données d'apprentissage. Donc, si...