Questions marquées «cart»

10
Taille de l'arbre dans le boosting d'arbre dégradé

L'amplification des arbres à gradient comme proposé par Friedman utilise des arbres de décision avec Jdes nœuds terminaux (= feuilles) comme apprenants de base. Il existe un certain nombre de façons de faire pousser un arbre avec exactement des Jnœuds, par exemple, on peut faire pousser l'arbre en...

10
Pourquoi Anova () et drop1 () ont-ils fourni des réponses différentes pour les GLMM?

J'ai un GLMM du formulaire: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Lorsque j'utilise drop1(model, test="Chi"), j'obtiens des résultats différents de ceux que j'utilise à Anova(model, type="III")partir du package de voiture ou...

10
Arbres de décision: mise à l'échelle variable (fonctionnalité) et normalisation variable (fonctionnalité) (réglage) requises dans quelles implémentations?

Dans de nombreux algorithmes d'apprentissage automatique, la mise à l'échelle des fonctionnalités (aka mise à l'échelle variable, normalisation) est une étape de pré-traitement courante Wikipedia - Mise à l'échelle des fonctionnalités - cette question était proche Question # 41704 - Comment et...

10
R régression linéaire variable catégorielle valeur «cachée»

Ceci est juste un exemple que j'ai rencontré plusieurs fois, donc je n'ai pas d'échantillons de données. Exécution d'un modèle de régression linéaire dans R: a.lm = lm(Y ~ x1 + x2) x1est une variable continue. x2est catégorique et a trois valeurs, par exemple "Low", "Medium" et "High". Cependant,...

9
Les estimateurs d'arbres sont-ils TOUJOURS biaisés?

Je fais mes devoirs sur les arbres de décision, et l'une des questions auxquelles je dois répondre est "Pourquoi les estimateurs sont-ils construits à partir d'arbres biaisés, et comment l'ensachage aide-t-il à réduire leur variance?". Maintenant, je sais que les modèles surajustés ont tendance à...

9
Comment choisir le nombre de scissions dans rpart ()?

Je l' ai utilisé rpart.controlpour minsplit=2, et a obtenu les résultats suivants de la rpart()fonction. Pour éviter de sur-ajuster les données, dois-je utiliser les divisions 3 ou 7? Ne devrais-je pas utiliser le fractionnement 7? S'il vous plaît, faites-moi savoir. Variables réellement utilisées...

8
Arbre de décision avec variable d'entrée continue

Il est connu que lors de la construction d'un arbre de décision, nous divisons la variable d'entrée de manière exhaustive et trouvons la «meilleure» répartition par approche de test statistique ou approche par fonction d'impureté. Ma question est quand nous utilisons une variable continue comme...

8
Biais de sélection dans les arbres

Dans Applied Predictive Modeling de Kuhn et Johnson, les auteurs écrivent: Enfin, ces arbres souffrent d'un biais de sélection: les prédicteurs avec un nombre plus élevé de valeurs distinctes sont favorisés par rapport aux prédicteurs plus granulaires (Loh et Shih, 1997; Carolin et al., 2007; Loh,...