Pourquoi Random Forest ne gère-t-il pas les valeurs manquantes dans les prédicteurs?

42

Quelles sont les raisons théoriques de ne pas gérer les valeurs manquantes? Machines à gradient progressif, les arbres de régression gèrent les valeurs manquantes. Pourquoi Random Forest ne fait-il pas cela?

Fedorenko Kristina
la source
3
Ils sont traités dans le partypackage R. Un article de blog ici: exegetic.biz/blog/2013/05/…
Stéphane Laurent

Réponses:

34

Gradient Boosting Trees utilise des arbres CART (dans une configuration standard, telle que proposée par ses auteurs). Les arbres CART sont également utilisés dans les forêts aléatoires. Ce que @ user777 a dit est vrai, les arbres RF gèrent les valeurs manquantes soit par imputation avec moyenne, soit par moyenne grossière / mode, soit par une moyenne / un mode basé sur les proximités. Ces méthodes ont été proposées par Breiman et Cutler et sont utilisées pour la RF. C’est une référence des auteurs Valeurs manquantes dans l’ensemble de formation .

Cependant, on peut construire un GBM ou RF avec un autre type d'arbre de décision. Le remplacement habituel de CART est le C4.5 proposé par Quinlan. En C4.5, les valeurs manquantes ne sont pas remplacées dans le jeu de données. Au lieu de cela, la fonction d'impureté calculée prend en compte les valeurs manquantes en pénalisant le score d'impuretés avec le rapport des valeurs manquantes. Lors du test, définissez l'évaluation dans un nœud comportant un test avec une valeur manquante. La prédiction est construite pour chaque nœud enfant et agrégée ultérieurement (par pondération).

Maintenant, dans de nombreuses implémentations, C4.5 est utilisé à la place de CART. La raison principale est d'éviter des calculs coûteux (CART a des approches statistiques plus rigoureuses, qui nécessitent plus de calculs), les résultats semblent être similaires, les arbres résultants sont souvent plus petits (puisque CART est binaire et C4.5 pas). Je sais que Weka utilise cette approche. Je ne connais pas d'autres bibliothèques, mais je m'attends à ce que ce ne soit pas une situation singulière. Si tel est le cas avec votre implémentation GBM, alors ce serait une réponse.

Rapaio
la source
Continuons cette discussion sur le chat .
Prophet60091
Vous avez parlé de "pénaliser le score d'impuretés avec la ration de valeurs manquantes". Comment cela affecte-t-il directement la sélection des valeurs de dimension optimales sélectionnées à un niveau / une branche particulière de l'arbre?
javadba
16

"Quelles sont [les] raisons théoriques [pour RF] de ne pas gérer les valeurs manquantes? Les machines à gradient de gradient et les arbres de régression traitent les valeurs manquantes. Pourquoi Random Forest ne le fait-il pas?"

RF fait les valeurs manquantes de la poignée, mais pas de la même manière que CART et d' autres algorithmes d'arbres de décision similaires font. User777 décrit correctement les deux méthodes utilisées par RF pour traiter les données manquantes (imputation médiane et / ou mesure basée sur la proximité), tandis que Frank Harrell décrit correctement le traitement des valeurs manquantes dans CART (fractures de substitution). Pour plus d'informations, voir les liens sur la gestion des données manquantes pour CART (ou son cousin FOSS: RPART ) et RF .

Une réponse à votre question est clairement couverte, à mon humble avis, dans l’article de 2008 d’Ishwaran et al., Intitulé Random Survival Forests . Ils fournissent l'explication plausible suivante pour expliquer pourquoi RF ne traite pas les données manquantes de la même manière que les classificateurs CART ou similaires:

"Bien que la scission par substitution fonctionne bien pour les arbres, la méthode peut ne pas convenir aux forêts. La rapidité est un problème. La recherche de la scission par substitution nécessite beaucoup de calcul et peut devenir impraticable lors de la croissance d'un grand nombre d'arbres, en particulier pour les arbres complètement saturés utilisés par En outre, les divisions de substitution peuvent même ne pas être significatives dans un paradigme de forêt. RF sélectionne des variables de manière aléatoire lors de la division d'un nœud et, de ce fait, les variables d'un nœud peuvent être non corrélées, et une division de substitution raisonnable peut ne pas exister. la division par substitution modifie l'interprétation d'une variable, ce qui affecte des mesures telles que [Importance de la variable].

Pour ces raisons, une stratégie différente est requise pour RF. "

Ceci est un aparté, mais pour moi, cela remet en question ceux qui prétendent que RF utilise un ensemble de modèles CART. J'ai vu cette affirmation dans de nombreux articles, mais je n'ai jamais vu de telles déclarations provenir d'un texte faisant autorité sur RF. D'une part, les arbres d'un RF sont cultivés sans élagage , ce qui n'est généralement pas l'approche standard lors de la construction d'un modèle CART. Une autre raison serait celle à laquelle vous faites allusion dans votre question: CART et d'autres ensembles d'arbres de décision gèrent les valeurs manquantes, alors que [l'original] RF ne le fait pas, du moins pas en interne comme le fait CART.

En gardant à l’esprit ces mises en garde, on pourrait dire que RF utilise un ensemble d’ arbres décisionnels de type CART (c’est -à- dire un groupe d’arbres non élagués, poussés à leur maximum, sans possibilité de traiter les données manquantes par fractionnement par substitution). C’est peut-être une de ces différences sémantiques, mais c’est une différence qui mérite d’être signalée.


EDIT : Dans ma note d’accompagnement, qui n’est pas liée à la question posée, j’ai déclaré: "Je n’ai jamais vu de telles déclarations provenir d’un texte faisant autorité sur RF". Breiman DID précise que les arbres de décision CART sont utilisés dans l'algorithme RF d'origine:

"La forêt aléatoire la plus simple avec des caractéristiques aléatoires est formée en sélectionnant au hasard, sur chaque nœud, un petit groupe de variables d'entrée sur lesquelles se scinder. Divisez l'arborescence en utilisant la méthodologie CART à la taille maximale et sans élagage." [Mon emphase]

Source: p.9 de Forêts aléatoires. Breiman (2001)

Cependant, je reste toujours (quoique de manière plus précaire) sur la notion qu'il s'agisse d'arbres de décision de type CART dans la mesure où ils sont cultivés sans élagage, alors qu'un CART n'est normalement jamais exécuté dans cette configuration, car il saturera presque certainement vos données ( d'où la taille en premier lieu).

Prophet60091
la source
11

La forêt aléatoire gère les données manquantes et elle le fait de deux manières différentes:

1) Sans imputation des données manquantes, mais fournissant des déductions. 2) Imputation des données. Les données imputées sont ensuite utilisées pour l'inférence.

Les deux méthodes sont implémentées dans mon paquet R randomForestSRC (co-écrit avec Udaya Kogalur). Premièrement, il est important de se rappeler que, les forêts aléatoires utilisant la sélection aléatoire des caractéristiques, les méthodes de données manquantes traditionnelles utilisées par des arbres individuels (CART, etc.) ne s'appliquent pas. Cette remarque a été faite dans Ishwaran et al. (2008), "Random Survival Forests", Annals of Applied Statistics , 2 , 3 et bien articulé par l'un des commentateurs.

La méthode (1) est une méthode "d'imputation à la volée" (OTFI). Avant de scinder un nœud, les données manquantes pour une variable sont imputées en extrayant de manière aléatoire des valeurs à partir de données in-bag non manquantes. Le but de ces données imputées est de permettre l’affectation de cas aux noeuds filles au cas où le noeud serait divisé sur une variable avec des données manquantes. Les données imputées ne sont toutefois pas utilisées pour calculer la statistique fractionnée qui utilise uniquement des données non manquantes. Après la scission d'un nœud, les données imputées sont réinitialisées à manquantes et le processus est répété jusqu'à ce que les nœuds terminaux soient atteints. OTFI préserve l’intégrité des données hors du sac et par conséquent les valeurs de performance telles que l’importance variable (VIMP) restent non biaisées. L’algorithme OTFI a été décrit dans Ishwaran et al. (2008) et implémenté dans le package randomSurvivalForest, à la retraite.

La méthode (2) est implémentée à l'aide de la fonction "impute" de randomForestSRC. Des méthodes de fractionnement non supervisées, randomisées et multivariées sont disponibles pour l'imputation des données. Par exemple, le fractionnement multivarié généralise la méthode d'imputation très réussie missForest ( Stekhoven & Bühlmann (2012), "MissForest - imputation non paramétrique des valeurs manquantes pour les données de type mixte", Bioinformatics , 28 , 1 ). L'appel de la fonction impute avec des données manquantes renverra une trame de données imputée pouvant être ajustée à l'aide de la fonction de forêt principale "rfsrc".

Une comparaison détaillée des différents algorithmes de données manquantes de forêt mis en œuvre en utilisant "impute" a été décrite dans un article récent avec Fei Tang "Algorithmes de données manquantes de forêt aléatoire", 2017 . Je recommande de consulter les fichiers d'aide de "rfsrc" et "impute" de randomForestSRC pour plus de détails sur l'imputation et OTFI.

Hemant Ishwaran
la source
3
Bienvenue sur notre site! Notez que votre nom d'utilisateur, identicon, et un lien vers votre page d'utilisateur sont automatiquement ajoutés à chaque message que vous publiez, il n'est donc pas nécessaire de signer vos messages. En fait, nous préférons que vous ne le fassiez pas.
Silverfish
1
Merci pour une réponse intéressante (+1). J'ai pris la liberté d'ajouter des références complètes et des liens pour quelques-uns des articles cités, mais je ne pouvais pas trouver Tang & Ishwaran (2015), "Algorithmes de données manquantes dans une forêt aléatoire". A-t-il déjà été publié?
Scortchi
9

Le partitionnement récursif utilise des fractionnements de substitution basés sur des prédicteurs non manquants corrélés au prédicteur possédant la valeur manquante pour une observation. En théorie, il semblerait possible d'implémenter des forêts aléatoires qui utilisent la même idée. Je ne sais pas si un logiciel de forêt aléatoire l'a fait.

Frank Harrell
la source
7

Random Forest dispose de deux méthodes pour gérer les valeurs manquantes, selon Leo Breiman et Adele Cutler, qui les ont inventées.

La première est rapide et sale: elle ne fait que renseigner la valeur médiane pour les variables continues ou la valeur non manquante la plus courante par classe .

La deuxième méthode remplit les valeurs manquantes, puis exécute RF, puis pour les valeurs continues manquantes, RF calcule la moyenne pondérée en fonction de la proximité des valeurs manquantes. Ensuite, ce processus est répété plusieurs fois. Le modèle est ensuite formé une dernière fois en utilisant le jeu de données imputé par RF.

Rétablir Monica
la source
Merci pour votre réponse! Mais ces deux méthodes remplacent les valeurs manquantes. Mais dans le GBM ou les arbres de régression, les valeurs manquantes ne remplacent en rien. Quelle est la différence théorique entre, par exemple, GBM et RF dans ce sens?
Fedorenko Kristina
Je ne suis pas un expert en GBM, mais le traitement RF des valeurs manquantes semble être enraciné dans l'idée d'imputation, fr.wikipedia.org/wiki/Imputation_(statistics) Dans les cas où les valeurs manquantes ne manquent pas les résultats peuvent être biaisés en raison de l'absence de données. L'imputation tente de récupérer ces valeurs manquantes et de réduire les biais.
Réintégrer Monica
2

Au lieu d'utiliser des valeurs médianes, etc., je vous recommande vivement de consulter le package missRanger (actuellement en développement sur Github) ou le package R, missForest). Ces deux logiciels utilisent des forêts aléatoires pour commencer par imputer vos données à l’aide d’une méthode similaire à l’imputation multiple au moyen d’équations chaînées (MICE). Ce serait la méthode d'imputation appropriée à utiliser car elle correspond étroitement à votre modèle d'analyse actuel. Vous pouvez ensuite utiliser toutes vos données sans avoir à vous soucier de supprimer des lignes individuelles en raison d'observations manquantes. De plus, les valeurs imputées seront beaucoup plus réalistes que la simple sélection de médianes ou de modes.

Vous pouvez utiliser un seul jeu de données imputé rempli pour vos analyses, mais le meilleur moyen d’incorporer l’incertitude concernant les valeurs manquantes consiste à exécuter plusieurs exécutions de ces méthodes d’imputation, puis à estimer votre modèle pour chacun des jeux de données résultants (c.-à-d. Plusieurs imputation) et ensuite combiner les estimations en utilisant les règles de Rubin (voir M outils du package R).

Robert Kubinec
la source
0

Pour CART, vous pouvez appliquer l’approche MIA (manque d’attributs). Autrement dit, pour les prédicteurs catégoriels, votre code manque dans une catégorie distincte. Pour les prédicteurs numériques, vous créez deux nouvelles variables pour chaque variable avec des valeurs manquantes: une pour coder les manquements sous la forme -Inf et une autre pour les manquements sous la forme + Inf. Ensuite, vous appliquez une fonction de forêt aléatoire comme d'habitude à vos données.

Avantages du MIA: 1) pas cher du point de vue du calcul, 2) ne produit pas de multiples ensembles de données et donc des modèles, contrairement à l'imputation multiple (la littérature sur l'imputation des données manquantes convient généralement qu'un seul jeu de données imputé ne suffit pas), 3) ne nécessite pas vous choisissez une méthode statistique et / ou un modèle pour imputer les données.

Les fonctions ctree()et les cforest()paquetages partykit permettent d’appliquer MIA en passant ctree_control(MIA = TRUE)à leurs controlarguments.

Le programme RuleFit de Jerome Friedman semble utiliser MIA pour traiter les manquements, voir https://statweb.stanford.edu/~jhf/r-rulefit/rulefit3/RuleFit_help.html#xmiss .

On trouvera une description de l'approche MIA dans Twala et al. (2008):

Twala, BETH, Jones, MC et Hand, DJ (2008). Bonnes méthodes pour gérer les données manquantes dans les arbres de décision. Pattern Recognition Letters, 29 (7), 950-956.

Marjolein Fokkema
la source