XGBoost peut gérer les données manquantes dans la phase de prévision

11

Récemment, j'ai examiné l'algorithme XGBoost et j'ai remarqué que cet algorithme peut gérer les données manquantes (sans nécessiter d'imputation) dans la phase de formation. Je me demandais si XGboost peut gérer les données manquantes (sans nécessiter d'imputation) quand il est utilisé pour prévoir de nouvelles observations ou s'il est nécessaire d'imputer les données manquantes.

Merci d'avance.

Ricardo UES
la source

Réponses:

14

xgboost décide au moment de l'entraînement si les valeurs manquantes vont dans le nœud droit ou gauche. Il choisit lequel minimiser les pertes. S'il n'y a pas de valeurs manquantes au moment de la formation, il envoie par défaut tout nouveau manquant au nœud droit.

S'il y a du signal dans la distribution de vos manquements, cela correspond essentiellement au modèle.

Soyez prudent si vos données de score ont leurs valeurs manquantes distribuées différemment de vos données d'entraînement. La gestion manquante de xgboost est pratique mais ne protège pas contre le masquage.

Source: cette réponse

Dex Groves
la source