Je comprends comment la meilleure répartition est choisie pour la forêt aléatoire pour les prédicteurs numériques (caractéristiques).
Les prédicteurs numériques sont triés puis pour chaque valeur, l'impureté ou l'entropie de Gini est calculée et un seuil est choisi qui donne la meilleure répartition. Mais quelle est la meilleure répartition choisie pour le prédicteur catégorique car il n'y a pas d'ordre spécifique?