..., deux (parmi les 20 variables sélectionnées) sont fortement corrélées et deux autres sont complètement corrélées. Est-ce normal? La méthode Boruta n'aurait-elle pas dû classer l'un des deux comme sans importance?
Oui c'est normal. Boruta a tendance à trouver toutes les caractéristiques pertinentes pour la variable de réponse . Rigoureusement parlant, une variable prédictive est considérée comme pertinente pour si et ne sont pas conditionnellement indépendants compte tenu de certaines autres variables prédictives (ou étant donné rien, ce qui signifierait simplement que et ne sont pas indépendants).yXjeyXjeyxiy
Considérez cet exemple simple:
set.seed(666)
n <- 100
x1 <- rnorm(n)
x2 <- x1 + rnorm(n,sd=0.5)
x3 <- rnorm(n)
y <- x2 + rnorm(n)
Vous voyez que , alors est pertinent pour , car et ne sont pas indépendants. Vous voyez également que et alors n'est pas indépendant de . La seule variable non pertinente pour est , car:y=x2+noisex2yyx2x2=x1+noiseyx2yx3
- y et sont indépendantsx3
- y et sont conditionnellement indépendants étant donnéx3x1
- y et sont conditionnellement indépendants étant donnéx3(x1,x2)
Ensuite, Boruta trouve le résultat attendu:
> library(Boruta)
> Boruta(data.frame(x1,x2,x3), y)
Boruta performed 30 iterations in 2.395286 secs.
2 attributes confirmed important: x1, x2.
1 attributes confirmed unimportant: x3.
Il existe une forte corrélation entre et , mais Boruta n'y voit pas d'inconvénient:x1x2
> cor(x1,x2)
[1] 0.896883
Stéphane Laurent
la source
Oui c'est normal. L'algorithme de Boruta rejette des attributs qui n'ont aucune valeur pour le classificateur, laissant l'ensemble d'attributs «tout pertinent», qui peut très bien inclure des attributs corrélés. Comparez cela à l'ensemble «minimal-optimal» (qui ne devrait pas contenir de corrélations).
Alors pourquoi utiliser cette méthode pour la sélection des fonctionnalités? Vous pouvez trouver cette citation de l' article original utile:
Donc, si votre objectif principal est de comprendre les liens de causalité entre les prédicteurs et les résultats, le fait de considérer uniquement l'ensemble optimal de variables peut vous induire en erreur et vous devez étudier l'ensemble tout-pertinent.
Cependant, si ce que vous cherchez est un modèle efficace pour s'adapter, il vaut mieux utiliser l'ensemble minimal-optimal.
la source