Une étape de prétraitement courante pour les algorithmes d'apprentissage automatique est le blanchiment des données.
Il semble qu'il soit toujours bon de faire du blanchiment car il corréle les données, ce qui le rend plus simple à modéliser.
Quand le blanchiment n'est-il pas recommandé?
Remarque: je fais référence à la décorrélation des données.
Réponses:
Le pré-blanchiment est une généralisation de la normalisation des caractéristiques, qui rend l'entrée indépendante en la transformant par rapport à une matrice de covariance d'entrée transformée. Je ne vois pas pourquoi cela peut être une mauvaise chose.
Cependant, une recherche rapide a révélé "La faisabilité du blanchiment des données pour améliorer les performances du radar météorologique" ( pdf ) qui se lit comme suit:
Je ne suis pas assez instruit pour commenter cela. Peut-être que la réponse à votre question est que le blanchiment est toujours bon, mais il existe certains pièges (par exemple, avec des données aléatoires, cela ne fonctionnera pas bien s'il est effectué via la fonction d'autocorrélation gaussienne).
la source
Premièrement, je pense que la décorrélation et le blanchiment sont deux procédures distinctes.
Afin de décorréler les données, nous devons les transformer afin que les données transformées aient une matrice de covariance diagonale. Cette transformation peut être trouvée en résolvant le problème des valeurs propres. Nous trouvons les vecteurs propres et les valeurs propres associées de la matrice de covariance en résolvantΣ = X X′
où est une matrice diagonale ayant les valeurs propres comme éléments diagonaux.Λ
La matrice diagonise ainsi la matrice de covariance de . Les colonnes de sont les vecteurs propres de la matrice de covariance.X ΦΦ X Φ
Nous pouvons également écrire la covariance diagonalisée:
Donc, pour décorréler un seul vecteur , nous faisons:Xje
Les éléments diagonaux (valeurs propres) dans peuvent être identiques ou différents. Si nous les faisons tous de la même manière, cela s'appelle blanchir les données. Étant donné que chaque valeur propre détermine la longueur de son vecteur propre associé, la covariance correspondra à une ellipse lorsque les données ne sont pas blanchies et à une sphère (ayant toutes les dimensions de la même longueur ou uniforme) lorsque les données sont blanchies. Le blanchiment est effectué comme suit:Λ
De manière équivalente, en remplaçant en , nous écrivons:( 1 )
Ainsi, pour appliquer cette transformation de blanchiment à nous la multiplions simplement par ce facteur d'échelle, en obtenant le point de données blanchi : x † iX∗je X†je
Maintenant, la covariance de est non seulement diagonale, mais aussi uniforme (blanc), puisque la covariance de , .X†je X†je E ( x†jeX†je′) = I
Suite à cela, je peux voir deux cas où cela pourrait ne pas être utile. Le premier est plutôt trivial, il peut arriver que la mise à l'échelle des exemples de données soit en quelque sorte importante dans le problème d'inférence que vous regardez. Bien sûr, vous pouvez utiliser les valeurs propres comme un ensemble supplémentaire de fonctionnalités pour contourner ce problème. Le second est un problème de calcul: tout d'abord, vous devez calculer la matrice de covariance , qui peut être trop grande pour tenir en mémoire (si vous avez des milliers de fonctionnalités) ou prendre trop de temps à calculer; deuxièmement, la décomposition des valeurs propres est O (n ^ 3) dans la pratique, ce qui est encore assez horrible avec un grand nombre de caractéristiques.Σ
Et enfin, il existe un "piège" commun auquel les gens doivent faire attention. Il faut faire attention de calculer les facteurs d'échelle sur les données d'entraînement , puis d'utiliser les équations (2) et (3) pour appliquer les mêmes facteurs d'échelle aux données de test, sinon vous risquez de sur-adapter (vous utiliseriez informations de l'ensemble de tests dans le processus de formation).
Source: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf
la source
Depuis http://cs231n.github.io/neural-networks-2/
Malheureusement, je ne suis pas suffisamment éduqué pour commenter davantage cela.
la source