J'ai un ensemble de données avec 20000 échantillons, chacun a 12 fonctionnalités différentes. Chaque échantillon appartient à la catégorie 0 ou 1. Je souhaite former un réseau de neurones et une forêt de décision pour catégoriser les échantillons afin de pouvoir comparer les résultats et les deux techniques.
La première chose sur laquelle je suis tombé est la bonne normalisation des données. Une caractéristique se situe dans la plage , une autre dans et il y a une fonctionnalité qui prend principalement la valeur 8 et parfois 7. Donc, comme je l'ai lu dans différentes sources, une normalisation correcte des données d'entrée est crucial pour les réseaux de neurones. Comme je l'ai découvert, il existe de nombreuses façons de normaliser les données, par exemple:
- Normalisation Min-Max : La plage d'entrée est transformée linéairement en l'intervalle (ou alternativement , est-ce important?)
- Normalisation du score Z : les données sont transformées pour avoir une moyenne nulle et une variance unitaire:
Quelle normalisation dois-je choisir? La normalisation est-elle également nécessaire pour les forêts de décision? Avec la normalisation Z-Score, les différentes fonctionnalités de mes données de test ne se trouvent pas dans la même plage. Cela pourraît-il poser problème? Est-ce que chaque fonctionnalité devrait être normalisée avec le même algorithme, de sorte que je décide d'utiliser Min-Max pour toutes les fonctionnalités ou Z-Score pour toutes les fonctionnalités?
Existe-t-il des combinaisons où les données sont mappées sur et ont également une moyenne nulle (ce qui impliquerait une transformation non linéaire des données et donc un changement de la variance et d'autres caractéristiques des données d'entrée).
Je me sens un peu perdu car je ne trouve pas de références qui répondent à ces questions.
la source