Je travaille sur un jeu de données fictif avec 25 fonctionnalités. Deux des caractéristiques sont la latitude et la longitude d'un lieu et d'autres sont les valeurs de pH, l'élévation, la vitesse du vent, etc. avec des plages variables. Je peux effectuer une normalisation sur les autres entités, mais comment aborder les entités de latitude / longitude?
Edit: C'est un problème pour prédire le rendement agricole. Je pense que lat / long est très important car les emplacements peuvent être vitaux dans la prédiction et donc le dilemme.
machine-learning
python
feature-engineering
feature-scaling
normalization
AllThingsScience
la source
la source
Réponses:
Les coordonnées longues ont un problème car ce sont 2 entités qui représentent un espace tridimensionnel. Cela signifie que la coordonnée longue va tout autour, ce qui signifie que les deux valeurs les plus extrêmes sont en fait très proches l'une de l'autre. J'ai traité ce problème plusieurs fois et ce que je fais dans ce cas est de les mapper sur les coordonnées x, y et z. Cela signifie que des points proches dans ces 3 dimensions sont également proches dans la réalité. Selon le cas d'utilisation, vous pouvez ignorer les changements de hauteur et les mapper sur une sphère parfaite. Ces fonctionnalités peuvent ensuite être normalisées correctement.
Pour clarifier (résumé des commentaires):
la source