Façons de traiter la caractéristique longitude / latitude [fermé]

19

Je travaille sur un jeu de données fictif avec 25 fonctionnalités. Deux des caractéristiques sont la latitude et la longitude d'un lieu et d'autres sont les valeurs de pH, l'élévation, la vitesse du vent, etc. avec des plages variables. Je peux effectuer une normalisation sur les autres entités, mais comment aborder les entités de latitude / longitude?

Edit: C'est un problème pour prédire le rendement agricole. Je pense que lat / long est très important car les emplacements peuvent être vitaux dans la prédiction et donc le dilemme.

AllThingsScience
la source
Pourriez-vous expliquer pourquoi vous ne pensez pas pouvoir normaliser ces fonctionnalités? Vraisemblablement, ils sont numériques comme les autres fonctionnalités, vous pouvez donc prendre la moyenne / sd? Souhaitez-vous avoir une mesure naturelle de la distance entre les emplacements? Si oui, les données couvrent-elles une petite zone (avec des valeurs similaires) ou sont-elles globales?
Neil Slater
@NeilSlater C'est juste qu'intuitivement cela n'a pas de sens pour moi de normaliser ces fonctionnalités. Les informations ne seront-elles pas perdues si elles sont normalisées? J'ai l'ensemble de données couvrant les comtés d'Amérique.
AllThingsScience
Selon vous, quelles informations seront perdues? Elle ne sera probablement pas perdue, mais si vous expliquez dans votre question quelle est votre préoccupation, quelqu'un pourra y répondre. Ne sachant plus, je me contenterais de normaliser malgré tout - pour les valeurs entièrement globales et certains problèmes (où la distance entre les points est importante), je pourrais créer une fonction de coordonnées cartésiennes 3D à partir du long / lat.
Neil Slater
Quelle est ta question ici? Qu'essayez-vous de découvrir à partir des données? Corrélation? Clustering? Classification? Prédiction? Interpolation? En quoi la localisation est-elle importante pour votre modèle?
Spacedman
@Spacedman Veuillez voir éditer.
AllThingsScience

Réponses:

24

Les coordonnées longues ont un problème car ce sont 2 entités qui représentent un espace tridimensionnel. Cela signifie que la coordonnée longue va tout autour, ce qui signifie que les deux valeurs les plus extrêmes sont en fait très proches l'une de l'autre. J'ai traité ce problème plusieurs fois et ce que je fais dans ce cas est de les mapper sur les coordonnées x, y et z. Cela signifie que des points proches dans ces 3 dimensions sont également proches dans la réalité. Selon le cas d'utilisation, vous pouvez ignorer les changements de hauteur et les mapper sur une sphère parfaite. Ces fonctionnalités peuvent ensuite être normalisées correctement.

Pour clarifier (résumé des commentaires):

x = cos(lat) * cos(lon)
y = cos(lat) * sin(lon), 
z = sin(lat) 
Jan van der Vegt
la source
1
C'est très intéressant. Je vous remercie! Pourriez-vous confirmer s'il s'agit des formules de conversion? x = R * cos (lat) * cos (lon), y = R * cos (lat) * sin (lon), z = R * sin (lat)
AllThingsScience
Je n'ai pas accès à mon code pour le moment mais il semble correct. Vous n'avez pas besoin du R puisque vous allez de toute façon standardiser;)
Jan van der Vegt
Parfait! Je vous remercie.
AllThingsScience