J'ai des ensembles de données qui contiennent, parmi de nombreuses fonctionnalités, des coordonnées GPS (latitude et longitude). Je voudrais utiliser ces ensembles de données pour explorer des problèmes tels que: (1) calculer l'ETA pour conduire entre les points de début et de fin; et (2) estimer le degré de criminalité pour un point spécifique.
Je voudrais utiliser un modèle de régression linéaire. Cependant, puis-je utiliser ces coordonnées GPS directement dans un modèle linéaire?
La latitude et la longitude n'ont pas de propriété ordinale , comme avec l'âge d'une personne. Par exemple, les deux points (40.805996, -96.681473) et (41.226682, -95.986587) ne semblent pas avoir de classement significatif. Ce ne sont que des points dans l'espace. Je pensais à les remplacer par des codes postaux américains catégoriques, puis à faire un codage à chaud , mais cela entraînerait de nombreuses variables.
la source
Réponses:
Vous ne pouvez pas les utiliser directement, car il est peu probable qu'il existe une véritable relation linéaire à moins que vous ne cherchiez à prédire "à quelle distance est ou nord" quelqu'un est. Comme mentionné dans les commentaires, vous devez les convertir en zones. Si vous souhaitez que les choses restent simples, vous pouvez utiliser un algorithme de clustering kNN avec un faible nombre de clusters potentiels, puis attribuer à chaque instance une nouvelle fonctionnalité avec l'ID de cluster, puis le coder à chaud.
Vous pouvez également lire comment les gens interpolent les coordonnées pour prédire des valeurs sur une carte entière. Le premier exemple concerne les stations de température, mais vous pouvez également imaginer qu'il s'agit de «zones chaudes» pour la criminalité.
( DOCS )
la source
Vous pouvez faire tout ce que votre cœur désire, mais à moins que votre modèle ne prédit la température ou la différence de temps, je ne peux pas trouver d'autre variable cible qui dépend uniquement des coordonnées.
Ce que vous voulez probablement faire, c'est utiliser une source de données externe et enrichir vos données avec le pays / code postal / climat / d'autres caractéristiques géographiques qui aideront votre modèle à fonctionner.
la source
Les coordonnées GPS peuvent être directement converties en géohash . Geohash divise la Terre en "seaux" de différentes tailles en fonction du nombre de chiffres (les codes Geohash courts créent de grandes zones et des codes plus longs pour les zones plus petites).
Un géohash est un nombre unique qui peut être utilisé comme entité dans un modèle.
Geohash s'applique uniquement au monde entier, pas les codes postaux.
la source