Bonnes ressources sur les algorithmes de géocodage

19

Connaissez-vous de bonnes ressources sur les algorithmes de géocodage?

Je suis particulièrement intéressé par l'analyse des requêtes d'adresses, y compris la correspondance et la pondération des parties de la requête, le traitement des fautes d'orthographe et des variations, ainsi que les détails sur le stockage des données physiques (par exemple, les schémas pour les requêtes de bases de données relationnelles directes, les approches d'indexation des données, etc.) .

J'ai étudié certains documents sur le géocodage d'ArcGIS 10, mais ils touchent un peu les détails de l'implémentation réelle. Une documentation détaillée d'autres implémentations de production de haute qualité pourrait également être utile. Plus c'est technique, mieux c'est. Les articles d'algorithmes théoriques sont également excellents.

Merci.

Petr Krebs
la source

Réponses:

14

Du texte aux coordonnées géographiques: l'état actuel du géocodage

Daniel W. Goldberg, John P. Wilson et Craig A. Knoblock Résumé: Cet article présente une étude de l'état de l'art des pratiques de géocodage à travers une revue historique interdisciplinaire de la littérature existante. Nous explorons le concept évolutif du géocodage et les composants fondamentaux du processus. Les sources d'erreur et d'incertitude fréquemment rencontrées sont discutées ainsi que les mesures existantes utilisées pour les quantifier. Un examen des pièges communs et des défis persistants dans le processus de géocodage est présenté, et les méthodes traditionnelles pour les surmonter sont décrites.

10.1.1.119.714.pdf

PDF (à partir de la page 34) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.119.714&rep=rep1&type=pdf

Mapperz
la source
Je crois que vous avez le mauvais lien, citeseerx.ist.psu.edu/viewdoc/…
Andy W
@thanks 10.1.1.119.714.pdf est le bon article mis à jour - une convention de dénomination différente aurait été préférable.
Mapperz
6

Le papier auquel Mapperz est lié est très bon et contient beaucoup de citations qui seront probablement intéressantes, mais je ne pense pas qu'elles décrivent très bien la correspondance des chaînes et son importance dans le processus de géocodage. Ils ont mentionné brièvement Soundex , mais Soundex n'est pas la seule option et même pas la meilleure option pour les adresses IMO. Ils ont énuméré un bon nombre de citations qui sont pertinentes au sujet, donc ces articles vous intéresseront.

Ce fil sur le site d'échange de statistiques parle de correspondance floue de deux ensembles de chaînes, et toutes les mêmes techniques s'appliquent lors de la correspondance d'adresses. En particulier, je pense que l'utilisation de distances de montage est plus logique que Soundex, en particulier avec les détails d'adresse qui n'ont pas d'analogique Soundex. Le calcul de la distance Levenshtein entre deux chaînes n'est pas si compliqué, et ce sont de nombreux exemples flottant sur Internet (en voici un en Python).

Je viens de passer la dernière heure à essayer de trouver comment ESRI implémente leur sensibilité à l'orthographe et leurs différents scores de candidats et de correspondances. Je n'ai trouvé que des descriptions simples (les meilleures de celles que j'ai trouvées dans ce PDF et la section d'aide en ligne de 9.3 ). Donc, si quelqu'un peut me diriger vers une documentation plus détaillée, je serais reconnaissant ainsi que l'OP.

Andy W
la source
3

L'Université de Caroline du Sud dispose de services de traitement d'adresses et de géocodage pour lesquels elle a publié certains détails techniques. Ils ont beaucoup de bonnes références sur leur site.

Sean
la source