Quelles sont les méthodes utilisées par les services GeoIP en plus des informations WHOIS? [fermé]

11

Je me demandais simplement comment les services GeoIP collectent des données sur la géolocalisation des IP en plus de vérifier les informations WHOIS de l'adresse IP. Par exemple, je suis tombé sur ce site Web, qui indique que l'IP 74.207.244.221 est situé à Fremont, en Californie: https://ipinfo.io/74.207.244.221

Mais je ne trouve pas cette info sur cette information whois IP. ipinfo.io déclare que:

À l'origine, notre API utilisait les données MaxMind, mais nous avons été très occupés à créer nos propres données de géolocalisation. Nous avons fait beaucoup de progrès et nous utilisons maintenant nos propres données pour répondre à environ la moitié de toutes les demandes. Nous recourons toujours aux données MaxMind

Et cela m'a intéressé, quelles sont les façons dont des services comme ipinfo.io et MaxMind collectent des données GeoIP?

Apprenant
la source

Réponses:

11

Ces services utilisent généralement 3 façons de géolocaliser une adresse IP:

  1. Parcourir des bases de données whois pour rechercher une adresse;
  2. Suivi des requêtes DNS inversées pour essayer de trouver des indices sur la base des enregistrements de nom de domaine ou suivi du chemin du paquet envoyé à la destination, ce qui pourrait également donner des indices (en utilisant traceroute, par exemple).
  3. Et enfin, ils utilisent la triangulation RTT.

La triangulation du temps d'aller -retour (RTT) est une méthode utilisée pour obtenir la géolocalisation approximative d'une adresse IP en mesurant la latence de ping à partir de trois emplacements différents.

Par exemple, si vous avez trois serveurs répartis dans le monde sous la forme d'un triangle, et si vous envoyez une requête ping à une adresse IP à partir de tous les trois et obtenez les mêmes résultats pour la latence, cela signifierait que l'adresse IP est située directement dans le centre de ce triangle. C'est la façon dont la triangulation fonctionne, cependant, dans ce cas, elle est utilisée avec les pings ICMP.

Ressources que vous pouvez lire:
Qu'est-ce que le ping? @ Wikipedia
SIGCOMM article sur la triangulation RTT

Fanatique
la source
5
Wow, je ne penserais jamais qu'il existe une triangulation basée sur RTT. Intéressant. Donc, si un serveur souhaite éviter d'être géolocalisé, il peut introduire un décalage aléatoire dans les réponses ICMP.
Apprenant
Je voudrais ajouter qu'il pourrait être utile de regarder tracert / traceroute, comme écrit sur iplocation.net: "Vous pouvez utiliser la commande 'traceroute' pour trouver des indices sur l'emplacement de l'adresse IP. Les noms des routeurs par lesquels les paquets qui transitent de votre hôte vers l'hôte de destination peuvent indiquer le chemin géographique de l'emplacement final. "
Apprenant
1
@Learner c'est un bel ajout, cependant, qui est déjà dans ma réponse sous la forme de "suivi des requêtes DNS inversées". Bien que traceroute ne fasse pas vraiment cela, il vous montre tous les domaines / adresses à travers lesquels une requête se déplace. J'ajouterai une note pour que ce soit plus clair quand même :)
Fanatique
5

Je suis le fondateur d' IPinfo , donc je peux certainement offrir quelques détails à ce sujet! Il n'y a pas une seule méthode que nous utilisons, ni une seule source de données, pour produire notre propre base de données de géolocalisation (ou l'un de nos autres ensembles de données, comme IP vers l'entreprise ou IP vers l'opérateur). C'est un mélange de différents ensembles de données, techniques de traitement des données et leçons apprises en faisant cela depuis plusieurs années maintenant!

Certaines sources de données et techniques peu souvent mentionnées comprennent:

  • Flux directs des FAI. Notre service gère environ 500 millions de demandes d'API par jour, et il est utilisé sur de nombreux sites Web populaires de haut niveau. Par conséquent, les FAI sont incités à nous fournir des données de géolocalisation précises et à jour afin que leurs clients bénéficient d'une excellente expérience sur le Web. Nous travaillons directement avec de plus en plus de FAI tout le temps.

  • Données de localisation GPS. Il est possible de collecter des informations de localisation précises avec le GPS sur les appareils mobiles. Vous pouvez associer cela à l'adresse IP et à une inférence de topologie de réseau pour déterminer l'emplacement des plages IP en fonction de quelques mesures.

  • Corrections soumises par l'utilisateur. Lorsque nous obtenons un mauvais emplacement (ou qu'il n'a pas été mis à jour après un changement), nous obtenons souvent rapidement des commentaires des utilisateurs, et pouvons corriger manuellement l'emplacement, ou modifier notre algorithme pour nous assurer qu'il est correctement localisé lors de la prochaine exécution de notre pipeline de traitement de données.

Pour notre ensemble de données IP vers entreprise, nous supprimons chaque mois chaque nom de domaine et croisons les données que nous y extrayons avec les informations de propriété IP, les enregistrements rwhois et plus encore. Nous utilisons ensuite également les données de grattage de domaine pour montrer quels domaines sont hébergés sur quelles adresses IP, ainsi que dans notre classificateur de type IP, ainsi que de nombreuses autres sources de données, pour déterminer la probabilité qu'une adresse IP soit principalement utilisée comme FAI résidentiel, entreprise ou fournisseur d'hébergement. Nous analysons également la structure des liens de ces pages, et de montrer certaines de ces données sur host.io .

Ben Dowling
la source
Merci! Je ne m'attendais pas à ce que le fondateur de ce site réponde à ma question :) C'était très intéressant.
Apprenant