Comment obtenir une liste de tous les liens indexés?

8

Je cherche un moyen de prendre chaque lien que j'ai indexé par Google et de les exporter vers un fichier CSV. Récemment, j'ai eu beaucoup plus de pages indexées par Google que je ne l'ai fait et je veux savoir d'où viennent toutes ces pages sans avoir à voir chaque page de résultats de recherche.

Lee
la source
D'où avez-vous obtenu le nombre de pages indexées?
MrWhite
Google Webmaster et site de recherche: domain.com
Lee
2
La seule chose que je dirais, c'est que les données rapportées dans les Outils pour les webmasters (Santé> État de l'index> Total indexé) seront plus précises que celles rapportées par une recherche sur le site: domain.com. Un site: la recherche renvoie toujours un chiffre beaucoup plus élevé dans mon expérience, mais si vous parcourez les SERPs, le nombre réel de résultats est inférieur au chiffre "A propos des résultats NNNN".
MrWhite
Eh bien, cette page était la raison pour laquelle je me suis intéressé à cela en premier lieu. En 3 mois, le nombre de pages indexées est passé de 27 000 à 567 000 et je veux savoir pourquoi.
Lee

Réponses:

6

Malheureusement, il n'existe aucun moyen d'obtenir une liste complète de chaque page indexée dans Google. Même la solution de milo5b ne vous permettra d'obtenir que 1 000 URL au maximum.

Il semble que vous ayez des problèmes de contenu en double. Dans les outils pour les webmasters, vérifiez Santé> État de l'index et il vous montrera un total cumulé de pages indexées au fil du temps. Si le graphique fait un grand saut à un moment donné, vous pourrez peut-être déterminer si un changement spécifique sur votre site a déclenché le saut.

Vous pouvez également essayer d'utiliser les outils pour les webmasters de Bing . Ils ont un explorateur d'index qui pourrait vous aider à trouver les URL. Les araignées des moteurs de recherche sont assez similaires, donc si Google a trouvé ces liens, Bing l'a probablement fait aussi.

Je pensais que Bing avait un moyen d'exporter la plupart de ses données mais je ne peux pas le trouver en un coup d'œil. Il existe cependant une API, vous pouvez donc probablement l'utiliser pour tout extraire.

Chèvre mécontente
la source
Merci pour la suggestion Bing, mais ils n'ont indexé que 9 000 pages et je suis presque sûr que ce ne sont pas les liens dont j'avais besoin.
Lee
8

J'ai fini par explorer le sous-dossier problématique en recherchant le site: domain.com/foo/bar/ mais dans ma recherche, je suis tombé sur une méthode pour obtenir les résultats de la recherche dans un fichier Excel.

Ouvrez une feuille de calcul Google Docs et utilisez cette formule:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

Il n'obtiendra que les 100 premiers résultats mais vous pouvez l'utiliser à nouveau pour obtenir les 100 suivants. Modifiez simplement la variable de début:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

Cela ne fournira que jusqu'à 1000 résultats, comme mentionné précédemment par DisgruntledGoat, mais la formule peut être modifiée pour fournir des liens à partir de sous-répertoires spécifiques:

= importXml ("www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1"; "// cite")

Lee
la source
Excellent conseil avec Google Docs. Je me demandais simplement quel était le véritable problème concernant les pages indexées supplémentaires - s'agissait-il d'un contenu en double?
MrWhite
1
Je l'ai retracée à vBulletin, un logiciel de forum que nous utilisons. Ils ont ajouté une nouvelle fonctionnalité appelée flux d'activité et ajouté à la section des utilisateurs. Ainsi, chaque utilisateur aurait non seulement des pages de sa propre activité sur son profil, mais toute l'activité de chaque ami qu'il a. En plus de Google, les pages d'activité vierges étaient indexées car vBulletin ne renvoyait pas un 404. J'ai fini par ne pas indexer toute la section.
Lee
importXML ne fonctionne correctement qu'avec les anciennes feuilles qui peuvent être activées avec ce lien: g.co/oldsheets
i.amniels
2

Vous pouvez écrire un script qui analyse le SERP de Google (par exemple PHP + Curl) et stocker chaque lien dans un fichier CSV. Faites attention à ce que votre script se comporte comme un humain, car Google pourrait interdire votre IP des résultats de recherche pendant quelques heures si vous en abusez.

milo5b
la source