Je cherche un moyen de prendre chaque lien que j'ai indexé par Google et de les exporter vers un fichier CSV. Récemment, j'ai eu beaucoup plus de pages indexées par Google que je ne l'ai fait et je veux savoir d'où viennent toutes ces pages sans avoir à voir chaque page de résultats de recherche.
8
Réponses:
Malheureusement, il n'existe aucun moyen d'obtenir une liste complète de chaque page indexée dans Google. Même la solution de milo5b ne vous permettra d'obtenir que 1 000 URL au maximum.
Il semble que vous ayez des problèmes de contenu en double. Dans les outils pour les webmasters, vérifiez Santé> État de l'index et il vous montrera un total cumulé de pages indexées au fil du temps. Si le graphique fait un grand saut à un moment donné, vous pourrez peut-être déterminer si un changement spécifique sur votre site a déclenché le saut.
Vous pouvez également essayer d'utiliser les outils pour les webmasters de Bing . Ils ont un explorateur d'index qui pourrait vous aider à trouver les URL. Les araignées des moteurs de recherche sont assez similaires, donc si Google a trouvé ces liens, Bing l'a probablement fait aussi.
Je pensais que Bing avait un moyen d'exporter la plupart de ses données mais je ne peux pas le trouver en un coup d'œil. Il existe cependant une API, vous pouvez donc probablement l'utiliser pour tout extraire.
la source
J'ai fini par explorer le sous-dossier problématique en recherchant le site: domain.com/foo/bar/ mais dans ma recherche, je suis tombé sur une méthode pour obtenir les résultats de la recherche dans un fichier Excel.
Ouvrez une feuille de calcul Google Docs et utilisez cette formule:
Il n'obtiendra que les 100 premiers résultats mais vous pouvez l'utiliser à nouveau pour obtenir les 100 suivants. Modifiez simplement la variable de début:
Cela ne fournira que jusqu'à 1000 résultats, comme mentionné précédemment par DisgruntledGoat, mais la formule peut être modifiée pour fournir des liens à partir de sous-répertoires spécifiques:
la source
Vous pouvez écrire un script qui analyse le SERP de Google (par exemple PHP + Curl) et stocker chaque lien dans un fichier CSV. Faites attention à ce que votre script se comporte comme un humain, car Google pourrait interdire votre IP des résultats de recherche pendant quelques heures si vous en abusez.
la source