Pourquoi Google a-t-il cessé d'indexer les pages de notre sitemap.xml?

18

Nous voyons certaines pages qui existent dans notre sitemap.xmlmais qui sont inexplicablement absentes de l'index de recherche publique de Google.

Vous ne pouvez pas télécharger /superuser//sitemap.xml - nous protégeons ce fichier car il y a eu des problèmes avec lui dans le passé - mais googlebot le peut. Nous avons vérifié via les outils Google pour les webmasters que le sitemap.xmlfichier a été retiré aujourd'hui et qu'il est classé OK sans erreur (coche verte).

texte alternatif

Le sitemap.xmlcontient une liste des 50 000 dernières questions posées sur notre site. Par exemple, cette question ...

/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links

... existe dans le sitemap.xmlas ...

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

La recherche de "Comment voir la fin d'une longue chaîne de liens symboliques" ne donne qu'un seul résultat à questionhub.com qui gratte nos données (un tout autre problème).

Vous pouvez incrémenter le nombre de questions et effectuer une recherche exacte du titre de la question et vous verrez ce modèle persister.

Ces URL sont dans sitemap.xml mais elles n'apparaissent pas dans l'index de Google - et pourtant elles apparaissent sur des sites qui récupèrent nos données Creative Commons. Pourquoi serait-ce?

Michael Pryor
la source
5
Vous pouvez toujours demander dans les forums centraux de Google pour les webmasters. google.com/support/forum/p/Webmasters?hl=en
Alex Black
Quelque chose ne va vraiment pas. CETTE question est déjà indexée dans Google, mais la question liée sur le superutilisateur STILL n'apparaît pas dans l'index.
Michael Pryor
Jeff pourrait penser à demander à Matt Cutts. Je les ai vus se parler plusieurs fois sur Twitter. Il est généralement prêt à aider.
Virtuosi Media
3
FWIW Nous constatons actuellement des problèmes d'indexation de nouveau contenu sur certains sites. Il y a un fil dans nos forums d'aide sur google.com/support/forum/p/Webmasters/… à ce sujet. L'URL que vous avez mentionnée semble être affectée. J'imagine que cela sera résolu sous peu, mais n'a aucun délai fixe disponible. Merci pour votre patience.
John Mueller
1
Il semble que cela soit résolu maintenant :-). J'ai essayé quelques-unes des nouvelles questions du site et elles ont toutes été indexées. Woot!
John Mueller

Réponses:

10

Il semble que Google ait eu des problèmes d'exploration technique cette semaine, qui ressemblent remarquablement à ce que nous vivions:

http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701

Personne ne semble à l'abri d'un problème d'indexation de Google qui a dérouté de nombreux propriétaires de sites. Les blogs et les sites Web, grands et petits, ne sont pas indexés aussi rapidement qu'ils le sont normalement - s'ils sont indexés du tout.

...

John de Google a répondu au fil des forums des webmasters en disant:

Juste pour être clair, les problèmes de ce fil, que j'ai passés en revue en détail, ne sont pas dus à des changements dans nos politiques ou des changements dans nos algorithmes; elles sont dues à un problème technique de notre côté qui sera visiblement résolu dans les plus brefs délais (cela peut toutefois prendre jusqu'à quelques jours pour être visible sur tous les sites)

Jeff Atwood
la source
7

Google ne fait aucune offre ni garantie que les pages d'un plan de site seront indexées.

Mon expérience a été qu'une page doit être liée à (à partir d'une page d'une certaine autorité) pour apparaître. Cette page / question est-elle liée directement / indirectement à une page avec une certaine autorité?

Par exemple, si la page d'accueil de superuser.com (qui contient probablement de nombreux liens internes) est directement liée à cette question, ou indirectement liée à plusieurs autres pages, vous pouvez vous attendre à ce qu'elle soit indexée.

De google:

Google ne garantit pas que nous explorerons ou indexerons toutes vos URL. Cependant, nous utilisons les données de votre plan Sitemap pour en savoir plus sur la structure de votre site, ce qui nous permettra d'améliorer notre calendrier d'exploration et de mieux analyser votre site à l'avenir. Dans la plupart des cas, les webmasters bénéficieront de la soumission du plan Sitemap, et en aucun cas vous ne serez pénalisé pour cela.

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156184

Alex Black
la source
4
Le superutilisateur doit avoir suffisamment de liens et de relations publiques pour que ces pages soient indexées avec ou sans plan du site. Et les pages mineures sont répertoriées tout le temps. En fait, ils constituent la majorité de l'indice. Je soupçonne que quelque chose d'autre est le coupable.
John Conde
D'accord, le site a beaucoup de relations publiques et de liens. Mais y a-t-il une chance que la page en question ne comporte pas de liens internes? Si superuser.com (par hasard) ne renvoie pas à la page, qu'est-ce que cela indique à Google? il dit que la page n'est pas importante.
Alex Black
2
La page était définitivement liée à partir de la première page, et continue d'être liée à partir d'un certain nombre d'autres pages. Les sites SE sont très lourds en réticulation.
Kevin Montrose
1
Hier, à un moment donné, l'un de mes résultats pour une question de test était la page d'accueil de superuser.com - avec l'URL cible visible, même dans le cache Google! Et pourtant, la question elle-même n'était pas indexée. Très étrange.
Jeff Atwood
2
absolument - cliquez sur l'onglet CHAUD sur la page d'accueil, ou sur l'onglet HEBDOMADAIRE ou MENSUEL. Juste là ..
Jeff Atwood
3

Je pense que Google pourrait avoir du mal à indexer vos pages Web, 50 000 est beaucoup. Donc, ma suggestion serait de décomposer votre plan du site en morceaux comme ça

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

Si vous tombez en panne, vous aurez plus de chance d'avoir ces 50 000 URL indexées.

Sitemaps.org explication du problème

Vous pouvez fournir plusieurs fichiers Sitemap, mais chaque fichier Sitemap que vous fournissez ne doit pas avoir plus de 50 000 URL et ne doit pas dépasser 10 Mo (10 485 760 octets). Si vous le souhaitez, vous pouvez compresser vos fichiers Sitemap à l'aide de gzip pour réduire vos besoins en bande passante; cependant, le fichier sitemap une fois non compressé ne doit pas dépasser 10 Mo. Si vous souhaitez répertorier plus de 50 000 URL, vous devez créer plusieurs fichiers Sitemap.

Si vous fournissez plusieurs plans Sitemap, vous devez ensuite répertorier chaque fichier Sitemap dans un fichier d'index Sitemap. Les fichiers d'index de sitemaps ne doivent pas répertorier plus de 50 000 sitemaps et ne doivent pas dépasser 10 Mo (10 485 760 octets) et peuvent être compressés. Vous pouvez avoir plusieurs fichiers d'index Sitemap. Le format XML d'un fichier d'index Sitemap est très similaire au format XML d'un fichier Sitemap.

http://sitemaps.org/protocol.php

Sevki
la source
2
Les plans de site de 50 000 pages sont très courants. En fait, quelqu'un a récemment publié une capture d'écran de son compte de webmaster montrant que Google a indexé la quasi-totalité des 50 000 de ces pages. Et je soupçonne que le superutilisateur est plus populaire (par exemple, a une meilleure popularité de liens) que cet autre site.
John Conde
1
"Vous avez plus de 50 000 URL à répertorier. C'est le maximum qu'un sitemap peut inclure." sitemaps.blogspot.com/2005/08/using-sitemap-index-files.html
Jeff Atwood
1
Si vous avez un plan du site pour chaque jour, ceux-ci ne changent jamais après la fin de la journée, de sorte que le plan du site ne doive plus être consulté à nouveau, ils peuvent explorer les liens qu'ils ont déjà indexés pour les modifications, de sorte que Google n'a pas besoin d'aller au-delà 50 000 urls par jour pour voir quelles sont les anciennes et les nouvelles.
Sevki
@sevki la 50 001ème question la plus ancienne par DATE D'ACTIVITÉ (nouvelles réponses, modifications, etc. bosse cette date) ne sera pas dans le plan du site. Gardez à l'esprit que le superutilisateur n'a que 55 000 questions au total.
Jeff Atwood
@Jeff mais SO.com a 1 014 782 et 964 782 n'est pas dans un plan du site, donc google ou bing ne sait pas quand ils ont été modifiés pour la dernière fois. de toute façon je ne veux pas être ennuyeux juste en essayant de vous aider, je vous ai envoyé un email avec plus de détails.
Sevki
2

Il semble que Google indique que 46 514 liens soumis figurent dans l'index. Serait-ce un problème avec (je déteste le dire) mais le classement des pages? Les sites de raclage peuvent faire un meilleur travail de réticulation, etc. et être mieux classés. Juste une pensée.

Ce site de recherche : superuser.com Comment voir la fin d'une longue chaîne de liens symboliques semble également récupérer correctement votre sitemap.xml, bien qu'il ne renvoie pas les résultats attendus.

Dustin Senos
la source
Ce site de scraping donne un attribut à superuser.com en tant qu'auteur d'origine (bien qu'ils puissent être plus explicites à ce sujet), donc Google devrait savoir qu'ils sont l'auteur original du contenu et leur donner la priorité sur les sites de scraping.
John Conde
@john correct, nous avons besoin d'une attribution avec suivi, comme indiqué
Jeff Atwood
ce plan du site mis en cache est "tel qu'il est apparu le 17 octobre 2010 05:40:35 GMT", il y a 4 jours au moment où j'écris ceci, donc il n'y en a pas beaucoup. J'ai repéré quelques URL dans ce sitemap.xml mis en cache et elles existent également en tant que pages de questions dans Google.
Jeff Atwood
@john pouvez-vous donner un exemple de la façon dont ils attribuent l'attribution. Thx
Greg B
@Greg, il suffit de chercher le logo du superutilisateur
John Conde
2

Avec ce type de chose, il y a beaucoup de réponses potentielles.

Je commencerais par vous demander combien de pages vous avez réellement. (vous avez soumis 50 000 URL sur un site rapide: superuser.com affiche 125 000 indexés. Pensez-vous que vous n'avez que 50 000 URL et que vous les soumettez toutes, mais Google trouve 2-3 copies de chaque page? % sont indexés) avoir une vue d'ensemble aide à déterminer où chercher les problèmes.

Si rien ne semble mal avec la première étape, je passerais au contenu, il semblerait que QH ait beaucoup plus de contenu sur sa page et relie de nombreuses autres "ressources" malgré le fait que tout leur contenu soit gratté, il est possible que Google considère leur page plus utile car ils fournissent plus de ressources / informations à l'utilisateur. S'ils sont considérés comme l'autorité et que tout votre contenu est le même que le leur, il est possible que Google n'indexe pas le vôtre même si vous êtes l'original.

Si vous êtes convaincu que ce n'est pas le problème, créez des liens de haute qualité, bloguez cette question sur certains blogs d'employés populaires ou demandez à des amis de bloguer à ce sujet, peut-être que si vous avez des amis SEO qui gèrent des blogs populaires, ils écriraient un étude de cas à ce sujet, etc.

Si vous obtenez beaucoup de liens solides et que l'indexation n'est toujours pas recherchée, cela pourrait être pénalisé (dans la plupart des cas, ce ne sera pas le problème, mais cela ne fait jamais de mal à vérifier).

Si rien de tout cela ne fonctionne, alors 9 fois sur 10, c'est un simple problème technique qui a été ignoré (exclusion des robots ou quelque chose de similaire).

Si vous n'avez toujours pas de réponse après avoir traversé cette question, demandez à Google et espérons qu'ils vous obtiendront une réponse.

Joshak
la source
0

La question vient d'être posée hier - donnez une chance à Googlebot, vous n'êtes pas le seul site sur Internet qu'il doit explorer, vous savez :)

Si les questions sont normalement indexées dans un jour ou deux, et qu'une semaine se passe et que celle-ci n'est toujours pas indexée, alors je pourrais être inquiet. Mais certainement pas après 1 jour.

Eric Petroelje
la source
1
Ils apparaissent généralement en moins d'une heure. Je suis donc d'accord, je devrais lui donner du temps, mais par rapport à sa fréquence habituelle ... Je l'ai.
Michael Pryor
@michael assurez-vous de comparer les pommes aux pommes - Google semble indexer stackoverflow.com à un taux BEAUCOUP plus élevé que nos autres sites.
Jeff Atwood