Pourquoi les outils Google pour les webmasters explorent-ils des URL non valides et affichent-ils 500 erreurs?

11

Les outils Google pour les webmasters signalent des erreurs 12k + 500. Eeek!

Aucune URL n'est valide - elles contiennent toutes www.youtube.com. Premièrement, pourquoi Google explore-t-il ces URL s'ils n'existent pas? J'ai fourni un plan du site, et ils ne sont bien sûr pas dans le plan du site.

Je n'ai pas de fichier robots.txt bloquant quoi que ce soit. J'ai vérifié les redirections non valides - aucune, et vérifié les balises non fermées ou quelque chose qui jetterait www.youtube.com dans l'URL par accident - aucune.

Dans chaque «lien depuis», l'URL de référence est également une mauvaise URL, avec www.youtube.com. Les outils Google ne signalent aucun logiciel malveillant et je ne peux pas consulter les journaux du serveur car l'hôte ne me donnera pas accès.

Vraiment coincé !! Toutes les idées appréciées!

Amos Kane
la source
Pouvez-vous poster quelques exemples s'il vous plaît?
ionFish
Votre site Web est-il un Wordpress ou une autre plateforme de blog?
Ubique
3
Si vous voyez des erreurs HTTP 500 (erreurs de serveur) pour des URL non valides, vous avez probablement un problème dans votre configuration - les URL non valides devraient renvoyer 404 ou 410.
John Mueller

Réponses:

8

Il existe (au moins) deux raisons courantes pour lesquelles des URL étranges et altérées peuvent apparaître comme des erreurs d'exploration dans les outils pour les webmasters.

La première possibilité est que quelqu'un ait copié vos pages (ou d'autres pages qui renvoient vers les vôtres) et ait modifié les liens au cours du processus. Cela se produit plus souvent que vous ne le pensez; voir par exemple la sixième question dans ce billet de blog Google Webmaster .

L'autre possibilité est que Googlebot lui-même essaie de suivre ce qu'il pense être des liens JavaScript et de le gâcher . Vous pouvez généralement distinguer ces deux cas en visitant la page de référence (qui devrait exister et être accessible, si Google a réussi à l'explorer pour commencer) et en recherchant le nom de la page cible dans sa source.

Quoi qu'il en soit, il y a essentiellement deux choses que vous pouvez faire: soit ignorer les liens, soit proposer des règles de réécriture pour essayer de mapper les URL cassées en URL fonctionnelles. Si vous pouvez voir un modèle évident dans les URL et que vous connaissez les expressions rationnelles, je recommanderais cette dernière approche - cela nettoiera votre liste d'erreurs d'exploration et peut-être même vous donnera un petit et plutôt ringard, mais réel, boost de PageRank .

Une troisième option, si vous constatez que quelqu'un copie votre contenu sans autorisation, consiste à essayer de le retirer de la liste . Vous pouvez même envoyer une réclamation (et / ou une demande de retrait formelle) à leur hébergeur, si vous le jugez justifié. Bien sûr, étant donné qu'ils sont apparemment liés à votre site, vous ne trouverez pas nécessairement que cela en vaut la peine.

Ilmari Karonen
la source
0

Google indexe le site pas immédiatement toutes les pages à la fois.

Google indexe les pages au plus haut niveau. Puis, après quelques jours, Google essaie d'indexer plus profondément - le deuxième niveau de pages (les pages, sur lesquelles Google a trouvé des liens au premier niveau de pages), etc. De cette façon, Google essaie d'indexer chaque page du site. Ainsi, Google crée un arbre hiérarchique de liens et Google sait quelles pages sont liées à chaque page.

Ensuite, Google est venu à chaque page indexée après un certain temps et vérifie si le contenu de la page est modifié. L'intervalle d'indexation pour chaque page et chaque site est basé sur de nombreux facteurs.

Donc, si vous supprimez une page et mettez à jour tous les liens vers cette page sur toutes les autres pages - Google ne le sait pas immédiatement et essaie d'indexer la page supprimée car il est prévu d'indexer cette page dans son calendrier.

webvitaly
la source