Comment HTTP 418 est-il traité par Google et les autres, car il ne s'agit pas d'une "vraie" erreur?

8

Je me demandais si vous savez comment Google et les autres moteurs de recherche traitent un site Web avec un code d'état HTTP 418 I'm a teapot.

Selon cet article Wikipedia , il peut être utilisé comme code d'erreur client (4xx). Je voudrais utiliser ce code d'erreur pour un site Web d'oeufs de Pâques, qui devrait néanmoins être trouvé par les moteurs de recherche.

Selon ce blog de 4 ans , le statut 418 sera ignoré par Google. Avez-vous des informations plus récentes sur ce sujet? Comment les autres moteurs de recherche réagissent-ils sur le statut 418 (principalement parce que c'est un code 4xx).

ssc-hrep3
la source

Réponses:

9

Si vous utilisez l'outil "Récupérer en tant que Google" dans la Google Search Console sur une page qui renvoie le statut "418 I'm a Teapot", il signale simplement une "erreur" et l'indexation ne peut pas être demandée pour cette page.

Dans la capture d'écran ci-dessous, les "erreurs" encerclées sont le résultat de la demande d'une page qui renvoie un état 418. Aucune autre information n'est disponible à ce stade.

Capture d'écran de l'outil Fetch as Google affichant des erreurs pour 418 pages

Selon mon journal d'accès, Googlebot et Search Console ont visité cette page, mais elle n'est pas encore apparue dans l'index.

Juste pour clarifier, il s'agit d'une nouvelle page, non indexée auparavant. Il est lié à partir d'une page indexée, qui a également été soumise à nouveau (avec les "pages liées") pour l'indexation - comme le montre la capture d'écran ci-dessus. J'ai également soumis un plan du site XML contenant cette page (bien que le nombre "indexé" ne soit pas encore signalé - VOIR LA MISE À JOUR CI-DESSOUS ). Pour être honnête, je n'ai pas beaucoup d'espoir - je serais surpris s'il était indexé. Non seulement parce que c'est un code 4xx, mais parce que ce n'est pas un code de réussite 2xx.

Normalement, vous pouvez effectuer un test "Récupérer comme Google", puis demander que la page soit indexée. C'est généralement très rapide ("instantané") pour une seule page - mais cette option n'est pas disponible sur la page ci-dessus.

Selon ce blog de 4 ans, le statut 418 sera ignoré par Google.

Par «ignoré», ils signifient qu'il est traité comme un état 200 OK. (Ce qui n'est pas vraiment la même chose que d'être "ignoré" dans mon livre, à moins qu'il ne soit littéralement ignoré et que Google n'ait "rien"?) Le "problème" avec ce billet de blog, c'est qu'ils testent une page déjà indexée. Renvoyer un état 4xx ne ferait pas nécessairement de toute façon glisser la page de l'index, du moins pas pendant un temps considérable (en fonction du taux d'exploration), bien qu'ils auraient attendu "quelques semaines". Ils ne mentionnent pas non plus les erreurs d'exploration signalées dans les outils pour les webmasters de Google (depuis, elles sont devenues Google Search Console).

ce n'est pas une "vraie" erreur

Ou est-ce? Il peut avoir été implémenté comme une "blague" au début, mais il indique sans doute un "état d'erreur". Je pense qu'il serait plus contradictoire qu'un code 4xx ne soit pas traité comme un "état d'erreur". Et c'est toujours "actuel". La RFC 2324 originale de 1998 qui définissait ce code d'état a même été mise à jour en 2014 avec la RFC 7168 .

La plupart des outils verront l'état 418 comme une erreur. Ou voyez seulement 200 comme succès. "Apache log viewer" et "Screaming Frog SEO Spider" voient certainement le code 418 comme une erreur.

Certains serveurs Web implémenteraient le code d'état 418:

Stack Exchange utilise même ce code d'état HTTP lors de la détection des violations CSRF:

UPDATE 2017-03-31 (2+ semaines plus tard): La page qui renvoie un code d'état HTTP 418 n'est pas indexée par Google. Le rapport de plan de site XML dans GSC montre désormais que seule une des deux URL soumises dans le plan de site est indexée (une URL renvoie 200 et est indexée, l'autre renvoie 418 et n'est pas indexée).

Soit dit en passant, il a fallu près de 2 semaines à GSC pour rendre compte de l'état d'indexation des URL dans le plan du site, mais cela n'a aucun rapport avec le moment où les pages ont été réellement indexées. Par exemple, une page était déjà indexée au moment où le plan du site a été soumis, cependant, en regardant le rapport du plan du site seul, il semble que la page n'a été indexée que 13 jours après la soumission du plan du site.

L'URL qui renvoie un 418 est désormais signalée comme une "erreur d'exploration" sous Explorer> Erreurs d'exploration et le 418 est indiqué comme code de réponse. Selon le rapport, cela a été "détecté" le 2017-03-16 (le lendemain après avoir soumis la demande d'index ci-dessus), cependant, c'était quelque temps avant que cela ne soit signalé dans GSC.

MrWhite
la source
1
Qui pourrait éventuellement améliorer cela? Personne. À votre santé!!
closetnoc
3
En plus du statut 200, Google sait comment gérer les codes de redirection (301, 302, 303, 307, 308). À part ces codes spécifiques, j'imagine que Google traite à peu près tout le reste comme une "erreur".
Stephen Ostermiller
1
Mise à jour: la page qui renvoie un 418 n'est pas indexée et Google le signale désormais explicitement comme une erreur d'exploration. J'ai mis à jour ma réponse.
MrWhite