Quelle balise meta «robots» obtient la préférence?

Ma femme travaille dans un lycée en Allemagne. J'ai récemment remarqué qu'il est extrêmement difficile de trouver la page d'accueil de cette école en utilisant Google. J'ai regardé le code source de la page et je crois avoir trouvé la raison: il y a deux <meta name="robots">balises; l'un est

<meta name="robots" content="all">

et le deuxième, plus bas dans la page, est

<meta name="robots" content="noindex, follow">

Je suppose que le second l'emporte sur le premier et empêche Google d'indexer le site. Ai-je raison? Je ne voudrais pas dire au webmaster que j'ai trouvé le problème et me faire un idiot (parce que je ne sais vraiment rien sur la façon de construire une page Web appropriée, et encore moins de faire du référencement).

Soit dit en passant, s'il vous arrive de trouver d'autres gaffes sur le site, je serais heureux si vous pouviez les signaler. Mon prochain candidat serait le manque total de metabalises pertinentes qui véhiculent des informations sur le contenu de la page.

seo web-crawlers meta-robots Tim Pietzcker
la source

Wikipédia allemand déclare que <meta name="robots" content="all"> sémantiquement est égal à <meta name="robots" content="index, follow">, donc les deux balises META sont en contradiction de quelque manière que ce soit. Je voudrais informer le webmaster. Je suppose également que Google choisira la politique la plus stricte et n'indexera donc pas la page pour éviter les problèmes de droits d'auteur.

Matthias Ronge

J'ai également vu qu'à la fin de la page, deux demandes sont envoyées à des serveurs tiers ( ajax.googleapis.comet ssl.google-analytics.com). Cela peut être une question juridique contre le privilège de l' autodétermination informationnelle en Allemagne. Je recommanderais d'éviter cela.

Matthias Ronge

Il y a également deux titleéléments. Et la même chose se répète sur d'autres pages, pas seulement sur la page d'accueil! En fait, il ne semble pas y avoir de pages indexées, à part une poignée de PDF!? Des modules en conflit dans le CMS peut-être?! Un petit problème secondaire ... Comme indiqué dans les réponses, la règle la plus restrictive sera appliquée par les moteurs de recherche - pas nécessairement la dernière règle. Cependant, une fonction telle que PHP get_meta_tags()ne renverra que la dernière règle - il y a donc un problème immédiat (potentiel) d'avoir plusieurs balises META pour les mêmes données.

MrWhite

@ w3d: Merci pour la perspicacité! C'est très utile.

Tim Pietzcker

Réponses:

Alors que Wikipedia allemand prétend que allc'est une valeur valide, je ne sais pas d'où viennent ces informations, et Wikipedia allemand ne cite aucune source. Il est faux AFAIK, et à mon humble avis un bon exemple pour pourquoi il ne faut pas compter sur Wikipédia pour ce type d'informations.

Si vous souhaitez utiliser la balise Meta du robot pour diriger Googlebot , la meilleure information sur les valeurs valides est Google Webmasters Central . Il énumère les six valeurs suivantes comme valides: noindex, nofollow, noarchive, nosnippet, noodp, none.

En d'autres termes, pour googlebot :

meta name="robots" content="all">

est une erreur de syntaxe et sera ignoré, tandis que:

<meta name="robots" content="noindex, follow">

est une syntaxe valide et sera respectée (ce qui explique pourquoi il est extrêmement difficile de trouver la page d'accueil de cette école en utilisant Google).

Pour répondre à votre deuxième question, que se passe-t-il si deux balises META de robot valides entrent en conflit, dit Google (même page que celle liée ci-dessus):

En cas de conflit de valeurs de contenu, nous utiliserons le plus restrictif.

Quant aux balises META, voici un aperçu des balises META reconnues par Google .

Svartepjotr
la source

Merci pour le lien vers Google Webmasters Central. Je vais donner ça au webmaster de l'école.

Tim Pietzcker

Les balises META des robots sont documentées en détail dans developers.google.com/webmasters/control-crawl-index/docs/… - le moyen le plus simple de s'en souvenir est que les "positifs" (tous, index, suivent) n'ont pas effet du tout.

John Mueller

Pour autant que je sache, le comportement de deux balises META conflictuelles n'est pas défini, mais la règle la plus restrictive l'emportera probablement.

Cela se produit dans le cas similaire du fichier robots.txt contre la balise meta robots. Si robots.txt empêche l'indexation d'une page et que les méta-robots ne le font pas, la page ne sera pas indexée. Et si robots.txt autorise une page mais que les méta-robots la bloquent, elle ne sera toujours pas indexée.

Ainsi, la logique dicterait que s'il y a deux balises META en conflit, si l'un bloque l'indexation, il remplacera l'autre (indépendamment de leur emplacement respectif sur la page).

Vous devriez demander au webmaster s'ils bloquent les moteurs de recherche pour une raison particulière. Sinon, supprimez les deux balises META (la valeur par défaut est d'autoriser les moteurs de recherche, donc aucune raison d'avoir la balise du tout).

Quant à l'autre partie de votre question, les revues de site sont en dehors du champ d'application de Pro Webmasters. Mais j'ajouterai que la balise meta description est probablement la seule que vous trouverez utile. La balise meta keywords n'est utilisée par aucun moteur de recherche.

Chèvre mécontente
la source