En tant que webmaster en charge d'un petit site disposant d'un forum, je reçois régulièrement des plaintes des utilisateurs selon lesquelles le moteur de recherche interne et les recherches externes (comme lors de l'utilisation de Google) sont totalement pollués par les signatures de mes utilisateurs (ils utilisent de longues signatures et cela fait partie de l'expérience du forum parce que les signatures ont beaucoup de sens dans mon forum).
Donc, fondamentalement, je vois deux options à partir de maintenant:
Rendu de la signature sous forme d'image et lorsqu'un utilisateur clique sur "l'image de signature", elle est redirigée vers une page qui contient la signature réelle (avec les liens dans la signature, etc.) et cette page est définie comme non explorable par la recherche araignées moteur). Cela consommerait de la bande passante et nécessiterait un peu de travail (parce que j'aurais besoin d'un moteur de rendu HTML produisant l'image, etc.) mais évidemment cela résoudrait le problème (il y a de minuscules problèmes dans la mesure où la signature ne respecterait pas le jeu de polices / couleurs de les utilisateurs mais mes utilisateurs sont très créatifs avec leurs signatures de toute façon, utilisant des polices / couleurs / tailles personnalisées, etc. donc ce n'est pas vraiment un problème).
Marquage de chaque partie de la page Web contenant une signature comme étant non explorable.
Cependant, je ne suis pas sûr de la suite: est-ce quelque chose qui peut être fait? Pouvez-vous simplement marquer des parties spécifiques d'une page Web comme non explorables?
la source
Une autre solution consiste à encapsuler le sig dans un span ou div avec un style défini sur
display:none
puis à utiliser Javascript pour le supprimer afin que le texte s'affiche pour les navigateurs avec Javascript activé. Les moteurs de recherche savent que cela ne s'affichera pas et ne devraient donc pas l'indexer.Ce bit de HTML, CSS et javascript devrait le faire:
HTML:
CSS:
javascript:
Vous devrez inclure une bibliothèque jquery .
la source
J'ai eu un problème similaire, je l'ai résolu avec css mais cela peut aussi être fait avec javascript et jquery.
1 - J'ai créé une classe que j'appellerai "
disallowed-for-crawlers
" et je placerai cette classe dans tout ce que je ne voulais pas que le robot Google voie, ou je la placerais dans une plage avec cette classe.2 - Dans le CSS principal de la page, j'aurai quelque chose comme
3- Créez un fichier CSS appelé disallow.css et ajoutez-le au robots.txt pour qu'il ne soit pas autorisé à l'explorer, afin que les robots n'accèdent pas à ce fichier, mais l'ajoutez comme référence à votre page après le css principal.
4-
disallow.css
J'ai placé le code:Vous pouvez jouer avec javascript ou css. Je viens de profiter du disallow et des classes css. :) j'espère que ça aide quelqu'un.
la source
Une façon de procéder consiste à utiliser une image de texte plutôt que du texte brut.
Il est possible que Google finisse par être assez intelligent pour lire le texte de l'image, de sorte qu'il ne soit pas complètement à l'épreuve du temps, mais cela devrait bien fonctionner pendant au moins un certain temps à partir de maintenant.
Il y a un tas d'inconvénients à cette approche. Si une personne a une déficience visuelle, c'est mauvais. Si vous voulez que votre contenu s'adapte aux appareils mobiles par rapport aux ordinateurs de bureau, c'est mauvais. (etc)
Mais c'est une méthode qui fonctionne actuellement (quelque peu).
la source
C'est facile.
Avant de diffuser votre page, vous devez savoir s'il s'agit d'un bot, d'un ordinateur ou d'un téléphone. Vous devez ensuite définir le contenu en conséquence. Il s'agit d'une pratique courante à l'heure actuelle et des fonctionnalités de base de certains CMS.
Il existe de nombreuses solutions sur SE pour effectuer une redirection basée sur USER AGENT qui peuvent être mises dans votre htaccess. Si cela convient à votre logiciel de forum, vous pouvez exécuter un code différent sur la même base de données pour fournir ce dont Google a besoin sans les paillettes et les réglages.
Alternativement, vous pouvez mettre une petite ligne dans votre code PHP qui fait un 'si USER AGENT == Googlebot alors n'affiche pas les signatures'.
Si vous ne pouvez vraiment pas faire cela, vous pouvez demander à mod_proxy de servir au bot et l'utiliser pour supprimer tout ce que votre code php génère que le bot n'a pas besoin de voir.
Techniquement, Google n'approuve pas que leur moteur de recherche affiche une page différente de ce que voit le visiteur normal du site, mais à ce jour, ils n'ont pas retiré la BBC et d'autres qui fournissent un contenu spécifique au navigateur / IP / visiteur de leurs résultats de moteur de recherche . Ils ont également des moyens limités pour voir si leur bot a été «floué».
La solution alternative de masquer le contenu avec CSS pour qu'il soit réactivé par un script est également un peu une zone grise. Selon leurs propres directives relatives aux outils pour les webmasters du 20/6/11, ce n'est pas une bonne idée:
http://www.google.com/support/webmasters/bin/answer.py?answer=66353
Ce n'est peut-être pas une tablette coulée dans le béton, mais elle est à jour et par Google.
L'astuce de masquer le contenu ne fonctionnera pas avec la minorité de personnes qui ne disposent pas de javascript, cela peut ne pas être une grande préoccupation, cependant, attendre que le document se charge et ensuite montrer les signatures ne sera pas une expérience de visualisation satisfaisante comme vous le ferez pensez que la page a été chargée, puis elle sautera au fur et à mesure que les signatures cachées s'affichent pour ensuite pousser le contenu vers le bas de la page. Ce type de chargement de page peut être irritant si vous avez un net-top bas de gamme, mais peut ne pas être perceptible si vous avez une machine de développement rapide sur une connexion Internet rapide.
la source
Non, il n'y a aucun moyen d'empêcher les robots d'explorer des parties de pages. C'est une page entière ou rien.
Les extraits dans les résultats de recherche Google sont généralement tirés de la méta description sur la page. Vous pouvez donc faire en sorte que Google affiche une partie spécifique de la page en la mettant dans la balise meta description. Avec le contenu généré par l'utilisateur, il est difficile d'obtenir de bons extraits, mais prendre le premier message du fil fonctionnerait probablement.
La seule autre façon dont je peux penser est d'utiliser Javascript. Quelque chose comme Paulmorriss a suggéré mai fonctionner, mais je pense que les moteurs de recherche toujours le contenu s'il est en HTML. Vous pouvez le supprimer du HTML, le stocker dans la chaîne Javascript, puis le rajouter au chargement de la page. Cela devient cependant un peu complexe.
Enfin, une chose à garder à l'esprit: si Google affiche les signatures des utilisateurs dans leurs extraits, il a décidé que c'était la partie la plus pertinente pour la requête de l'utilisateur.
la source
Vous pouvez mettre la page dans un PHP si avec un "else" qui mène à un captcha qui donne la clé de la partie if.
Je m'en fiche vraiment car si les informations d'identification de l'utilisateur ne correspondent pas sur ma page, elles obtiennent une page vierge ou sont envoyées à la page de connexion.
$key
devrait être un hachage de la journée en cours ou quelque chose qui change donc il ne suffit pas d'ajouter la valeur à la session.Écrivez dans le commentaire si vous voulez que j'ajoute un exemple de captcha parce que je n'en ai pas sur moi maintenant.
la source
Apparemment, <! - googleoff: all -> et <! - googleon: all -> faites ce que vous voulez.
En savoir plus https://www.google.com/support/enterprise/static/gsa/docs/admin/70/gsa_doc_set/admin_crawl/preparing.html#1076243
https://perishablepress.com/tell-google-to-not-index-certain-parts-of-your-page/
la source