Ainsi, sur tous nos sites qui ne sont pas confrontés à la recherche, nous avons appliqué un fichier robots.txt (par Comment exclure un site Web des résultats de recherche Google en temps réel?, Ou toute autre question similaire).
Cependant, si les termes de recherche sont suffisamment spécifiques, le domaine lui-même peut être trouvé via les résultats. Un exemple de ceci peut être trouvé ici . Comme vous pouvez le voir sur le lien, le domaine lui-même peut être trouvé (le contenu n'est pas mis en cache, mais le domaine est répertorié). De plus, effectuer une recherche avec site:hyundaidigitalmarketing.com
3 résultats devrait. La vérification des backlinks en fournit également quelques-uns, mais je ne peux évidemment pas les empêcher (la liaison est autorisée dans le contexte) ou contrôler la façon dont ceux-ci sont gérés (ne peut pas dire à l'hôte d'ajouter nofollow, noindex).
Maintenant, je sais que c'est un cas grave, mais les clients de mes entreprises font exactement cela. En fait, nos domaines sont assez bons, donc même des recherches apparemment arbitraires donnent des résultats pertinents. Maintenant, je dois rédiger un rapport sur comment / pourquoi cela se produit.
Je me tourne donc vers le merveilleux réseau Stack Exchange pour m'aider à comprendre ce qui me manque ou à comprendre ce qui se passe. Les liens vers les articles de l'industrie sont extrêmement utiles, mais tout ce que vous pouvez donner est évidemment formidable. J'ai l'intention d'offrir des primes du mieux que je peux pour en faire une réponse vers laquelle se tourner à l'avenir.
Edit: J'ai ouvert une prime sur cette question dans l'espoir d'obtenir plus de réponses à ce sujet. J'ai également fourni les résultats de mes propres recherches ci-dessous.
la source
Je pense que Matt Cutts en a parlé. Si ma mémoire est correcte, cela a à voir avec la liaison. En savoir plus: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=en
Vous pouvez les supprimer avec l'outil de suppression de Google.
la source
noindex, follow
que tout PageRank soit distribué à partir des liens de retour qui peuvent se produire.site:hyundaidigitalmarketing.com
ou pour les termeshyundai digital marketing
, le domaine lui-même continuera à apparaître comme le premier et le meilleur résultat. Je dois empêcher ça.links:hyundaidigitalmarketing.com
liens retour montre. Je ne peux évidemment pas empêcher ou contrôler les backlinks de formatage ET ils pourraient être valides. Si un lien vers le site provoque cela, je dois comprendre comment / pourquoi afin de pouvoir l'expliquer à mes supérieurs. J'espère que cela explique un peu mieux ma question.Sur la base de mes recherches sur le sujet, j'ai constaté qu'il n'y a pas de moyen garanti à 100% d'empêcher l'indexation et la mise en cache des données, mais vous pouvez vous en approcher (en supposant que vous vouliez faire face à l'augmentation du trafic de robots). Voici comment j'ai interprété les informations.
On pourrait penser que le fichier robots.txt est utilisé pour définir des informations sur le robot à l'échelle du site et que des balises META sont utilisées pour des détails spécifiques à la page. Je pense que l'esprit derrière le 2 est exactement cela, mais ce n'est pas le cas dans la pratique.
Ne créez pas de fichier robots.txt
Cela fonctionne avec tous les fournisseurs de recherche majeurs pour empêcher le contenu d'apparaître sur les SERP, mais ne pas empêcher l' indexation. Cela empêche également les robots d'explorer vos pages, de sorte que toutes les balises META du robot (voir ci-dessous) sont également ignorées. Pour cette raison, vous ne pouvez pas utiliser les 2 ensemble et c'est pourquoi, si vous souhaitez empêcher l'indexation, vous ne devez pas utiliser un fichier robots.txt.
Note latérale: Google prend en charge l'utilisation de
Noindex: /
dans robots.txt, mais il n'est pas documenté (qui sait quand il se cassera) et ne sait pas si cela fonctionne pour quelqu'un d'autre.Utilisez des en-têtes HTTP ou des balises HTML META pour tout empêcher
Contrairement au fichier robots.txt, la balise Meta robots (et l'en-tête HTTP) est largement prise en charge et, étonnamment, riche en fonctionnalités. Il est conçu pour être défini sur chaque page, mais l'adoption récente de l'en-
X-Robots-Tag
tête facilite la définition à l'échelle du site. Le seul inconvénient de cette méthode est que les robots exploreront votre site. Cela peut être limité en utilisantnofollow
, mais tous les bots ne respectent pas vraimentnofollow
.J'ai trouvé une tonne d'informations dans ce blog obsolète . Sa version d'origine date de 2007, mais, car de nombreuses informations à ce sujet sont des fonctionnalités plus récentes depuis, elle semble être mise à jour régulièrement.
En résumé, vous devez envoyer un en-tête HTTP de
X-Robots-Tag: noindex,nofollow,noodp,noydir
. Voici la répartition des raisons:nofollow
devrait limiter le nombre de pages explorées sur votre site, réduisant ainsi le trafic des robots. *noindex
indique aux moteurs de ne pas indexer la page.noindex
pourrait suffire. Cependant, j'ai constaté que même si vous dites quenoindex
votre site peut être indexé en raison d'autres sites qui y pointent. La meilleure façon d'empêcher les liens de sites courants de Y! Répertoire (noydir
) et Open Directory (noodp
).Cela fonctionnera dans 99% des cas. Gardez cependant à l'esprit qu'il est toujours possible d'être indexé dans certains cas par certains fournisseurs. Google prétend respecter pleinement
noindex
, mais j'ai mes soupçons.Enfin, si vous êtes indexé, ou avez déjà été indexé, le seul moyen de désindexer vos informations est de suivre les différents moyens de chaque fournisseur pour demander la suppression du site / de l'url. Évidemment, cela signifie que vous voudrez probablement surveiller les sites / pages en utilisant quelque chose comme Google Alertes (merci @Joe).
la source
Je pense que votre problème de base est les liens de retour vers le site, car ils donnent aux moteurs de recherche un point d'entrée sur le site et les en rendent conscients. Ainsi, bien qu'ils n'affichent pas de description du site, ils peuvent afficher l'URL s'ils pensent que c'est la meilleure correspondance pour le résultat.
Lisez cet article lié à celui publié par @joe: Matt Cutts garde Google hors
Le bit clé est:
Les recherches que vous avez effectuées couvrent également bien les choses calmes et les réponses de @john et @joe sont toutes deux pertinentes. J'ai inclus un lien ci-dessous qui donne quelques conseils supplémentaires sur le blocage des moteurs de recherche. La seule façon dont je peux penser pour bloquer complètement le site serait d'ajouter une forme de protection par mot de passe devant le site qui doit être complétée avant que le contenu ne soit affiché.
Conseils SEOMoz pour ne pas apparaître dans la recherche
la source