Pour éviter que votre fichier PDF (ou tout fichier non HTML) soit répertorié dans les résultats de la recherche, la seule façon est d'utiliser l'en- X-Robots-Tag
tête de réponse HTTP , par exemple:
X-Robots-Tag: noindex
Pour ce faire, ajoutez l'extrait de code suivant au fichier .htaccess racine du site ou au fichier httpd.conf:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
Notez que pour que ce qui précède fonctionne, vous devez pouvoir modifier les en-têtes HTTP du fichier en question. Ainsi, vous ne pourrez peut-être pas le faire, par exemple, sur les pages GitHub .
Notez également que robots.txt n'empêche pas votre page d'être répertoriée dans les résultats de recherche.
Cela empêche le robot d'explorer votre page, mais si un tiers établit un lien vers votre fichier PDF depuis son site Web, votre page sera toujours répertoriée.
Si vous empêchez le robot d'explorer votre page à l'aide de robots.txt , il n'aura pas la chance de voir le X-Robots-Tag: noindex
tag de réponse. Par conséquent, ne jamais interdire une page dans robots.txt si vous utilisez l'en- X-Robots-Tag
tête. Plus d'informations peuvent être trouvées sur Google Developers: Robots Meta Tag .
Files
directive regex enabled , vous devriez plutôt envisager de l'utiliser à laFilesMatch
place, comme suggéré ici stackoverflow.com/q/14792381/1262357Il existe plusieurs façons de le faire (les combiner est évidemment un moyen sûr d'y parvenir):
1) Utilisez robots.txt pour bloquer les fichiers des robots des moteurs de recherche:
2) Utiliser
rel="nofollow"
sur des liens vers ces PDF3) Utilisez l'
x-robots-tag: noindex
en-tête HTTP pour empêcher les robots d'indexation de les indexer. Placez ce code dans votre fichier .htaccess :la source
x-robots-tag
etrobots.txt
en même temps n'est pas une bonne idée et peut entraîner l'indexation du contenu de toute façon. Si vous utilisez les deuxrobots.txt
etx-robots-tag: noindex
, le robot d'exploration ne pourra jamais explorer ou voir lex-robots-tag
car il honore d'abord lerobots.txt
.robots.txt
n'empêche pas les ressources d'être indexées, seulement d'être analysées, donc la meilleure solution est d'utiliser l'en-x-robots-tag
tête, tout en permettant aux moteurs de recherche d'explorer et de trouver cet en-tête en laissant le vôtrerobots.txt
.Vous pouvez utiliser le fichier robots.txt . Vous pouvez en lire plus ici .
la source
Je ne sais pas si ce seuil pourrait apporter de la valeur à quiconque, mais nous avons récemment rencontré un problème selon lequel notre boîte GSA sur site ne souhaite pas indexer le fichier PDF.
L'assistance Google a résolu le problème et leur réponse est liée au fait que ce document PDF possède un jeu de propriétés personnalisé (Fichier -> Propriétés du document -> Personnalisé (onglet))
ce qui l'empêchait d'être correctement indexé par GSA.
Si vous avez accès au document et pouvez modifier ses propriétés, cela pourrait fonctionner ... au moment du bail pour GSA.
la source
Si vos instances de développement propulsé par nginx apparaissent dans les résultats de recherche Google, il existe un moyen rapide et facile d'empêcher les moteurs de recherche d'explorer votre site. Ajoutez la ligne suivante au bloc d'emplacement de votre fichier de configuration d'hôte virtuel pour le bloc que vous souhaitez empêcher l'analyse.
la source
Vous pouvez utiliser un fichier robots.txt. Les moteurs de recherche qui honorent ce fichier n'indexeront pas le PDF. Utilisez simplement la commande pour interdire l'indexation d'un fichier et indiquez le dossier ou le fichier PDF que vous ne souhaitez pas que les moteurs de recherche indexent.
la source