J'ai un site Web que je ne veux surtout pas être indexé par les moteurs de recherche, mais je veux le conserver pour l'éternité sur archive.org. Donc, je robots.txt
commence par ceci:
User-agent: *
Disallow: /
Aujourd'hui, selon archive.org, je dois ajouter ce qui suit dans mon robots.txt
pour autoriser leurs bots:
User-agent: ia_archiver
Disallow:
Mais, j'avais déjà fait ce qu'ils ont indiqué il y a quelques années, au moins, j'ai ajouté ce qui suit:
User-agent: archive.org_bot
Disallow:
Ensuite, il existe une autre source affirmant que vous devez ajouter les deux Disallow
s ci-dessus , plus une autre:
User-agent: ia_archiver-web.archive.org
Disallow:
Notez que vous devez le mettre Disallow: /
si vous ne voulez pas que le bot archive votre site.
Y a-t-il eu un changement avec le bot IA? Si oui, quand?
Quelle est la voie recommandée? Dois-je simplement autoriser les trois pour le moment et espérer que IA ne changera plus leur nom de robot à l'avenir?
Réponses:
Mise à jour : Comme @KevinFegan le note dans les commentaires, leur documentation a changé. La partie ci-dessous décrit comment Internet Archive l'a géré dans le passé (au moins en 2014).
Leur FAQ Comment puis-je exclure les pages de mon site de Wayback Machine? fait référence à la suppression de documents de la Wayback Machine , qui indique que leur bot est appelé
ia_archiver
.Cet enregistrement devrait donc permettre à leur robot d'explorer l'ensemble de votre site:
la source
*
groupe ne correspond que si aucun autre groupe n'a correspondu.Il y a vraiment 2 problèmes ici:
robots.txt
le retour sur votre site empêchera (bloquera) l'exploration de votre site?Pour le point # 1:
comme d'autres l'ont dit, l'entrée correcte pour robots.txt est:
Gardez à l'esprit que cela peut prendre un certain temps (peut-être un bon moment), pour que Wayback remarque les modifications que vous avez apportées à robots.txt.
Pour vérifier si le
robots.txt
sur votre site permettra à Wayback d'explorer votre site:"Browse History"
bouton."Save Page"
bouton.À ce stade, vous devriez voir 1 des 3 choses:
Maintenant, pour le point # 2:
Will Wayback explorer votre site?
Le fait que vous autorisiez Wayback à explorer votre site ne signifie pas qu'ils (jamais) exploreront votre site.
Selon la FAQ Wayback (emphase ajoutée):
Mise à jour: 09-mai-2017
D'autres ont laissé des commentaires / réponses indiquant qu'Archive.org n'honore plus le fichier robots.txt. Il s'agit peut-être d'un "travail en cours" et ce sera finalement le cas, mais je n'ai pas encore vu ce nouveau comportement.
Le cas semble provenir de cet article: Robots.txt: ROBOTS.TXT EST UNE NOTE DE SUICIDE par
archiveteam.org
. Bien que cette page ait peu ou rien de bon à dire sur "Robots.txt", elle ne mentionne nulle part qu'Archive.org n'honorera plus robots.txt.À noter également: cet article est hébergé
archiveteam.org
, ce qui n'est certainement pas le casarchive.org
, et je ne suis pas sûr qu'il existe une relation (officielle) entrearchive.org
etarchiveteam.org
.En fait, cette page sur à propos de l'équipe d'archives , semble déclarer une distinction entre et (je souligne):
archive.org
archive.org
archiveteam.org
Dans tous les cas, j'ai décidé de donner à ce essayer, et je trouve que, au moins à ce moment, Archive.org STILL honneurs robots.txt:
archive.org
indique que la "Page ne peut pas être affichée en raison de robots.txt."Donc, en ce moment, je ne suis pas convaincu, mais j'aimerais qu'on me prouve le contraire ... ce serait génial si c'était vrai.
la source
Mise à jour 2017
Le bot d'archivage ne se soucie plus de votre fichier robots.txt.
Si vous voulez vraiment le bloquer, envoyez-leur un e-mail en fonction de cette page , ou bloquez leur adresse IP via htaccess.
la source
L'entrée robots.txt ia_archiver Disallow (avec le "/") devrait convenir au besoin que vous décrivez (pour "préserver pour l'éternité", mais pas encore publiquement).
Je viens de faire un test rapide, commentant l'entrée ia_archiver Disallow pour un site qui l'avait depuis au moins 10 ans. Ensuite, j'ai recherché le site sur archive.org/web, et il a montré des captures qu'il avait collectées en 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 et 2017! Cela signifie que Archive.org n'a jamais strictement respecté ce que les autres pensaient être une déclaration «ne pas archiver» au cours de ces années, il n'a simplement pas exposé les copies archivées.
la source
la source
J'ai essayé la
robots.txt
méthode et ça n'a pas marché. J'ai donc contacté le site sur leur email [email protected]:Et j'ai obtenu la réponse suivante:
J'ai créé
wayback-removal-request.html
avec le contenu suivant (même pas du HTML valide):Téléchargé et répondu à leur e-mail avec l'URL à partir de laquelle la page Web était disponible et plus tard, j'ai reçu la réponse suivante:
Lorsque j'ai vérifié quelques heures plus tard, mon site Web a été supprimé.
la source