Je développais une nouvelle version de notre site sur un sous-domaine ( dev.oursite.com
) et le robots.txt avec le Disallow
got a été remplacé à un moment donné, donc le site a été indexé par Google et d'autres moteurs de recherche. Il ne s'affiche pas haut dans les résultats ou quoi que ce soit, mais il a tout le contenu en double et je préfère qu'il ne soit pas là.
Le sous-domaine a maintenant disparu et j'ai un 301 qui redirige chaque page de dev.oursite.com/page-name
vers http://oursite.com/page-name
.
Dois-je faire autre chose pour que le site de développement ne s'affiche plus dans Google? Va-t-elle disparaître d'elle-même à terme?
Réponses:
Découvrez l'outil de suppression d'URL dans les outils Google pour les webmasters. Je voudrais également 404 les pages au lieu de les rediriger pour les supprimer plus rapidement, à l'avenir au-delà de robots.txt, vous pouvez ajouter le
rel="canonical"
pour vous assurer que Google sait que le site de développement n'est qu'une copie du site principal et ne doit pas être indexé.la source
Je suis toujours préoccupé par l'indexation des sites de développement. Je ne fais pas confiance à robots.txt ou
meta noindex
, pendant que je les utilise, je protège également les sites par mot de passe si ce n'est pas gênant. Mais une autre option consiste à utiliser .htaccess et à refuser l'accès à tout le monde sauf les IP au sein de votre entreprise et pour les collègues et les développeurs. Ajoutez simplement leur classe C.la source
En plus de la bonne réponse fournie par Joshak, je voudrais vous donner un conseil sur la façon d'éviter cela.
Ce que j'ai fait pour résoudre exactement le même problème est de forcer le robot.txt dans la définition Apache httpd du vhost. De cette façon, il est impossible que le "refus" puisse disparaître ou être modifié par un code du site Web en cours de développement. Mes définitions de vhost ressemblent toutes à ceci:
la source