Site de développement indexé par Google

8

Je développais une nouvelle version de notre site sur un sous-domaine ( dev.oursite.com) et le robots.txt avec le Disallowgot a été remplacé à un moment donné, donc le site a été indexé par Google et d'autres moteurs de recherche. Il ne s'affiche pas haut dans les résultats ou quoi que ce soit, mais il a tout le contenu en double et je préfère qu'il ne soit pas là.

Le sous-domaine a maintenant disparu et j'ai un 301 qui redirige chaque page de dev.oursite.com/page-namevers http://oursite.com/page-name.

Dois-je faire autre chose pour que le site de développement ne s'affiche plus dans Google? Va-t-elle disparaître d'elle-même à terme?

Kyle
la source
4
Google a une page de
FAQ

Réponses:

7

Découvrez l'outil de suppression d'URL dans les outils Google pour les webmasters. Je voudrais également 404 les pages au lieu de les rediriger pour les supprimer plus rapidement, à l'avenir au-delà de robots.txt, vous pouvez ajouter le rel="canonical"pour vous assurer que Google sait que le site de développement n'est qu'une copie du site principal et ne doit pas être indexé.

Joshak
la source
3

Je suis toujours préoccupé par l'indexation des sites de développement. Je ne fais pas confiance à robots.txt ou meta noindex, pendant que je les utilise, je protège également les sites par mot de passe si ce n'est pas gênant. Mais une autre option consiste à utiliser .htaccess et à refuser l'accès à tout le monde sauf les IP au sein de votre entreprise et pour les collègues et les développeurs. Ajoutez simplement leur classe C.

Anagio
la source
1
C'est la meilleur façon. 403 tout le monde sauf une série d'adresses ou de blocs d'adresses. Le reste du monde s'en va et seuls ceux qui ont besoin de le voir peuvent le faire. Après coup pour cette question, mais bon à savoir pour l'avenir. Vous pouvez avoir besoin d'un site de développement accessible en privé même après le lancement pour des essais de mise à niveau, une programmation personnalisée de développeurs tiers, etc.
Fiasco Labs
1

En plus de la bonne réponse fournie par Joshak, je voudrais vous donner un conseil sur la façon d'éviter cela.

Ce que j'ai fait pour résoudre exactement le même problème est de forcer le robot.txt dans la définition Apache httpd du vhost. De cette façon, il est impossible que le "refus" puisse disparaître ou être modifié par un code du site Web en cours de développement. Mes définitions de vhost ressemblent toutes à ceci:

<VirtualHost *:80>
    DocumentRoot /var/www/html/Hosting/test.example.com/newsite.com
    ServerName newsite.com.test.example.com
    ServerAlias *.newsite.com.test.example.com
    UseCanonicalName on
    RewriteEngine on
    RewriteRule ^/robots.txt /var/www/no-indexing-robots.txt [NC,L]
</VirtualHost>
Niels Basjes
la source