J'ai rencontré une annonce de Google: http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html
Il est dit:
Pour un rendu et une indexation optimaux, notre nouvelle directive spécifie que vous devez autoriser Googlebot à accéder aux fichiers JavaScript, CSS et image que vos pages utilisent. Cela vous offre un rendu et une indexation optimaux pour votre site. Interdire l'exploration de fichiers Javascript ou CSS dans le fichier robots.txt de votre site nuit directement à la qualité de rendu et d'indexation de nos contenus et peut entraîner des classements sous-optimaux.
Par défaut, le fichier robots.txt de Joomla est livré avec interdiction:
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Veuillez informer, devons-nous supprimer les éléments ci-dessous du fichier robots.txt en fonction de l'annonce de Google?
Disallow: /components/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Est-ce ce qui est recommandé selon l'annonce pour les sites basés sur Joomla?
robots.txt
puisque personne (pas même les moteurs de recherche maintenant que Google fait des demandes sur ce que vous ne devriez pas interdire) ne le suivra pas de toute façon?Réponses:
Honnêtement, vous feriez mieux de tout supprimer de votre robots.txt. Pour autant que je puisse voir, tous les fichiers PHP dans Joomla contiennent la ligne
Ce qui signifie que si vous chargez un fichier PHP directement dans le navigateur, tout ce que vous obtenez est un fichier vierge, que les moteurs de recherche ignoreront. (Ils ne devraient jamais les rencontrer de toute façon, sauf si vous les avez liés directement.)
Le problème de laisser certains de ces répertoires bloqués est que certains composants et modules conservent leurs fichiers CSS / JS dans ces répertoires respectifs et non dans les dossiers de supports ou d'images préférés.
Il n'y a donc aucune raison de bloquer les fichiers Joomla de Google.
la source
En dehors de leur utilisation / absence globale,
robots.txt
dans un site Joomla bien géré, avec de "bonnes" extensions tierces - les seuls endroits qui devraient contenir du CSS, du JS ou des images sont:et bien sûr leurs sous-répertoires .
Donc, vous pouvez simplement les supprimer
robots.txt
.la source
Dans Joomla 3.3, ces lignes ont été supprimées du fichier robots.txt:
Plus d'informations ici: http://www.energizethemes.com/blog/joomla/have-you-updated-the-joomla-robots-txt-file.html
la source
Si vous voyez vos pages sans erreurs lors de la récupération en tant que Google dans WMT, alors vous allez probablement bien. Mais, à l'avenir, vous pourriez mettre à niveau du contenu sur votre site Web, ce qui nécessitera des scripts / css de certains des dossiers bloqués. Par conséquent, je pense que vous pourriez être mieux en autorisant les moteurs de recherche à explorer tous ces dossiers contenant CSS / JavaScript.
la source
Les versions les plus récentes de Joomla ne bloquent plus les dossiers
/media/
et/templates/
:Toutes les extensions ne respectent pas les directives de l'emplacement des fichiers CSS et JS, etc.
Vous pouvez y parvenir en insérant quelques lignes au début de votre
robots.txt
fichier comme ceci:ÉDITER:
Merci @ w3dk et @Stephen Ostermiller pour les commentaires! Vous avez parfaitement raison. Il vaut mieux faire quelque chose comme ça:
Malheureusement, cela ne semble pas fonctionner comme prévu car les règles plus longues (plus spécifiques) remplacent les règles plus courtes et les lignes d'autorisation sont ignorées. Cela ne semble pas faire de différence si les lignes autorisées suivent les lignes interdites ou vice versa.
La seule façon dont je peux sembler contourner cela est de faire quelque chose comme ça qui semble fonctionner lorsque je le teste dans les outils pour les webmasters:
EDIT 2 - MEILLEURE SOLUTION:
OK, j'ai donc fait un peu plus de recherche et trouvé la réponse sur https://stackoverflow.com/a/30362942/1983389
Il semble quelque chose comme ce qui suit (permettant l' accès à la solution la plus correcte et la plus soutenue dans tous les robots d' exploration Web
*.css
et des*.js
fichiers dans les/bin
,/cache
,/installation
,/language
,/logs
, et des/tmp
dossiers et peut - être quelques - uns des autres dossiers peu de sens):la source
Disallow:
dans leUser-agent: Googlebot
groupe, ce qui serait plus lisible.)/logs/
tout en empêchant d'autres robots de le faire.