Pourquoi les traiter comme des URL avec une capitalisation de chemin différente et une barre oblique de fin comme différentes?

8

Ce sont toutes des URL strictement différentes:

http://www.example.com/page
http://www.example.com/pAge
http://www.example.com/page/
http://www.example.com/paGE/

Je comprends qu'il est conforme aux règles ISO strictes, mais pourquoi? Combien de sites Web existe-t-il qui traitent réellement pageet page/comme différentes URL que vous pouvez visiter? Ou bien utiliser la capitalisation pour différencier le contenu? S'ils le faisaient, je leur dirais qu'ils se trompent probablement.

Pourquoi devons-nous perdre notre temps à nous conformer à ces règles? N'est-ce pas assez banal pour Google de trouver cela pageet page/c'est la même page et ne devrait probablement pas être traité comme du contenu en double?

Tom Gullen
la source

Réponses:

10

Je comprends qu'il est conforme aux règles ISO strictes, mais pourquoi?

Il existe différents systèmes d'exploitation derrière les différents serveurs sur le net, et pour certains d'entre eux, un répertoire ou un fichier nommé pagen'est pas le même que celui nommé Page. Le résultat est que ce sont vraiment deux emplacements différents et pas même nécessairement le même type d'emplacement (dir / page). Le serveur Web peut être configuré comme insensible à la casse, mais vous ne pouvez pas le supposer. Par conséquent, les règles doivent supposer que les choses tiennent compte du cas et si elles ne le font pas, alors quoi que ce soit. De manière réaliste, ce n'est probablement pas une bonne idée de s'appuyer sur les différences de casse, mais la situation existe et il faut donc la prendre en compte, parfois avec des choses comme mod_speling .

Combien de sites Web existe-t-il qui traitent réellement la page et la page / comme des URL différentes que vous pouvez visiter?

Ils sont différents. C'est juste presque toujours caché pour vous:

  1. Lorsque vous allez sur example.com/foo/le serveur Web, vous savez que vous allez dans un répertoire, et il recherche donc un fichier correspondant à ce qu'il est configuré pour reconnaître comme index de répertoire. Donc, finalement, vous vous retrouvez example.com/index.htmlpar exemple.
  2. Si vous allez sur example.com/foole serveur, recherchez en fait un fichier dans le répertoire racine nommé juste foo. Si elle ne trouve pas, alors il vérifie s'il y a un répertoire nommé /fooet vous pouvez aller jusqu'à # 1.

Ce que vous semblez lire comme un comportement "normal" dans # 2 est en fait une solution de rechange pour gérer un cas probable.
Combien utilisent des noms de fichiers sans extension est sans importance. Encore une fois: vrai problème; doit être pris en compte.

S'ils le faisaient, je leur dirais qu'ils se trompent probablement.

Voilà une opinion.
Vous pouvez le sauvegarder avec divers arguments pratiques sur l'insensibilité à la casse et la façon de gérer les URL sans extension avec lesquelles je ne suis pas nécessairement en désaccord, mais en fait, vous auriez tort de le dire.

Su '
la source
Exemple laid / irritant pour ne pas jouer avec l'affaire: il y a un site que je gère, mais les informaticiens du client gèrent le serveur réel. Ils l'ont configuré pour rediriger tous les hits example.com vers www.example.com mais pour une raison quelconque, la redirection a également forcé tout en minuscules (on ne m'a pas dit cela). Les éditeurs du site téléchargeaient par exemple. CamelCase.jpg. Un autre code que je ne contrôlais pas serait lié à ces images sans le www, provoquant toutes sortes de bris stupides jusqu'à ce que nous le traquions.
Di
8

Aucune infraction prévue, mais la sensibilité à la casse est VITALE pour les URLs aujourd'hui - elles sont utilisées des millions de fois par jour:

bit.ly

  1. http://bit.ly/ri2LhQ
  2. http://bit.ly/ri2LHq

Deux sites très différents - uniquement possible en raison de la sensibilité à la casse

Chris Kluis
la source
3
Devinez comment je l'ai fait? J'ai attrapé une URL de la mienne dans un cas changé de façon aléatoire et mordante. Il m'a fallu 2 essais pour arriver à une URL unique. Concernant votre exemple où il est relativement évident que chacun devrait être la même page ... c'est ce que la redirection 301 canonique ou basée sur le serveur entre en jeu. Vous devriez être en charge de la puissance de votre structure URL et non du protocole HTTP lui-même.
Chris Kluis
5

Ce n'est pas une politique de Google, ce sont des règles de base.

Du point de vue d'un utilisateur Windows, il est difficile de comprendre les noms de fichiers sensibles à la casse. Cependant, sous les systèmes unix / linux, pAge et page ne sont pas les mêmes fichiers ni répertoires, et ainsi de suite sur les serveurs Web.

La barre oblique finale est un problème de configuration (ou un choix). Gardez à l'esprit que sur la plupart des serveurs Web, le serveur émettra une redirection 30x sur / page deux / page /, nécessitant ainsi une deuxième demande à votre serveur.

Vous pouvez rendre votre serveur Web insensible à la casse et le configurer comme vous le souhaitez pour vous conformer à vos propres règles.

Mais encore une fois, ce n'est pas du tout lié à Google

jflaflamme
la source