Quel est l'effet des ligatures sur le web, concernant le référencement

19

Tous les concepteurs adorent les ligatures, mais la typographie Web vanille craint. J'ai entendu parler de smartypants qui résolvent bon nombre de ces problèmes, apportant des citations sexy, de magnifiques esperluettes et tout. C'est juste parfait, visuellement.

Mais je suis inquiet pour le référencement. Disons que sur une page Web, le mot finallydevient finally. Les moteurs de recherche sont-ils capables d'indexer ce mot et de retourner la page lors de la recherche finally(sans la ligature)?

TKrugg
la source

Réponses:

3

Sommaire

Si votre serveur élimine les pages avec des ligatures (comme le font les smartypants), les moteurs de recherche sont incohérents. Bing n'indexe actuellement pas correctement les ligatures. Je dirais qu'en général, cela demande des ennuis. Étant donné que les moteurs de recherche changent, il existe une méthode ci-dessous que vous pouvez utiliser pour tester la façon dont les moteurs de recherche vous intéressent aux ligatures d'index .

Si vos plats de serveur des pages avec du texte normal, puis Javascript les transforme en ligatures, qui est très bien . Les moteurs de recherche n'appliquent pas les modifications de contenu Javascript avant d'indexer les pages (bien qu'il soit allégué qu'il y a quelques exceptions comme le chargement des commentaires Facebook ). Puisqu'il existe une méthode standard pour donner du contenu dynamique aux moteurs de recherche et que cette méthode est approuvée par Google , ce serait une grande surprise si cela changeait à l'avenir. Google conseille de parcourir votre site à l'aide d'un navigateur en texte brut (par exemple, ils suggèrent Lynx ) pour voir votre contenu comme un moteur de recherche le voit.


Plus de détails sur le premier cas (pages recouvertes de ligatures dans le code) ...


En théorie

... cela ne devrait pas faire de différence pour un moteur de recherche bien configuré.

Tout d'abord, cela aide à comprendre la différence entre les glyphes et les caractères . Une ligature est un glyphe qui représente deux caractères f i. La façon dont le logiciel le traite dépend de ce logiciel et dépend du contexte et de la tâche à accomplir - vous verrez dans les exemples de cette question liée que lorsque vous copiez et collez des glyphes, ce qui est collé varie: parfois le glyphe est collé, parfois le glyphe est traité comme ses caractères associés fet iest collé.

Tout processeur de texte automatique bien conçu qui s'intéresse à la sémantique du texte (moteurs de recherche, vérification orthographique, lecteurs d'écran ...) devrait traiter un glyphe comme identique aux caractères qu'il représente, et devrait être traité finallycomme identique finally, car c'est le texte sens du glyphe.

En pratique

Tout n'est pas bien fait ...

Voici un moyen simple de tester les moteurs de recherche. Voici une ligne de texte de cette autre question:

Copy the ligature fi from Illustrator to this input box

Si nous prenons la version non-ligatures de cette phrase et la recherchons entre guillemets:

(recherche sur "Copy the ligature fi from Illustrator to this input box"):

  1. ... si un moteur de recherche traite les glyphes de ligature comme des correspondances pour les caractères qu'ils représentent, il trouvera cette page (et, lorsqu'elle sera indexée, celle-ci)
  2. ... si un moteur de recherche traite les glyphes de ligature comme différents des caractères qu'ils représentent, il ne trouvera rien jusqu'à ce que cette page soit indexée, puis, il ne trouvera que cette page, et les recherches avec la version de ligature trouveront cette page.
  3. ... si un moteur de recherche panique complètement à la vue de glyphes comme des ligatures, il ne trouvera rien, pas même cette page, et les recherches avec la version ligature ne trouveront rien non plus

Quelques résultats rapides pour les 5 meilleurs moteurs de recherche au monde (des liens vers les résultats de recherche):

  • Google: Bon (type 1) . (malgré les commentaires ci-dessous, il s'adapte bien au formatage unicode ou HTML)
  • Bing: échec ( type 2 ).
  • Yahoo: échec ( type 2 ) (il s'avère que Yahoo est «propulsé par Bing»)
  • Yandex (russe): Bon (type 1)
  • Baidu (chinois): euh, aucune page graphicdesign.stackexchange.com ne semble du tout apparaître dans les recherches Baidu ... peut-être que nous y sommes interdits ...?!
user56reinstatemonica8
la source
Non, je viens de modifier ma réponse, consultez le code source sur ce lien. C'est tout unicode comme & # xfb00; que l'algorithme de Google ignore.
Ryan
En fait, Google correspond à ceux-ci: regardez ce qu'il met en évidence ici (ligatures) et ici (texte brut) - les deux correspondent aux deux.Mais je suis d'accord avec vos conseils ...
user56reinstatemonica8
... (ces URL étaient massives, ont besoin de 2 commentaires), cela semble inviter des ennuis. Si bing ne correspond pas aux ligatures, d'autres services importants ne le seront pas non plus.
user56reinstatemonica8
Regardez l'URL du premier lien et le code source auquel il correspond: vous verrez que Google n'a pas (actuellement ...) de problèmes avec le formatage unicode, et il indexe les ligatures unicode, les ligatures d'entité HTML et les paires de caractères séparées régulières comme f iéquivalent sans aucun problème. Google semble bien se débrouiller - mais l'incohérence entre les différents moteurs de recherche est (dans mon livre au moins) un dealbreaker.
user56reinstatemonica8
3

Sur la base d'un exemple en direct que j'ai vu, je serais extrêmement préoccupé par une utilisation extensive de cela, car cela affectera le référencement. Les caractères spéciaux sont analysés en Unicode, l'algorithme de Google ne le lira donc pas. Cela devrait convenir à des utilisations parcimonieuses, mais je ne deviendrais pas fou avec ou n'utiliserais rien sur un élément important comme un titre.

Voici le lien vers l'exemple en direct que j'ai consulté: http://pages.cs.wisc.edu/~wolfson/ligatures.html

Ryan
la source
Je ne pense pas que ce seront ces lettres dans le code source. On dirait que smartypants est une chose côté serveur qui analyse les entrées et enregistre les glyphes dans le texte stocké dans la base de données et donc également le code source. Cela dit, je pense que ce sera bien pour le référencement de toute façon.
user56reinstatemonica8
Ah en fait j'ai inspecté l'élément mais je n'ai pas vu la source. Je vais modifier ma réponse.
Ryan
1
Je suis définitivement d'accord avec "extrêmement préoccupé", le support Unicode est notoirement incohérent. Mais pour mémoire, Google peut (actuellement ...) indexer unicode et fait (actuellement ...) correspondre à ces ligatures unicode sur cette page avec des recherches, l i f ietc. (voir comment cela les met en gras dans l'aperçu). Mais je ne voudrais certainement pas y compter ...
user56reinstatemonica8
Et si les ligatures étaient placées via javascript? Cela ne modifierait pas le document html, donc serait-il complètement invisible pour les moteurs de recherche? Serait-ce une solution?
TKrugg
Oui, cela devrait être bien - les moteurs de recherche indexent généralement le document d'origine sans appliquer le javascript. Vous voudrez probablement vérifier que cela ne ralentit pas le temps de chargement de la page de manière significative et qu'il n'y a pas de choc pour le spectateur lorsque les caractères vanille sont remplacés par les ligatures pendant le chargement de la page.
user56reinstatemonica8