Pourquoi devrais-je jamais utiliser les caractères spéciaux Unicode pour les chiffres romains?

43

Ceci est pour répondre à une question qui se pose dans les commentaires sur cette question sur les caractères Unicode pour les chiffres romains:

Pourquoi est-ce nécessaire ou préférable à la manière habituelle de taper ai, ai-ai, ai-ai-ai, vee-ai, etc.?

Pour commencer depuis le début, dans le bloc Formulaires de nombres Unicode , il existe des points de code pour les chiffres romains qui ressemblent à première vue aux apparences très semblables aux lettres majuscules standard ou à leurs combinaisons (U + 2160 - U + 217F). Par exemple, U + 2165 (chiffre romain six) ressemble beaucoup à VI (lettre majuscule latine V et lettre majuscule latine I).

Ainsi, la question se pose de savoir pourquoi on ne devrait pas utiliser ce dernier pour représenter ces chiffres et, par exemple, taper à la Louis VIIplace de Louis Ⅶ. Évidemment, l’absence de caractères spéciaux évite les problèmes de compatibilité avec les polices qui ne les prennent pas en charge. Mais même si je sais que le texte sera rendu avec une police qui prend en charge ces caractères, pourquoi devrais-je m'embêter à les utiliser?

Wrzlprmft
la source

Réponses:

56

En effet, dans de nombreuses polices, vous ne trouverez pratiquement aucune différence entre l’utilisation des caractères Unicode pour les chiffres romains et leur composition à partir de lettres latines standard. Par exemple, les représentations suivantes Louis VII(haut) et Louis Ⅶ(bas, utilisant des points de code pour les chiffres romains) sont rendues avec FreeSans:

entrez la description de l'image ici

Mis à part une toute petite différence d'espacement, qui n'était probablement pas intentionnelle, le résultat est identique.

Voici le même texte rendu avec DejaVu Sans:

entrez la description de l'image ici

Bien que les caractères semblent toujours identiques, il existe une différence d'espacement considérable. La question de savoir si ce dernier est préférable pour les chiffres romains est peut-être une question de goût, mais ce ne serait certainement pas un bon choix de crénage pour les majuscules ordinaires.

Linux Libertine va encore plus loin:

entrez la description de l'image ici

Ici, les chiffres romains sont légèrement plus petits que les lettres majuscules, ce qui correspond aux chiffres arabes de la police. Plus important encore, ils sont connectés, reproduisant une caractéristique souvent trouvée en chiffres romains dessinés à la main.

Maintenant, certains peuvent encore affirmer qu'il n'y a aucune amélioration dans ce qui précède ou qu'ils ne valent pas la peine. Donc, voici un cas où ne pas utiliser les caractères Unicode produira des résultats horribles:

entrez la description de l'image ici

(Notez que la petite taille des chiffres correspond à la composition historique réelle.) Il est possible que quelque chose de similaire se produise pour les polices de script ou les polices caligraphiques.

Sans points Unicode spécifiques pour les chiffres romains, la résolution de ce dernier problème ne serait possible qu'avec:

  • Utilisation d'une fonctionnalité OpenType complexe (ou similaire) qui tente de détecter si une séquence de lettres majuscules est un chiffre romain. Cela causera inévitablement des problèmes avec des mots qui seraient également un chiffre romain valide.

  • Utiliser une simple fonctionnalité OpenType, qui doit être activée manuellement pour chaque chiffre romain.

  • Utilisation de la zone à usage privé Unicode. Des problèmes de compatibilité risquent de survenir même lors du basculement entre deux polices prenant en charge les chiffres romains.

Du point de vue de l'Unicode, l'énorme différence sémantique entre les lettres latines majuscules et les chiffres romains aurait déjà suffi pour un codage séparé des chiffres romains.

Wrzlprmft
la source
Dans quelle mesure les chiffres romains posent-ils un problème différent des acronymes et des initialialismes, les deux problèmes pouvant être résolus correctement en utilisant une police comprenant un ensemble de petites majuscules? Je m'attendrais à ce que les scénarios où "VII" devrait être montré en majuscules plutôt qu'en petites capitales sont les mêmes que ceux où "OTAN" ou "PM" devraient l'être également. Bien qu'il soit peut-être agréable de pouvoir relier les barres transversales avec "VII" mais pas "VIP", je ne suis pas sûr que les barres transversales soient connectées lorsque des chiffres sont utilisés dans le texte .
Supercat
Très bien a ajouté un peu votre sémantique étendue, mais si vous voulez incorporer dans votre réponse, n'hésitez pas à le faire et à supprimer la mienne.
Joojaa
@supercat: Je ne sais pas trop ce que vous visez, mais d'après mon expérience, en chiffres modernes, les chiffres romains ont toujours une taille en majuscule, alors qu'en langues autres que l'allemand, il est envisageable d'utiliser des petites majuscules pour les abréviations en majuscules. En typographie blackletter, vous utiliseriez une police romaine pour les abréviations majuscules et les chiffres romains, mais parfois des chiffres romains plus petits (comme ci-dessus) et, pour certaines occasions très spéciales, des majuscules.
Wrzlprmft
@Wrzlprmft: Je m'attendrais à ce que les chiffres romains soient imprimés à la même taille que des caractères comme "PM" ou "OTAN"; dans certains contextes, ces éléments sont imprimés en majuscules, mais dans d'autres, cela les rend trop flous. Si une police avait un ensemble de lettres majuscules dont le dessin, par rapport au reste de la police, était approprié pour "PM" ou "OTAN", je penserais qu'elle conviendrait également pour les chiffres romains.
Supercat
@supercat: Pour les polices romaines régulières, oui (bien que l'on puisse se demander si ce serait la meilleure chose à faire). Mais qu'en est-il des polices blackletter et script? Aussi, que concluez-vous de cela?
Wrzlprmft
27

TL; DR Le consortium Unicode recommande l’utilisation de la lettre latine, dans la mesure du possible, et non du chiffre, qui a été inclus pour des raisons de compatibilité avec la typographie est-asiatique.

L'histoire complète: (avec justification de l'affirmation ci-dessus)

À moins que vous ne fassiez une typographie est-asiatique, utiliser les caractères numériques non archaïques de Unicode (U + 2160 - U + 217F) est un hack.

Ces caractères ont été inclus pour assurer la compatibilité avec les normes est-asiatiques pré-Unicode. Ces caractères restent verticaux là où le texte est-asiatique est composé de haut en bas, alors qu'en général, le texte en caractères latins (par exemple, les noms) est écrit latéralement dans ce contexte.

Pour citer la dernière version de la norme Unicode (v 7.0, chap. 22, p. 20) :

Chiffres romains. Dans la plupart des cas, il est préférable de composer les chiffres romains à partir de séquences de lettres latines appropriées. Toutefois, les variantes majuscules et minuscules des chiffres romains jusqu'à 12, ainsi que L, C, D et M, ont été codées dans le bloc des formes numériques (U + 2150..U + 218F) pour assurer la compatibilité avec les normes est-asiatiques. Contrairement aux séquences de lettres latines, ces symboles restent en position verticale. En outre, dans certains environnements locaux, les formats de date compacts utilisent des chiffres romains pour le mois, mais peuvent prévoir l'utilisation d'un seul caractère.

Ainsi, en théorie, la distinction entre les chiffres romains et les lettres est une question de texte enrichi, comme l’italique, une modification de police ou des ligatures facultatives. Cela dit, comme le montre @Wrzlprmft, certaines polices l’utilisent pour éviter un changement de police pour chaque chiffre romain tout en conservant une bonne typographie.

L'existence d'un caractère pour XII et non pour XIII implique qu'il existe plusieurs encodages identiques, ce qui entraîne des difficultés pour la recherche de texte: si vous écrivez sur Louis XII et Louis XIII, vous écrirez probablement XIII sous la forme X + I + I + I, mais écrirez-vous XII en tant que personnage unique? Ou comme X + I + I pour avoir un affichage cohérent avec XIII? Il n’existe pas de bonne réponse à cette question lors de l’utilisation des caractères romains. C’est pourquoi le consortium Unicode recommande d’utiliser les lettres latines lorsque cela est possible et non les chiffres.

Edit: ajout de l' assertion TL; DR au début

Frédéric Grosshans
la source
9
" Le consortium Unicode recommande d'utiliser les lettres latines lorsque cela est possible et non les chiffres." Cela devrait être beaucoup plus important qu'il ne l'est actuellement.
Ixrec
1
Du point de vue de la sémantique Unicode, c'est de loin la meilleure réponse. Certaines polices ont peut-être des raisons pratiques de préférer les caractères en chiffres romains, ce qui est bien sûr une considération graphique indépendante, mais sémantiquement, elles sont toujours fausses.
R ..
13

Du point de vue de l'apparence, il n'y aura peut-être pas beaucoup de différence. Donc, si vous ne publiez que des documents imprimés, il n'y a aucune différence, sauf dans certaines polices, comme le fait remarquer Wrzlprmft dans son excellente réponse.

La sémantique est importante

La différence sémantique est énorme. En utilisant des chiffres romains, cela indique clairement que vous parlez du chiffre 5 au lieu de la lettre V. Bien sûr, ils se ressemblent, mais ils signifient différents. Cela signifierait que le moteur de recherche pourrait avoir une chance plus grande de trouver "XX mark V" lorsque vous recherchez "XX version 5".

En fait, certaines choses fonctionnent mal parce que nous n'intégrons pas d'informations sémantiques. Le monde serait en effet un meilleur endroit si nous le voulions. Donc, utiliser le bon sens sémantique revient à peu près à utiliser les styles dans un traitement de texte par rapport au style manuellement. Il y a peu de différence sur le plan humain, mais une grande puissance en automatisation.

Les polices doivent faire des chiffres romains différents

Les fabricants de polices ne les utilisent pas vraiment car ils ne sont pas très souvent utilisés. Mais en les utilisant, vous pouvez obtenir les dalles en chiffres romains sur les lettres qui les différencient du texte. Donc, la fonctionnalité est sous-utilisée parce que c'est une utilisation rare. Les polices n'implémentent pas vraiment tout, et ne devraient pas l'être non plus. En utilisant ceux-ci, vous bénéficierez s'ils sont présents.

Conclusion

Tout cela est certainement un problème de type poule et œuf. Si des personnes n'utilisent pas les plages de caractères spéciales, aucune allocation spéciale n'est faite pour ces plages. Ainsi, les polices ne prendront pas en charge les littéraux romains spécialement conçus, car cela ne ferait que gaspiller des efforts en fonctionnalités que personne n'utilise. Il en va de même pour la recherche: si personne n'utilise les littéraux romains, aucun moteur de recherche ne trouvera de littéraux romains et la sémantique sera perdue. La sémantique souffre de ne pas adopter le sens sémantique correct. Cette même chose s’applique également à une gamme plus étendue de caractères Unicode.

En ce qui concerne la complexité de saisie, oui, la plupart des utilisateurs ne peuvent pas écrire de caractères étendus, mais ce n'est pas une excuse pour une personne bien informée qui l'ignore si cela a du sens. Si personne ne fait mieux les choses, aucun progrès ne sera jamais accompli. Enfer même mot a des modes pour écrire alpha en tapant / alpha. Il n’ya donc aucune raison pour qu’il ne soit pas facile de marquer les chiffres, ni même de les suggérer en tant que tels. Encore une fois, si personne ne le fait, il ne sera jamais adopté plus largement.

joojaa
la source
En fait, un moteur de recherche donne de bien meilleurs résultats lorsqu’il cherche "Louis VII" plutôt que "Louis", probablement parce que, en réalité, la plupart du contenu est généré avec des outils qui ne permettent pas une telle distinction sémantique.
xpereta
1
@xpereta oui parce que les gens ne se soucient pas de la sémantique. Cependant, s'ils le font, vous pourrez facilement faire correspondre 7 pour les chiffres également. Une grande partie de l’inefficacité dans le monde vient du fait que les gens ne considèrent pas qu’il est important de signaler explicitement la différence sémantique entre les choses quand ils pourraient facilement le faire. L'ordinateur ne sait vraiment pas la différence, même si un être humain le ferait
joojaa
1
@joojaa Dans ce cas, cela tient probablement au fait que VII est un ordre de grandeur plus facile à taper que. Je ne sais pas si cela changera un jour.
Ixrec
Je voudrais développer un peu le dernier paragraphe pour conclure votre conclusion selon laquelle une utilisation plus large de caractères spéciaux tels que celui-ci encouragerait une implémentation plus étendue des polices.
Nathan Tuggy
2
Je remets fortement en question cette réponse concernant la sémantique. Les chiffres en chiffres romains Unicode sont <compat>équivalents aux séquences correspondantes de lettres latines, ce qui suggère fortement que la seule raison pour laquelle ils sont en Unicode est la compatibilité aller-retour avec certains jeux de caractères hérités (probablement CJK) qui les possédaient. De tels caractères ne doivent généralement pas être utilisés, sauf pour les documents fidèlement contournés créés dans des codages traditionnels.
R ..