D'après votre expérience, quels caractères Unicode, points de code, plages en dehors du BMP (Basic Multilingual Plane) sont les plus courants jusqu'à présent? Ce sont ceux qui nécessitent 4 octets en UTF-8 ou des substituts en UTF-16.
Je m'attendais à ce que la réponse soit des caractères chinois et japonais utilisés dans les noms mais non inclus dans les jeux de caractères multi-octets CJK les plus répandus, mais sur le projet sur lequel je travaille le plus, le Wiktionnaire anglais, nous avons constaté que l' alphabet gothique est beaucoup plus courant jusqu'à présent.
METTRE À JOUR
J'ai écrit quelques outils logiciels pour scanner des Wikipédias entières à la recherche de caractères non BMP et j'ai découvert à ma grande surprise que même dans l'alphabet gothique de Wikipedia japonais, est le plus courant. Ceci est également vrai dans le Wikipedia chinois, mais il y avait aussi de nombreux caractères chinois utilisés jusqu'à 50 ou 70 fois, y compris "𨭎", "𠬠" et "𩷶".
la source
Réponses:
Les emoji sont désormais de loin les personnages non BMP les plus courants. 😂, également connu sous le nom de U + 1F602 FACE WITH TEARS OF JOY, est le plus courant sur le flux public de Twitter. Cela se produit plus fréquemment que le tilde!
la source
Excellente question!
La réponse est les lettres mathématiques. En décembre dernier, j'ai fait un scan de l'ensemble du corpus PubMed Open Access et j'ai trouvé ces chiffres pour les caractères astraux.
Le premier chiffre dans les figures ci-dessous est le nombre de copies de chaque point de code donné que j'ai trouvé dans l'ensemble du corpus. Tout d'abord, cependant, pour vous donner une idée des fréquences relatives, voici les dix principaux points de code trans-ASCII de ce corpus:
Et voici maintenant les points de code trans-BMP, par ordre de fréquence décroissante:
J'aurais vraiment aimé savoir ce qu'ils utilisaient U + 100002 pour faire. :(
Si ceux-ci n'apparaissent pas dans votre navigateur, vous devez installer la police Symbola de George Douros . Il contient également tous les points de code amusants Unicode 6.0.0.
la source
Pour moi, les symboles alphanumériques mathématiques qui sont utilisés pour la composition mathématique avec des polices OpenType telles que Cambria Math.
la source