J'aimerais pouvoir courir
unicode-names 'abç'
et voir les noms de caractères Unicode correspondants:
LATIN SMALL LETTER A
LATIN SMALL LETTER B
LATIN SMALL LETTER C WITH CEDILLA
L'impression d'une chaîne sous la forme d'une série de noms de glyphes Unicode serait utile dans plusieurs cas:
- Distinguez les caractères facilement confondus tels que "i" et "í".
- Expliquez ce qu'une chaîne littérale contient réellement (par exemple, des caractères de largeur nulle non imprimables ou non attribués).
command-line
unicode
l0b0
la source
la source
echo -n …— | uniname -bcegpu
Je ne connais pas un bon moyen de vérifier cela
bash
, mais Python a une base de données Unicode intégrée que vous pouvez utiliser comme dans un script comme celui-ci:Vous pouvez utiliser ce script comme ceci (en supposant que vous l'appeliez
unicode-names
):La base de données lève une
ValueError
exception pour tous les caractères qu'elle ne connaît pas, nous imprimons donc leurs points de code en décimal (ce sont généralement des caractères non imprimables).Attention: le script suppose que votre terminal est encodé en UTF-8. Si ce n'est pas le cas, vous devez modifier l'argument de la
decode()
méthode. Python prend en charge une très large sélection d'encodages, le vôtre sera certainement là.la source
sys.getdefaultencoding()
.