J'utilise GNU SED de temps en temps depuis quelques années maintenant. Cela me fait tourner un peu parfois, mais ça fait du bon travail ... pour les jeux de caractères à un octet!
De temps en temps, je remarque des références à GNU SED étant Unicode, mais le plus proche que j'aie vu est son mode "binaire" .. et binaire n'est pas Unicode.
GSED peut-il traiter un fichier texte Unicode à la résolution CodePoint, y compris et surtout \ r \ n (Windows) ... et si c'est le cas, attend-il UTF-8, UTF-16, ou quoi? et comment SED détecte-t-il l'encodage?
10
Réponses:
Je ne connais pas grand-chose à propos de sed, mais après quelques recherches sur Google, il semble avoir un support pour une variété de pages de codes via la variable d'environnement LANG. Je crois que l'UTF-8 est en fait la valeur par défaut en l'absence de LANG. Je ne sais pas comment le port Windows est configuré cependant. J'ai une forte suspicion que sed n'effectue aucun traitement de détection du tout sur le flux d'entrée.
Sources: /programming/67410/why-does-sed-fail-with-international-characters-and-how-to-fix http://omgili.com/mailinglist/cygwin/cygwin/com /20100520123926GA1432onderneming10xs4allnl.html
Vous pouvez également essayer les caractères d'échappement comme mentionné ici: http://forums.whirlpool.net.au/forum-replies-archive.cfm/841095.html Cela semble cependant très lourd.
la source