En essayant de convertir un fichier texte en son équivalent ASCII, j'obtiens un message d'erreur iconv: illegal input sequence at position
.
La commande que j'utilise est iconv -f UTF-8 -t ascii//TRANSLIT file
Le caractère fautif est æ
.
Le fichier texte lui-même est présent ici .
Pourquoi dit-on séquence illégale? Le caractère d'entrée est le bon caractère UTF-8 (U + 00E6).
text-processing
character-encoding
unicode
user13107
la source
la source
hexdump -C file
commande et j'ai obtenu0002b220 72 75 69 6e e6 0a 20 2d 2d 20 48 6f 72 61 63 65 |ruin.. -- Horace|
en sortie.Le fichier que vous avez lié semble être UTF-8 dans un document HTML
Si vous l'exécutez d'abord via un convertisseur HTML-texte, par exemple
alors le fragment UTF-8 avec lequel vous semblez avoir des problèmes semble transliter sans erreur, c'est-à-dire
devient
L'
html2text
utilitaire peut ne pas être installé sur votre système - si vous ne pouvez pas le localiser / l'installer, il existe d'autres convertisseurs, y compris un module python.la source
file
commande dit ASCII, mais la raison en est qu'elle ne regarde que le début du fichier et que le caractère ISO-8859-1 apparaît très loin, à la position 181536.