Correction du texte corrompu

J'ai un texte qui ressemble à ceci:

censé subir un examen cardiaque annuel afin de rester sur la liste des greffés. Mais, il y a des> patients qui manquent i ｃａｒｄｉａｃｉｎｆｏｒｍａｔｉｏｎ．Ｙｏｕｆｉｎ

Comme vous pouvez le constater, la première ligne est correcte, mais la deuxième ligne est corrompue. Cela ressemble à ceci même lorsque je l'ouvre avec Vim ou LibreOffice. Y'a t'il un moyen d'arranger cela? J'ai essayé de changer l'encodage en UTF-8 mais en vain. Merci!

encoding file-corruption Oort
la source

Qu'est-ce qu'un fichier en texte brut? Mot? PDF?…

Synetech le

Combien de texte comme ça avez-vous?

Lornix

C'est comme ça dans un fichier texte. Même quand je l'ouvre avec Vim, LibreOffice, GEdit, vous l'appelez, ça ressemble à ça. Il y a beaucoup de texte dont j'ai besoin de convertir, c'est ce qui m'empêche de le taper.

Oort

J'ai été ravi de vous voir couper-coller pour le mettre ici, car j'ai pu le bricoler. Voir le fichier texte brut serait plus utile. Puisqu'il semble y avoir un mélange d'ASCII normal (ou UTF-8) et de caractères étendus, j'imagine qu'un "filtre" pourrait être corrigé pour le résoudre.

Lornix

Réponses:

Il me semble que cela a peut-être commencé comme une sorte de texte standard avec des marqueurs de substitution et qu'il a été traité par un utilitaire dépourvu de codage défensif suffisant - une variante de cette bande dessinée xkcd . Par exemple, il peut avoir été généré à l'aide d'un processeur XSLT défectueux.

Si c'est ce que vous voyez en texte brut, vous ne pouvez probablement rien faire d'autre que de revenir à la source d'origine. Les fichiers de texte brut ne contiennent pas d'informations cachées supplémentaires. Un encodage incorrect peut poser des problèmes, mais si votre éditeur se charge en supposant un encodage octet par caractère et que cet encodage est incorrect, vous devriez toujours voir plus de contenu sous la forme de caractères parasites.

Il est fort probable qu'il existe un caractère de fin de fichier ou un caractère nul empêchant l'affichage de la fin du texte, mais aucun éditeur de texte à la moitié décent ne devrait être dupe de ces jours.

Steve314
la source

N'oubliez pas de toujours travailler sur une copie de sauvegarde jusqu'à ce que cela fonctionne.

Vous pouvez essayer de charger le fichier texte dans vim tout en forçant une méthode de codage différente.

démarre vim (ou gvim, selon le cas)

:e ++enc=utf-8 textfilename.txt

vim connaît plusieurs types d’encodage, essayez-le à plusieurs reprises. À partir des fichiers d'aide:

Les valeurs d'encodage prises en charge sont les suivantes:

latin1, iso-8859-n, cp437, cp737, cp775, cp850, cp852, cp855, cp857, cp860, cp861, cp862, cp865, cp866, cp866, cp865, cp865, cp865, cp867 16, utf-16le, ucs-4, ucs-4le

Ma question sur le fichier texte brut est de déterminer s’il comporte une nomenclature au début ( Byte Order Mark ), ce qui nous donnerait un indice sur ce qu’il pense en être.

Lornix
la source