J'ai un texte qui ressemble à ceci:
censé subir un examen cardiaque annuel afin de rester sur la liste des greffés. Mais, il y a des> patients qui manquent i cardiac information.You fin
Comme vous pouvez le constater, la première ligne est correcte, mais la deuxième ligne est corrompue. Cela ressemble à ceci même lorsque je l'ouvre avec Vim ou LibreOffice. Y'a t'il un moyen d'arranger cela? J'ai essayé de changer l'encodage en UTF-8 mais en vain. Merci!
Réponses:
Il me semble que cela a peut-être commencé comme une sorte de texte standard avec des marqueurs de substitution et qu'il a été traité par un utilitaire dépourvu de codage défensif suffisant - une variante de cette bande dessinée xkcd . Par exemple, il peut avoir été généré à l'aide d'un processeur XSLT défectueux.
Si c'est ce que vous voyez en texte brut, vous ne pouvez probablement rien faire d'autre que de revenir à la source d'origine. Les fichiers de texte brut ne contiennent pas d'informations cachées supplémentaires. Un encodage incorrect peut poser des problèmes, mais si votre éditeur se charge en supposant un encodage octet par caractère et que cet encodage est incorrect, vous devriez toujours voir plus de contenu sous la forme de caractères parasites.
Il est fort probable qu'il existe un caractère de fin de fichier ou un caractère nul empêchant l'affichage de la fin du texte, mais aucun éditeur de texte à la moitié décent ne devrait être dupe de ces jours.
la source
N'oubliez pas de toujours travailler sur une copie de sauvegarde jusqu'à ce que cela fonctionne.
Vous pouvez essayer de charger le fichier texte dans vim tout en forçant une méthode de codage différente.
démarre vim (ou gvim, selon le cas)
vim connaît plusieurs types d’encodage, essayez-le à plusieurs reprises. À partir des fichiers d'aide:
Les valeurs d'encodage prises en charge sont les suivantes:
latin1, iso-8859-n, cp437, cp737, cp775, cp850, cp852, cp855, cp857, cp860, cp861, cp862, cp865, cp866, cp866, cp865, cp865, cp865, cp867 16, utf-16le, ucs-4, ucs-4le
Ma question sur le fichier texte brut est de déterminer s’il comporte une nomenclature au début ( Byte Order Mark ), ce qui nous donnerait un indice sur ce qu’il pense en être.
la source