Pour la mise en page, nous avons notre célèbre texte "Lorem ipsum" pour tester à quoi il ressemble.
Ce que je recherche, c'est un ensemble de fichiers contenant du texte encodé avec plusieurs encodages différents que je peux utiliser dans mes tests JUnit pour tester certaines méthodes traitant de l'encodage de caractères lors de la lecture de fichiers texte.
Exemple:Avoir un ISO 8859-1
fichier de test encodé et un Windows-1252
fichier de test encodé. Le Windows-1252 doit déclencher les différences dans la région 80 16 - 9F 16 . En d'autres termes, il doit contenir au moins un caractère de cette région pour le distinguer de l'ISO 8859-1.
Peut-être que le meilleur ensemble de fichiers de test est celui où le fichier de test pour chaque encodage contient tous ses caractères une fois. Mais peut-être que je ne suis pas au courant de qc - nous aimons tous ce truc d'encodage, non? :-)
Existe-t-il un tel ensemble de fichiers de test pour les problèmes de codage de caractères?
la source
Réponses:
Que diriez-vous d'essayer d'utiliser les fichiers de la suite de tests ICU ? Je ne sais pas s'ils sont ce dont vous avez besoin pour votre test, mais ils semblent au moins avoir des fichiers de mappage de / vers UTF assez complets: Lien vers le référentiel pour les fichiers de test ICU
la source
L'article de Wikipedia sur les signes diacritiques est assez complet, malheureusement vous devez extraire ces caractères manuellement. Il peut également exister des mnémoniques pour chaque langue. Par exemple en polonais, nous utilisons:
qui contient les 9 signes diacritiques polonais dans une phrase correcte. Un autre indice de recherche utiles sont pangrams : phrases en utilisant toutes les lettres de l'alphabet au moins une fois :
La liste des pangrams contient un résumé exhaustif. Tout le monde tient à envelopper cela dans un simple:
public interface NationalCharacters { String spanish(); String russian(); //... }
bibliothèque?
la source
Je ne connais aucun document texte complet, mais si vous pouvez commencer par un simple aperçu de tous les jeux de caractères, il y a des fichiers disponibles sur le serveur ftp.unicode.org
Voici WINDOWS-1252 par exemple. La première colonne est la valeur du caractère hexadécimal et la seconde la valeur unicode.
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT
la source
Eh bien, j'avais utilisé un outil en ligne pour créer mes jeux de caractères de texte à partir de Lorem Ipsum. Je crois que cela peut vous aider. Je n'en ai pas un qui contient tous les différents jeux de caractères sur une seule page.
http://generator.lorem-ipsum.info /
la source