Je voudrais simplement lier un article de wikipedia ici car la plage de blocs serait mise à jour de temps en temps, il est donc préférable de lier quelque chose de ratger qui change dynamiquement et donne une réponse statique ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067
Réponses:
104
Vous trouverez peut-être une liste complète dans la FAQ Unicode CJK (qui inclut les caractères "chinois, japonais et coréen")
Vous pouvez également inclure U + AC00 - U + D7AF (syllabes Hangul).
Flimm
12
@Flimm: Hangul ne fait pas partie de la norme chinoise; Hangul est coréen. Coréen fait usage Hanja ( « script chinois »), mais à peine et seulement pour certaines choses traditionnelles (comme la dernière noms, monuments, lieux ...) qui ne peuvent être transcrites dans Hangul. Le PO a posé des questions sur le chinois spécifiquement, il n'était donc pas nécessaire que le répondant inclue le Hangul. :-)
omninonsense
1
La liste ne semble pas couvrir la ponctuation ("。").
J'ai appris que l'extension A d'idéographes unifiés CJK est de 3400 à 4dbf plutôt que de 3400 à 4dff.
Lerner Zhang
48
Unicode compte actuellement 74605 caractères CJK. Les caractères CJK incluent non seulement les caractères utilisés par les chinois, mais également les Kanji japonais, les Hanja coréens et les Chu Nom vietnamiens . Certains caractères CJK ne sont pas des caractères chinois.
Salut, pouvez-vous donner un exemple d'idéogramme CJK (de préférence à partir du plan de base) qui n'est pas un caractère chinois? Je pensais que des caractères d'autres langues (japonais, coréen) qui ne sont pas aussi des caractères chinois apparaissent dans un autre bloc (par exemple le bloc Hangul Jamo, dans le cas du coréen) ...
Adam Burley
Essayez de regarder «Gukja», «Kokuji» et «Chữ Nôm». U + 4E44, 乄, est un caractère CJK uniquement japonais.
Ṃųỻịgǻňạcểơửṩ
21
Les plages exactes pour les caractères chinois (à l'exception des extensions) sont [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].
CJK Radicals Supplement est un bloc Unicode contenant des formes alternatives, souvent positionnelles, des radicaux Kangxi. Ils sont utilisés comme en-têtes dans les index de dictionnaires et dans d'autres collections d'idéographes CJC organisées par coup radical.
Kanbun est un bloc Unicode contenant des caractères d'annotation utilisés dans les copies japonaises de textes chinois classiques, pour indiquer l'ordre de lecture.
CJK Compatibility Ideographs est un bloc Unicode créé pour contenir des caractères Han qui ont été encodés à plusieurs endroits dans d'autres encodages de caractères établis, en plus de leurs affectations d'idéographes unifiés CJK, afin de conserver la compatibilité aller-retour entre Unicode et ces encodages.
Pour les détails, veuillez vous référer ici , et les extensions sont fournies dans d'autres réponses.
Celui qui a décliné cette réponse pourrait-il m'en dire la raison?
Lerner Zhang
2
Je n'ai pas voté contre, mais qu'en est-il des extensions B, C, D et E?
Suragch
@Suragch Ces extensions ont été fournies correctement dans d'autres réponses, il n'est donc pas nécessaire que je les réécrive. Je n'ai clairement séparé que les plages entre les deux.
Lerner Zhang
1. gamme de supplément de radicaux CJK est 2E80—2EFF 2. Les radicaux Kangxi ne sont pas des caractères chinois, c'est un composant graphique d'un caractère chinois, ils sont utilisés spécialement pour exprimer des radicaux, .eg ⼻ (U + 2F3B) et 彳 (U + 5F73) ), ⻜ (U + 2EDC) et 飞 (U + 98DE) 3. Si vous pensez que les kanbun sont des caractères chinois, pourquoi pas des idéogrammes de compatibilité CJK? Pourquoi ne pas joindre les lettres et les mois CJK?
Voyager
@rambler Merci pour vos conseils. Je pense que lorsque nous traitons le personnage de Chinses, nous devrions considérer Kangxi Radicals et Kanbun. Les idéogrammes de compatibilité CJK sont bons, mais les lettres et les mois CJK joints sont trop rares et je ne pense pas que nous devrions les considérer.
Lerner Zhang
9
Unicode version 11.0.0
En Unicode, les scripts chinois, japonais et coréen (CJK) partagent un arrière-plan commun, collectivement appelés caractères CJK.
Ces plages contiennent souvent des points de code non affectés ou réservés (tels que U + 2E9A , U + 2EF4 - 2EFF),
Caractères chinois
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
Dans le bloc CJK Unified Ideographs , je remarque que de nombreuses réponses utilisent la borne supérieure 9FCC, mais U + 9FCD (鿍) est en effet un caractère chinois. Et tous les caractères de ce bloc sont des caractères chinois (également utilisés en japonais ou en coréen, etc.).
La plupart des caractères dans CJK Unified Ideograohs Ext (sauf Ext F, seuls 17% dans Ext F sont des caractères chinois), sont des caractères chinois traditionnels, qui sont rarement utilisés en Chine.
〇 est le caractère chinois de zéro et toujours utilisé aujourd'hui
certains blocs tels que Hangul Compatibilité Jamo sont abandonnés faute de relation avec le chinois.
Les radicaux Kangxi ne sont pas des caractères chinois, c'est un composant graphique d'un caractère chinois, ils sont utilisés spécialement pour exprimer des radicaux, .eg ⼻ (U + 2F3B) et 彳 (U + 5F73), ⻜ (U + 2EDC) et 飞 (U + 98DE)
D'autres signes de ponctuation courants apparaissent en chinois
Il s'agit d'un large éventail, certaines ponctuations peut-être jamais utilisées, certaines ponctuations telles que celles qui ……”“sont tellement utilisées en chinois.
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
Il existe également de nombreux symboles liés au chinois, tels que Yijing Hexagram Symbols ou Kanbun , mais c'est quand même hors sujet. J'écris des caractères non chinois en CJK pour avoir une meilleure explication de ce que sont les caractères chinois. Et les plages ci-dessus couvrent déjà presque tous les caractères apparaissent dans l'écriture chinoise, à l'exception des mathématiques et d'autres notations spécialisées.
Les blocs de code Unicode que les autres réponses ont donnés couvrent certainement la plupart des caractères Unicode chinois, mais vérifiez également certains de ces autres blocs de code.
Réponses:
Vous trouverez peut-être une liste complète dans la FAQ Unicode CJK (qui inclut les caractères "chinois, japonais et coréen")
Le document " East Asian Script " mentionne:
Tableau 12-2. Blocs contenant des idéogrammes Han
Remarque: les plages de blocs peuvent évoluer au fil du temps: la dernière est dans les idéographes unifiés CJK .
Voir aussi Wikipedia:
la source
Unicode compte actuellement 74605 caractères CJK. Les caractères CJK incluent non seulement les caractères utilisés par les chinois, mais également les Kanji japonais, les Hanja coréens et les Chu Nom vietnamiens . Certains caractères CJK ne sont pas des caractères chinois.
1) 20941 caractères du bloc CJK Unified Ideographs .
Les points de code U + 4E00 à U + 9FCC.
2) 6582 caractères à partir du bloc A CJKUI Ext .
Les points de code U + 3400 à U + 4DB5 . Unicode 3.0 (1999).
3) 42711 caractères à partir du bloc CJKUI B Ext .
Points de code U + 20000 à U + 2A6D6. Unicode 3.1 (2001).
3) 4149 caractères à partir du bloc CJKUI Ext C .
Points de code U + 2A700 à U + 2B734 . Unicode 5.2 (2009).
4) 222 caractères à partir du bloc D CJKUI Ext .
Points de code U + 2B740 à U + 2B81D . Unicode 6.0 (2010).
5) Bloc CJKUI Ext E.
Bientôt disponible
Si ce qui précède ne suffit pas, jetez un œil aux problèmes connus . Amusez-vous =)
la source
Les plages exactes pour les caractères chinois (à l'exception des extensions) sont
[\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
.[\u2e80-\u2fd5]
[\u3190-\u319f]
[\u3400-\u4DBF]
[\u4E00-\u9FCC]
[\uF900-\uFAAD]
Pour les détails, veuillez vous référer ici , et les extensions sont fournies dans d'autres réponses.
la source
Unicode version 11.0.0
En Unicode, les scripts chinois, japonais et coréen (CJK) partagent un arrière-plan commun, collectivement appelés caractères CJK.
Ces plages contiennent souvent des points de code non affectés ou réservés (tels que U + 2E9A , U + 2EF4 - 2EFF),
Caractères chinois
Par conséquent, la gamme est
Caractères CJK mais jamais utilisés en chinois
Ce sont des Han communs utilisés uniquement pour la compatibilité.
Il est presque impossible de les voir apparaître dans aucun livre, article, écrit, etc. chinois.
tous les caractères ici ont un caractère chinois identique au glyphe. Tels que 金 (U + F90A) et 金 (U + 91D1), ils sont identiques dans Glyph.
Symboles liés à CJK
D'autres signes de ponctuation courants apparaissent en chinois
Il s'agit d'un large éventail, certaines ponctuations peut-être jamais utilisées, certaines ponctuations telles que celles qui
……”“
sont tellement utilisées en chinois.Il existe également de nombreux symboles liés au chinois, tels que Yijing Hexagram Symbols ou Kanbun , mais c'est quand même hors sujet. J'écris des caractères non chinois en CJK pour avoir une meilleure explication de ce que sont les caractères chinois. Et les plages ci-dessus couvrent déjà presque tous les caractères apparaissent dans l'écriture chinoise, à l'exception des mathématiques et d'autres notations spécialisées.
Supplémentaire
Symboles CJK et ponctuation
Formulaires demi-largeur et pleine largeur
Référer
la source
Les blocs de code Unicode que les autres réponses ont donnés couvrent certainement la plupart des caractères Unicode chinois, mais vérifiez également certains de ces autres blocs de code.
Voir ma discussion plus complète ici . Et ce site est pratique pour naviguer sur Unicode.
la source
Pour résumer, on dirait que ce sont eux:
la source