Toutes les données de caractères dans SQL Server sont associées à un classement, qui détermine le domaine des caractères pouvant être stockés ainsi que les règles utilisées pour comparer et trier les données. Le classement s'applique aux données Unicode et non-Unicode.
SQL Server comprend 3 grandes catégories de classements: binaire, hérité et Windows. Les classements dans la catégorie binaire ( _BIN
suffixe) utilisent les points de code sous-jacents pour comparer, de sorte que les comparaisons d'égalité retournent différentes si les points de code diffèrent quel que soit le caractère. Les SQL_
classements hérités ( préfixe) et Windows fournissent une sémantique de tri et de comparaison pour les règles de dictionnaire les plus naturelles. Cela permet aux comparaisons de considérer la casse, les accents, la largeur et Kana. Les classements Windows fournissent des word-sort
règles plus robustes qui s'alignent étroitement avec le système d'exploitation Windows tandis que les classements hérités ne prennent en compte que des caractères uniques.
L'exemple ci-dessous illustre les différences entre Windows et le classement binaire avec le caractère Teth:
CREATE TABLE dbo.WindowsColationExample
(
Character1 nchar(1) COLLATE Arabic_100_CI_AS_SC
, Character2 nchar(1) COLLATE Arabic_100_CI_AS_SC
, Character3 nchar(1) COLLATE Arabic_100_CI_AS_SC
, Character4 nchar(1) COLLATE Arabic_100_CI_AS_SC
);
CREATE TABLE dbo.BinaryColationExample
(
Character1 nchar(1) COLLATE Arabic_100_BIN
, Character2 nchar(1) COLLATE Arabic_100_BIN
, Character3 nchar(1) COLLATE Arabic_100_BIN
, Character4 nchar(1) COLLATE Arabic_100_BIN
);
INSERT INTO dbo.BinaryColationExample
VALUES ( NCHAR(65217), NCHAR(65218), NCHAR(65219), NCHAR(65220) );
INSERT INTO dbo.WindowsColationExample
VALUES ( NCHAR(65217), NCHAR(65218), NCHAR(65219), NCHAR(65220) );
--all characters compare not equal
SELECT *
FROM dbo.BinaryColationExample
WHERE
character1 = character2
OR character1 = character3
OR character1 = character4
OR character2 = character3
OR character2 = character4
OR character3 = character4;
--all characters compare equal
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character2;
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character3;
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character4;
SELECT *
FROM dbo.WindowsColationExample
WHERE character2 = character3;
SELECT *
FROM dbo.WindowsColationExample
WHERE character2 = character4;
SELECT *
FROM dbo.WindowsColationExample
WHERE character3 = character4;
Les raisons pour lesquelles Unicode peut contenir différents points de code pour des glyphes identiques sont décrites dans http://en.wikipedia.org/wiki/Duplicate_characters_in_Unicode . Je résume, cela peut être pour la compatibilité héritée ou les caractères ne sont pas équivalents canoniquement. Notez que le caractère Teth ﻁ
est utilisé dans différentes langues ( http://en.wikipedia.org/wiki/Teth ).