condition du filtre dplyr pour distinguer le symbole unicode de sa représentation unicode

10

J'essaie de filtrer la colonne Symbole selon qu'elle est de la forme \uxxxx

C'est facile visuellement, qui est, certains ressemblent $, ¢, £, et d' autres comme \u058f, \u060b, \u07fe.

Mais je n'arrive pas à le comprendre en utilisant stringi/dplyr

library(dplyr)
library(stringi)

df <- structure(list(Character = c("\\u0024", "\\u00A2", "\\u00A3", 
                             "\\u00A4", "\\u00A5", "\\u058F", "\\u060B", "\\u07FE", "\\u07FF", 
                             "\\u09F2", "\\u09F3", "\\u09FB", "\\u0AF1", "\\u0BF9", "\\u0E3F", 
                             "\\u17DB", "\\u20A0", "\\u20A1", "\\u20A2", "\\u20A3"), 
                     Symbol = c("$", "¢", "£", "¤", "¥", "\u058f", "\u060b", "\u07fe", "\u07ff", 
                                "৲", "৳", "\u09fb", "\u0af1", "\u0bf9", "฿", "៛", "₠", 
                                "₡", "₢", "₣")), row.names = c(NA, 20L), class = "data.frame")

   Character Symbol
1    \\u0024      $
2    \\u00A2      ¢
3    \\u00A3      £
4    \\u00A4      ¤
5    \\u00A5      ¥
6    \\u058F \u058f
7    \\u060B \u060b
8    \\u07FE \u07fe
9    \\u07FF \u07ff
10   \\u09F2      ৲
11   \\u09F3      ৳
12   \\u09FB \u09fb
13   \\u0AF1 \u0af1
14   \\u0BF9 \u0bf9
15   \\u0E3F      ฿
16   \\u17DB      ៛
17   \\u20A0      ₠
18   \\u20A1      ₡
19   \\u20A2      ₢
20   \\u20A3      ₣

Ce que j'ai essayé

J'ai essayé d'utiliser des variations ncharmais je n'ai pas eu de chance


df$Symbol %>% nchar
# [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

df$Symbol %>% stri_unescape_unicode %>% nchar
# [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

df$Symbol %>% stri_escape_unicode %>% nchar
# [1] 1 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6

Question

Comment puis - je filtrer sur la colonne Symbole pour toutes les lignes de la forme $, ¢, £etc (et inversement pour les lignes aiment \u058f, \u060b, \u07fe)?

stevec
la source
Avez-vous essayé d'utiliser Regex dans ce cas?
vpz
@vpz Je n'ai pas, non. J'ai pensé qu'il y aurait une façon plus formelle de le faire, mais j'utiliserai volontiers l'expression régulière si cela fonctionne de manière fiable!
stevec
La représentation des caractères a-t-elle un motif pour les symboles?
vpz
@vpz la seule information est ce qui est contenu dans la Symbolcolonne (je pense que cela devrait être suffisant, mais je ne peux pas savoir comment distinguer - ce qui est intéressant car il est si facile à voir pour les yeux humains)
stevec
1
Vous pouvez utiliser utf8::utf8_valid()mais cela peut ne pas faire la distinction entre unicode valide existant et unicode qui est valide mais non attribué. Pouvez-vous développer un peu ce que vous essayez finalement de réaliser?
H 1

Réponses:

7

Éditer:

La fonction glyphs_match()du gdtoolspackage est conçue pour cela, cependant, son utilisation n'a pas tout à fait renvoyé le résultat attendu. J'utilise Lucida Consolecomme police et j'obtiens la sortie suivante lors de l'utilisation glyphs_match(). Il semble y avoir un glyphe qui n'est pas rendu mais pour lequel la fonction revient TRUE. Peut-être que d'autres utilisateurs peuvent expliquer pourquoi c'est le cas.

df$glyph_match <- gdtools::glyphs_match(df$Symbol, fontfile = "C:\\WINDOWS\\Fonts\\lucon.TTF")
    df

   Character   Symbol glyph_match
1    \\u0024        $        TRUE
2    \\u00A2        ¢        TRUE
3    \\u00A3        £        TRUE
4    \\u00A4        ¤        TRUE
5    \\u00A5        ¥        TRUE
6    \\u058F <U+058F>       FALSE
7    \\u060B <U+060B>       FALSE
8    \\u07FE <U+07FE>       FALSE
9    \\u07FF <U+07FF>       FALSE
10   \\u09F2 <U+09F2>       FALSE
11   \\u09F3 <U+09F3>       FALSE
12   \\u09FB <U+09FB>       FALSE
13   \\u0AF1 <U+0AF1>       FALSE
14   \\u0BF9 <U+0BF9>       FALSE
15   \\u0E3F <U+0E3F>       FALSE
16   \\u17DB <U+17DB>       FALSE
17   \\u20A0 <U+20A0>       FALSE
18   \\u20A1        ¢        TRUE
19   \\u20A2 <U+20A2>       FALSE
20   \\u20A3 <U+20A3>        TRUE

Réponse antérieure - ne peut fonctionner que sous Windows:

Il y aura des variations en fonction de votre police / système, par exemple, lors de l'exécution de votre code, ma sortie ne correspond pas à ce que vous avez fourni:

df <- structure(list(Character = c("\\u0024", "\\u00A2", "\\u00A3", 
                             "\\u00A4", "\\u00A5", "\\u058F", "\\u060B", "\\u07FE", "\\u07FF", 
                             "\\u09F2", "\\u09F3", "\\u09FB", "\\u0AF1", "\\u0BF9", "\\u0E3F", 
                             "\\u17DB", "\\u20A0", "\\u20A1", "\\u20A2", "\\u20A3"), 
                     Symbol = c("$", "¢", "£", "¤", "¥", "\u058f", "\u060b", "\u07fe", "\u07ff", 
                                "৲", "৳", "\u09fb", "\u0af1", "\u0bf9", "฿", "៛", "₠", 
                                "₡", "₢", "₣")), row.names = c(NA, 20L), class = "data.frame")

df
   Character   Symbol
1    \\u0024        $
2    \\u00A2        ¢
3    \\u00A3        £
4    \\u00A4        ¤
5    \\u00A5        ¥
6    \\u058F <U+058F>
7    \\u060B <U+060B>
8    \\u07FE <U+07FE>
9    \\u07FF <U+07FF>
10   \\u09F2 <U+09F2>
11   \\u09F3 <U+09F3>
12   \\u09FB <U+09FB>
13   \\u0AF1 <U+0AF1>
14   \\u0BF9 <U+0BF9>
15   \\u0E3F <U+0E3F>
16   \\u17DB <U+17DB>
17   \\u20A0 <U+20A0>
18   \\u20A1        ¢
19   \\u20A2 <U+20A2>
20   \\u20A3 <U+20A3>

Mais une façon grossière de capturer si le glyphe existe est:

 nchar(capture.output(cat(df$Symbol, sep = "\n"))) == 1

[1]  TRUE  TRUE  TRUE  TRUE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[18]  TRUE FALSE FALSE

Ainsi, les glyphes peuvent être filtrés par:

library(dplyr)

df %>%
  filter(nchar(capture.output(cat(Symbol, sep = "\n"))) == 1)

  Character Symbol
1   \\u0024      $
2   \\u00A2      ¢
3   \\u00A3      £
4   \\u00A4      ¤
5   \\u00A5      ¥
6   \\u20A1      ¢
H 1
la source
2

Utilisez as.character.POSIXtpour «restituer» les symboles et ajouter des espaces. Les caractères Unicode sous la forme "\ uxxxx" seront imprimés comme un seul caractère et tous les autres seront plus grands; alors vous pouvez filtrer selon la longueur:

# To keep 'single char' symbols e.g. "$":
df %>% filter(nchar(as.character.POSIXt(Symbol)) >= 2)

# Or for 'unicode format' symbols e.g. "\u07fe":
df %>% filter(nchar(as.character.POSIXt(Symbol)) == 1)

Si vous avez une longue chaîne comme 'symbole' (par exemple "aaaaaaaaaa ₣") le remplissage sera augmenté et devra être pris en compte par exemple

# To keep 'single char' symbols e.g. "$":
df %>% filter(nchar(as.character.POSIXt(Symbol)) >= 11)

# Or for 'unicode format' symbols e.g. "\u07fe":
df %>% filter(nchar(as.character.POSIXt(Symbol)) <= 10)
jared_mamrot
la source