filtre pour les cas complets dans data.frame en utilisant dplyr (suppression par casse)

Question 1

Est-il possible de filtrer un data.frame pour des cas complets en utilisant dplyr? complete.casesavec une liste de toutes les variables fonctionne, bien sûr. Mais c'est a) verbeux quand il y a beaucoup de variables et b) impossible quand les noms des variables ne sont pas connus (par exemple dans une fonction qui traite n'importe quel data.frame).

library(dplyr)
df = data.frame(
    x1 = c(1,2,3,NA),
    x2 = c(1,2,NA,5)
)

df %.%
  filter(complete.cases(x1,x2))

Question 2

Essaye ça:

df %>% na.omit

ou ca:

df %>% filter(complete.cases(.))

ou ca:

library(tidyr)
df %>% drop_na

Si vous souhaitez filtrer en fonction de l'absence d'une variable, utilisez une condition:

df %>% filter(!is.na(x1))

ou

df %>% drop_na(x1)

D'autres réponses indiquent que des solutions ci na.omit- dessus est beaucoup plus lente, mais cela doit être mis en balance avec le fait qu'elle renvoie les indices de ligne des lignes omises dans l' na.actionattribut alors que les autres solutions ci-dessus ne le font pas.

str(df %>% na.omit)
## 'data.frame':   2 obs. of  2 variables:
##  $ x1: num  1 2
##  $ x2: num  1 2
##  - attr(*, "na.action")= 'omit' Named int  3 4
##    ..- attr(*, "names")= chr  "3" "4"

AJOUTÉ Ont mis à jour pour refléter la dernière version de dplyr et des commentaires.

AJOUTÉ Ont mis à jour pour refléter la dernière version de tidyr et des commentaires.

Question 3

Cela fonctionne pour moi:

df %>%
  filter(complete.cases(df))

Ou un peu plus général:

library(dplyr) # 0.4
df %>% filter(complete.cases(.))

Cela aurait l'avantage que les données auraient pu être modifiées dans la chaîne avant de les transmettre au filtre.

Un autre benchmark avec plus de colonnes:

set.seed(123)
x <- sample(1e5,1e5*26, replace = TRUE)
x[sample(seq_along(x), 1e3)] <- NA
df <- as.data.frame(matrix(x, ncol = 26))
library(microbenchmark)
microbenchmark(
  na.omit = {df %>% na.omit},
  filter.anonymous = {df %>% (function(x) filter(x, complete.cases(x)))},
  rowSums = {df %>% filter(rowSums(is.na(.)) == 0L)},
  filter = {df %>% filter(complete.cases(.))},
  times = 20L,
  unit = "relative")

#Unit: relative
#             expr       min        lq    median         uq       max neval
 #         na.omit 12.252048 11.248707 11.327005 11.0623422 12.823233    20
 #filter.anonymous  1.149305  1.022891  1.013779  0.9948659  4.668691    20
 #         rowSums  2.281002  2.377807  2.420615  2.3467519  5.223077    20
 #          filter  1.000000  1.000000  1.000000  1.0000000  1.000000    20

Question 4

Voici quelques résultats de référence pour la réponse de Grothendieck. na.omit () prend 20 fois plus de temps que les deux autres solutions. Je pense que ce serait bien si dplyr avait une fonction pour cela peut-être dans le cadre du filtre.

library('rbenchmark')
library('dplyr')

n = 5e6
n.na = 100000
df = data.frame(
    x1 = sample(1:10, n, replace=TRUE),
    x2 = sample(1:10, n, replace=TRUE)
)
df$x1[sample(1:n, n.na)] = NA
df$x2[sample(1:n, n.na)] = NA


benchmark(
    df %>% filter(complete.cases(x1,x2)),
    df %>% na.omit(),
    df %>% (function(x) filter(x, complete.cases(x)))()
    , replications=50)

#                                                  test replications elapsed relative
# 3 df %.% (function(x) filter(x, complete.cases(x)))()           50   5.422    1.000
# 1               df %.% filter(complete.cases(x1, x2))           50   6.262    1.155
# 2                                    df %.% na.omit()           50 109.618   20.217

Question 5

Il s'agit d'une fonction courte qui vous permet de spécifier des colonnes (essentiellement tout ce qui dplyr::selectpeut comprendre) qui ne devraient pas avoir de valeurs NA (modelées d'après pandas df.dropna () ):

drop_na <- function(data, ...){
    if (missing(...)){
        f = complete.cases(data)
    } else {
        f <- complete.cases(select_(data, .dots = lazyeval::lazy_dots(...)))
    }
    filter(data, f)
}

[ drop_na fait maintenant partie de tidyr : ce qui précède peut être remplacé par library("tidyr")]

Exemples:

library("dplyr")
df <- data.frame(a=c(1,2,3,4,NA), b=c(NA,1,2,3,4), ac=c(1,2,NA,3,4))
df %>% drop_na(a,b)
df %>% drop_na(starts_with("a"))
df %>% drop_na() # drops all rows with NAs

Question 6

essaye ça

df[complete.cases(df),] #output to console

OU même ça

df.complete <- df[complete.cases(df),] #assign to a new data.frame

Les commandes ci-dessus se chargent de vérifier l'exhaustivité de toutes les colonnes (variables) de votre data.frame.

Question 7

Juste pour être complet, dplyr::filterpeut être complètement évité mais toujours capable de composer des chaînes simplement en utilisant magrittr:extract(un alias de [):

library(magrittr)
df = data.frame(
  x1 = c(1,2,3,NA),
  x2 = c(1,2,NA,5))

df %>%
  extract(complete.cases(.), )

Le bonus supplémentaire est la vitesse, c'est la méthode la plus rapide parmi les variantes filteret na.omit(testée avec les microbenchmarks @Miha Trošt).

Answer 1

98

Est-il possible de filtrer un data.frame pour des cas complets en utilisant dplyr? complete.casesavec une liste de toutes les variables fonctionne, bien sûr. Mais c'est a) verbeux quand il y a beaucoup de variables et b) impossible quand les noms des variables ne sont pas connus (par exemple dans une fonction qui traite n'importe quel data.frame).

library(dplyr)
df = data.frame(
    x1 = c(1,2,3,NA),
    x2 = c(1,2,NA,5)
)

df %.%
  filter(complete.cases(x1,x2))

r dplyr magrittr user2503795
la source

4

complete.casesn'accepte pas seulement les vecteurs. Cela prend également des trames de données entières.

joran

Mais cela ne fonctionne pas dans le cadre de dplyrla fonction de filtre de. Je suppose que je n'ai pas été assez clair et j'ai mis à jour ma question.

user2503795

1

Cela aiderait si vous pouviez démontrer exactement comment cela ne fonctionne pas avec dplyr, mais quand je l'essaye avec un filtre, cela fonctionne très bien.

joran

Answer 2

4

complete.casesn'accepte pas seulement les vecteurs. Cela prend également des trames de données entières.

joran

Answer 3

Mais cela ne fonctionne pas dans le cadre de dplyrla fonction de filtre de. Je suppose que je n'ai pas été assez clair et j'ai mis à jour ma question.

user2503795

Answer 4

1

Cela aiderait si vous pouviez démontrer exactement comment cela ne fonctionne pas avec dplyr, mais quand je l'essaye avec un filtre, cela fonctionne très bien.

joran

Answer 5

186

Essaye ça:

df %>% na.omit

ou ca:

df %>% filter(complete.cases(.))

ou ca:

library(tidyr)
df %>% drop_na

Si vous souhaitez filtrer en fonction de l'absence d'une variable, utilisez une condition:

df %>% filter(!is.na(x1))

ou

df %>% drop_na(x1)

D'autres réponses indiquent que des solutions ci na.omit- dessus est beaucoup plus lente, mais cela doit être mis en balance avec le fait qu'elle renvoie les indices de ligne des lignes omises dans l' na.actionattribut alors que les autres solutions ci-dessus ne le font pas.

str(df %>% na.omit)
## 'data.frame':   2 obs. of  2 variables:
##  $ x1: num  1 2
##  $ x2: num  1 2
##  - attr(*, "na.action")= 'omit' Named int  3 4
##    ..- attr(*, "names")= chr  "3" "4"

AJOUTÉ Ont mis à jour pour refléter la dernière version de dplyr et des commentaires.

AJOUTÉ Ont mis à jour pour refléter la dernière version de tidyr et des commentaires.

G. Grothendieck
la source

Je viens de revenir pour répondre et j'ai vu votre réponse utile!

infominer

1

Merci! J'ai ajouté quelques résultats de référence. na.omit()fonctionne assez mal mais celui-là est rapide.

user2503795

1

Cela fonctionne maintenant aussi bien: df %>% filter(complete.cases(.)). Je ne sais pas si les changements récents de dplyr ont rendu cela possible.

user2503795

Comme @ points de jan-katins out, la fonction Tidyverse est appelée drop_na, de sorte que vous pouvez faire: df %>% drop_na().

cbrnr

Answer 6

Je viens de revenir pour répondre et j'ai vu votre réponse utile!

infominer

Answer 7

1

Merci! J'ai ajouté quelques résultats de référence. na.omit()fonctionne assez mal mais celui-là est rapide.

user2503795

Answer 8

1

Cela fonctionne maintenant aussi bien: df %>% filter(complete.cases(.)). Je ne sais pas si les changements récents de dplyr ont rendu cela possible.

user2503795

Answer 9

Comme @ points de jan-katins out, la fonction Tidyverse est appelée drop_na, de sorte que vous pouvez faire: df %>% drop_na().

cbrnr

Answer 10

26

Cela fonctionne pour moi:

df %>%
  filter(complete.cases(df))

Ou un peu plus général:

library(dplyr) # 0.4
df %>% filter(complete.cases(.))

Cela aurait l'avantage que les données auraient pu être modifiées dans la chaîne avant de les transmettre au filtre.

Un autre benchmark avec plus de colonnes:

set.seed(123)
x <- sample(1e5,1e5*26, replace = TRUE)
x[sample(seq_along(x), 1e3)] <- NA
df <- as.data.frame(matrix(x, ncol = 26))
library(microbenchmark)
microbenchmark(
  na.omit = {df %>% na.omit},
  filter.anonymous = {df %>% (function(x) filter(x, complete.cases(x)))},
  rowSums = {df %>% filter(rowSums(is.na(.)) == 0L)},
  filter = {df %>% filter(complete.cases(.))},
  times = 20L,
  unit = "relative")

#Unit: relative
#             expr       min        lq    median         uq       max neval
 #         na.omit 12.252048 11.248707 11.327005 11.0623422 12.823233    20
 #filter.anonymous  1.149305  1.022891  1.013779  0.9948659  4.668691    20
 #         rowSums  2.281002  2.377807  2.420615  2.3467519  5.223077    20
 #          filter  1.000000  1.000000  1.000000  1.0000000  1.000000    20

Miha Trošt
la source

1

J'ai mis à jour votre réponse avec "." dans les cas complets et le benchmark ajouté - j'espère que cela ne vous dérange pas :-)

talat

:) Je ne. Je vous remercie.

Miha Trošt

1

J'ai trouvé df %>% slice(which(complete.cases(.)))exécuté ~ 20% plus rapide que l'approche par filtre dans le benchmark ci-dessus.

talat

Il convient de noter que si vous utilisez ce filtre dans un tube de dplyr avec d' autres commandes de dplyr (tels que group_by ()), vous devrez ajouter , %>% data.frame() %>%car il ne fonctionnera pas sur avant d'essayer et filtre sur complete.cases (.) tibbles ou groupes ou quelque chose. Ou du moins, c'est l'expérience que j'ai vécue.

C. Denney

Answer 11

1

J'ai mis à jour votre réponse avec "." dans les cas complets et le benchmark ajouté - j'espère que cela ne vous dérange pas :-)

talat

Answer 12

:) Je ne. Je vous remercie.

Miha Trošt

Answer 13

1

J'ai trouvé df %>% slice(which(complete.cases(.)))exécuté ~ 20% plus rapide que l'approche par filtre dans le benchmark ci-dessus.

talat

Answer 14

Il convient de noter que si vous utilisez ce filtre dans un tube de dplyr avec d' autres commandes de dplyr (tels que group_by ()), vous devrez ajouter , %>% data.frame() %>%car il ne fonctionnera pas sur avant d'essayer et filtre sur complete.cases (.) tibbles ou groupes ou quelque chose. Ou du moins, c'est l'expérience que j'ai vécue.

C. Denney

Answer 15

Voici quelques résultats de référence pour la réponse de Grothendieck. na.omit () prend 20 fois plus de temps que les deux autres solutions. Je pense que ce serait bien si dplyr avait une fonction pour cela peut-être dans le cadre du filtre.

library('rbenchmark')
library('dplyr')

n = 5e6
n.na = 100000
df = data.frame(
    x1 = sample(1:10, n, replace=TRUE),
    x2 = sample(1:10, n, replace=TRUE)
)
df$x1[sample(1:n, n.na)] = NA
df$x2[sample(1:n, n.na)] = NA


benchmark(
    df %>% filter(complete.cases(x1,x2)),
    df %>% na.omit(),
    df %>% (function(x) filter(x, complete.cases(x)))()
    , replications=50)

#                                                  test replications elapsed relative
# 3 df %.% (function(x) filter(x, complete.cases(x)))()           50   5.422    1.000
# 1               df %.% filter(complete.cases(x1, x2))           50   6.262    1.155
# 2                                    df %.% na.omit()           50 109.618   20.217

Answer 16

12

Il s'agit d'une fonction courte qui vous permet de spécifier des colonnes (essentiellement tout ce qui dplyr::selectpeut comprendre) qui ne devraient pas avoir de valeurs NA (modelées d'après pandas df.dropna () ):

drop_na <- function(data, ...){
    if (missing(...)){
        f = complete.cases(data)
    } else {
        f <- complete.cases(select_(data, .dots = lazyeval::lazy_dots(...)))
    }
    filter(data, f)
}

[ drop_na fait maintenant partie de tidyr : ce qui précède peut être remplacé par library("tidyr")]

Exemples:

library("dplyr")
df <- data.frame(a=c(1,2,3,4,NA), b=c(NA,1,2,3,4), ac=c(1,2,NA,3,4))
df %>% drop_na(a,b)
df %>% drop_na(starts_with("a"))
df %>% drop_na() # drops all rows with NAs

Jan Katins
la source

Ne serait-il pas encore plus utile de pouvoir ajouter un seuil tel que 0,5 et de le traiter par colonnes? Cas: éliminer les variables avec 50% et plus de données manquantes. Exemple: data [, -which (colMeans (is.na (data))> 0.5)] Ce serait bien de pouvoir le faire avec tidyr.

Monduiz

@Monduiz Cela signifierait que l'ajout de plus de données (où une variable a alors beaucoup de NA) pourrait échouer à l'étape suivante du pipeline car une variable nécessaire est maintenant manquante ...

Jan Katins

Oui, cela a du sens.

Monduiz

Answer 17

Ne serait-il pas encore plus utile de pouvoir ajouter un seuil tel que 0,5 et de le traiter par colonnes? Cas: éliminer les variables avec 50% et plus de données manquantes. Exemple: data [, -which (colMeans (is.na (data))> 0.5)] Ce serait bien de pouvoir le faire avec tidyr.

Monduiz

Answer 18

@Monduiz Cela signifierait que l'ajout de plus de données (où une variable a alors beaucoup de NA) pourrait échouer à l'étape suivante du pipeline car une variable nécessaire est maintenant manquante ...

Jan Katins

Answer 19

Oui, cela a du sens.

Monduiz

Answer 20

6

essaye ça

df[complete.cases(df),] #output to console

OU même ça

df.complete <- df[complete.cases(df),] #assign to a new data.frame

Les commandes ci-dessus se chargent de vérifier l'exhaustivité de toutes les colonnes (variables) de votre data.frame.

infominer
la source

Merci. Je suppose que je n'étais pas assez clair (question mise à jour). Je connais complete.cases (df) mais j'aimerais le faire avec dplyrdans le cadre de la fonction de filtre. Cela permettrait une intégration soignée dans les chaînes dplyr, etc.

user2503795

Vérifiez la réponse de @ G.Grothendieck

infominer

Dans dplyr:::do.data.framela déclaration env$. <- .dataajoute un point à l'environnement. Aucune déclaration de ce type dans magrittr :: "%>%" `

G. Grothendieck

Désolé doit avoir entré le commentaire au mauvais endroit.

G. Grothendieck

Answer 21

Merci. Je suppose que je n'étais pas assez clair (question mise à jour). Je connais complete.cases (df) mais j'aimerais le faire avec dplyrdans le cadre de la fonction de filtre. Cela permettrait une intégration soignée dans les chaînes dplyr, etc.

user2503795

Answer 22

Vérifiez la réponse de @ G.Grothendieck

infominer

Answer 23

Dans dplyr:::do.data.framela déclaration env$. <- .dataajoute un point à l'environnement. Aucune déclaration de ce type dans magrittr :: "%>%" `

G. Grothendieck

Answer 24

Désolé doit avoir entré le commentaire au mauvais endroit.

G. Grothendieck

Answer 25

3

Juste pour être complet, dplyr::filterpeut être complètement évité mais toujours capable de composer des chaînes simplement en utilisant magrittr:extract(un alias de [):

library(magrittr)
df = data.frame(
  x1 = c(1,2,3,NA),
  x2 = c(1,2,NA,5))

df %>%
  extract(complete.cases(.), )

Le bonus supplémentaire est la vitesse, c'est la méthode la plus rapide parmi les variantes filteret na.omit(testée avec les microbenchmarks @Miha Trošt).

mbask
la source

Quand je fais le benchmark avec les données de Miha Trošt, je trouve que l'utilisation extract()est presque dix fois plus lente que filter(). Cependant, lorsque je crée un bloc de données plus petit avec df <- df[1:100, 1:10], l'image change et extract()est la plus rapide.

Stibu

Vous avez raison. Il semble que ce magrittr::extractsoit le moyen le plus rapide uniquement lorsque le n <= 5e3benchmark Miha Trošt.

mbask

Answer 26

Quand je fais le benchmark avec les données de Miha Trošt, je trouve que l'utilisation extract()est presque dix fois plus lente que filter(). Cependant, lorsque je crée un bloc de données plus petit avec df <- df[1:100, 1:10], l'image change et extract()est la plus rapide.

Stibu

Answer 27

Vous avez raison. Il semble que ce magrittr::extractsoit le moyen le plus rapide uniquement lorsque le n <= 5e3benchmark Miha Trošt.

mbask

filtre pour les cas complets dans data.frame en utilisant dplyr (suppression par casse)

Réponses: