Я пытаюсь отфильтровать набор данных, удалив переменную, но только когда выполняются условия для подмножества данных. Вот игрушечный пример.

Используя mtcars, я хотел бы фильтровать по cyl. Я пока не знаю, какое условие нужно отфильтровать, но я знаю условия получения значений в cyl. Например, я хочу снять любую машину с x цилиндрами. Я еще не знаю, что такое x. Я ДЕЙСТВИТЕЛЬНО знаю, что x - это те цилиндры, которые удовлетворяют условию mpg <17 & disp <300. Оказалось, что единственное значение cyl при этом условии - «8». Следовательно, конечный результат - фильтрация всего фрейма данных на cyl != 8. Я предполагаю, что решение будет выглядеть примерно так, но это не сработало:

library(tidyverse)
mtcars %>% 
  as_tibble(rownames = "cars") %>% 
  filter(cyl %in% unique(mpg < 17 & disp < 300))

Желаемый результат - mtcars без каких-либо 8-цилиндровых автомобилей.

1
hmhensen 28 Мар 2020 в 02:20

2 ответа

Лучший ответ

Мы используем логическое условие для подстановки 'cyl', а затем переносим unique на него и используем условие %in%

library(dplyr)
mtcars %>%
   as_tibble(rownames = "cars") %>%
   filter(!cyl %in% unique(cyl[mpg < 17 & disp < 300]))
# A tibble: 18 x 12
#   cars             mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
#   <chr>          <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
# 1 Mazda RX4       21       6 160     110  3.9   2.62  16.5     0     1     4     4
# 2 Mazda RX4 Wag   21       6 160     110  3.9   2.88  17.0     0     1     4     4
# 3 Datsun 710      22.8     4 108      93  3.85  2.32  18.6     1     1     4     1
# 4 Hornet 4 Drive  21.4     6 258     110  3.08  3.22  19.4     1     0     3     1
# 5 Valiant         18.1     6 225     105  2.76  3.46  20.2     1     0     3     1
# 6 Merc 240D       24.4     4 147.     62  3.69  3.19  20       1     0     4     2
# 7 Merc 230        22.8     4 141.     95  3.92  3.15  22.9     1     0     4     2
# 8 Merc 280        19.2     6 168.    123  3.92  3.44  18.3     1     0     4     4
# 9 Merc 280C       17.8     6 168.    123  3.92  3.44  18.9     1     0     4     4
#10 Fiat 128        32.4     4  78.7    66  4.08  2.2   19.5     1     1     4     1
#11 Honda Civic     30.4     4  75.7    52  4.93  1.62  18.5     1     1     4     2
#12 Toyota Corolla  33.9     4  71.1    65  4.22  1.84  19.9     1     1     4     1
#13 Toyota Corona   21.5     4 120.     97  3.7   2.46  20.0     1     0     3     1
#14 Fiat X1-9       27.3     4  79      66  4.08  1.94  18.9     1     1     4     1
#15 Porsche 914-2   26       4 120.     91  4.43  2.14  16.7     0     1     5     2
#16 Lotus Europa    30.4     4  95.1   113  3.77  1.51  16.9     1     1     5     2
#17 Ferrari Dino    19.7     6 145     175  3.62  2.77  15.5     0     1     5     6
#18 Volvo 142E      21.4     4 121     109  4.11  2.78  18.6     1     1     4     2
1
akrun 27 Мар 2020 в 23:29

Мы можем использовать anti_join.

Это дает значения cyl, которые мы хотим исключить.

mtcars %>% filter(mpg < 17 & disp < 300)

#   mpg cyl  disp  hp drat   wt qsec vs am gear carb
#1 16.4   8 275.8 180 3.07 4.07 17.4  0  0    3    3
#2 15.2   8 275.8 180 3.07 3.78 18.0  0  0    3    3

Теперь мы используем ant_join с исходным набором данных cyl, чтобы получить

anti_join(mtcars, mtcars %>% filter(mpg < 17 & disp < 300), by = 'cyl')


#    mpg cyl  disp  hp drat    wt  qsec vs am gear carb
#1  21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
#2  21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
#3  22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
#4  21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
#5  18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
#6  24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
#7  22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
#8  19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4
#9  17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4
#10 32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
#11 30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
#12 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
#13 21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
#14 27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
#15 26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
#16 30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
#17 19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
#18 21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2
0
Ronak Shah 28 Мар 2020 в 08:03