У меня есть набор данных с «Спортсменами», играющими «Матчи» («Матч» == 1) в случайные «Даты». Например:

df <- data.frame(matrix(nrow = 80, ncol = 5))
colnames(df) <- c("Athlete", "Date", "Match", "DaysAfter", "DaysBefore")
df[,"Athlete"] <- c(rep(1, 20), rep(2,20), rep(3, 20), rep(4, 20))
df[,"Date"] <- rep(1:20, 4)
df[,"Match"] <- c(0,0,0,0,1,0,0,1,0,0)

Я хочу сделать две переменные:

df$DaysAfter <- # number of days after last "Match" (for each "Athlete").
df$DaysBefore <- # number of days before next "Match" (for each "Athlete").

PS! Когда «Match» == 1, тогда «DaysAfter» и «DaysBefore» должны быть 0. Если нет совпадений до «DaysAfter» и после «DaysBefore», покажите NA (см. Пример).

Я хочу, чтобы набор данных выглядел так:

Ath Dat Mat DA  DB
1   1   0   NA  -4
1   2   0   NA  -3
1   3   0   NA  -2
1   4   0   NA  -1
1   5   1   0   0
1   6   0   1   -2
1   7   0   2   -1
1   8   1   0   0
1   9   0   1   -4
1   10  0   2   -3
1   11  0   3   -2
1   12  0   4   -1
1   13  1   0   0
1   14  0   1   -2
1   15  0   2   -1
1   16  1   0   0
1   17  0   1   NA
1   18  0   2   NA
1   19  0   3   NA
1   20  0   4   NA
2   1   0   NA  -4
2   2   0   NA  -3
etc.

Как я могу этого добиться?

r
1
havard 27 Май 2016 в 13:56

3 ответа

Лучший ответ

Мы можем использовать data.table. Преобразуйте data.frame в data.table (setDT(df)), сгруппированный по «Athlete» и другой группирующей переменной, созданной на основе позиции 1 в «Match» (cumsum(Match == 1)), мы создать два столбца -

1) DA - поскольку нам нужно NA для всех элементов до первой 1 в 'Match', создайте логическое условие с if/else так, чтобы all элементы, которые равны 0 в 'Match 'будет умножено на' NA '(NA * любое число возвращает NA). Как и при группировке по cumsum, только в первой группе все элементы равны 0, так что эта часть решена. Условие else получает последовательность строк и вычитает из нее 1 (`.seq_len (.N) -1).

2) DB - мы умножаем "Match" на количество строк (.N) и вычитаем из обратной последовательности (.N:1). Как только мы это сделаем, последняя часть включает создание NA для элементов в столбце после последней 1 в «Match». Сгруппированные по «Спортсмену», мы получаем индекс строки (.I) последовательности от последней 1 в «Соответствии» (следующий элемент) до количества строк (.N) и присваиваем ({ {X4}}) "DB" в NA на основе этого индекса.

library(data.table)
df1 <- setDT(df)[, c("DA", "DB") := list(if(all(!Match)) NA*Match else 
   seq_len(.N)-1,Match*(.N) -(.N:1)) , by = .(cumsum(Match==1), Athlete)]
df1[df1[,  .I[(max(which(Match==1))+1):.N] , by = Athlete]$V1,  DB:= NA][]
#    Athlete Date Match DA DB
# 1:       1    1     0 NA -4
# 2:       1    2     0 NA -3
# 3:       1    3     0 NA -2
# 4:       1    4     0 NA -1
# 5:       1    5     1  0  0
# 6:       1    6     0  1 -2
# 7:       1    7     0  2 -1
# 8:       1    8     1  0  0
# 9:       1    9     0  1 -6
#10:       1   10     0  2 -5
#11:       1   11     0  3 -4
#12:       1   12     0  4 -3
#13:       1   13     0  5 -2
#14:       1   14     0  6 -1
#15:       1   15     1  0  0
#16:       1   16     0  1 -2
#17:       1   17     0  2 -1
#18:       1   18     1  0  0
#19:       1   19     0  1 NA
#20:       1   20     0  2 NA
#21:       2    1     0 NA -4
#22:       2    2     0 NA -3
#23:       2    3     0 NA -2
#24:       2    4     0 NA -1
#25:       2    5     1  0  0
#26:       2    6     0  1 -2
#27:       2    7     0  2 -1
#28:       2    8     1  0  0
#29:       2    9     0  1 -6
#30:       2   10     0  2 -5
#31:       2   11     0  3 -4
#32:       2   12     0  4 -3
#33:       2   13     0  5 -2
#34:       2   14     0  6 -1
#35:       2   15     1  0  0
#36:       2   16     0  1 -2
#37:       2   17     0  2 -1
#38:       2   18     1  0  0
#39:       2   19     0  1 NA
#40:       2   20     0  2 NA
#41:       3    1     0 NA -4
#42:       3    2     0 NA -3
#43:       3    3     0 NA -2
#44:       3    4     0 NA -1
#45:       3    5     1  0  0
#46:       3    6     0  1 -2
#47:       3    7     0  2 -1
#48:       3    8     1  0  0
#49:       3    9     0  1 -6
#50:       3   10     0  2 -5
#51:       3   11     0  3 -4
#52:       3   12     0  4 -3
#53:       3   13     0  5 -2
#54:       3   14     0  6 -1
#55:       3   15     1  0  0
#56:       3   16     0  1 -2
#57:       3   17     0  2 -1
#58:       3   18     1  0  0
#59:       3   19     0  1 NA
#60:       3   20     0  2 NA
#61:       4    1     0 NA -4
#62:       4    2     0 NA -3
#63:       4    3     0 NA -2
#64:       4    4     0 NA -1
#65:       4    5     1  0  0
#66:       4    6     0  1 -2
#67:       4    7     0  2 -1
#68:       4    8     1  0  0
#69:       4    9     0  1 -6
#70:       4   10     0  2 -5
#71:       4   11     0  3 -4
#72:       4   12     0  4 -3
#73:       4   13     0  5 -2
#74:       4   14     0  6 -1
#75:       4   15     1  0  0
#76:       4   16     0  1 -2
#77:       4   17     0  2 -1
#78:       4   18     1  0  0
#79:       4   19     0  1 NA
#80:       4   20     0  2 NA
2
akrun 27 Май 2016 в 12:33

Однажды я написал такую ​​функцию:

cumsum.r <- function (vals, restart) 
{
    if (!is.vector(vals) || !is.vector(restart)) 
        stop("expect vectors")
    if (length(vals) != length(restart)) 
        stop("different length")
    len = length(vals)
    restart[1] = T
    ind = which(restart)
    ind = rep(ind, c(ind[-1], len + 1) - ind)
    vals.c = cumsum(vals)
    vals.c - vals.c[ind] + vals[ind]
}

Он выполняет накопление, но начинается с нуля, если перезапуск = ИСТИНА.

Для «дней после» вам нужно

new.ath <- c(TRUE, df$Ath[-1]==df$Ath[-length(df$Ath)])
restart <- df$Math==1 |  new.ath
days.after <- cumsum.r(1-restart, restart)

В течение дней. до того, как вам понадобится

rr <- rev(restart)
days.before <- -rev(cumsum.r(1-rr, rr))

(Это не ставит НА, но вы также можете использовать этот cumsum.r для НА.)

0
user31264 27 Май 2016 в 11:39

Этот код должен работать:

   unique_list<-(unique(df$Athlete))
for(k in (1:length(unique_list))){
index<-c(1:dim(df)[1])[df$Athlete==unique_list[k]]
count=NA
for(j in index){
  if(df$Mat[j]==1){
       count=0
      }else{
  count=count+1
  }
  df$DaysAfter[j]=count
  }
  count=NA
  for(j in index[c(length(index):1)]){
  if(df$Mat[j]==1){
       count=0
      }else{
  count=count-1
  }
  df$DaysBefore[j]=count
  }

}
1
Otto_K 27 Май 2016 в 12:02