У меня есть проблема, когда данные сортируются по дате, например что-то вроде этого:

date,       value,      min
2015-08-17,    3,        nan
2015-08-18,    2,        nan
2015-08-19,    4,        nan
2015-08-28,    1,        nan
2015-08-29,    5,        nan

Теперь я хочу сохранить значения min в столбце min до этой строки, поэтому результат будет выглядеть примерно так:

date,       value,      min
2015-08-17,    3,        3
2015-08-18,    2,        2
2015-08-19,    4,        2
2015-08-28,    1,        1
2015-08-29,    5,        1

Я попробовал некоторые варианты, но все еще не понимаю, что я делаю неправильно, вот один пример, который я попробовал:

data['min'] = min(data['value'], data['min'].shift())

Я не хочу перебирать все строки, потому что у меня большие данные. Какую лучшую стратегию вы можете написать, используя панд для решения подобных проблем?

3
poppytop 24 Апр 2017 в 14:40

2 ответа

Лучший ответ

Поскольку вы упомянули, что работаете с большим набором данных, уделяя особое внимание производительности, вот один из них, использующий np.minimum.accumulate -

df['min'] = np.minimum.accumulate(df.value)

Пробный прогон -

In [70]: df
Out[70]: 
         date  value  min
0  2015-08-17      3  NaN
1  2015-08-18      2  NaN
2  2015-08-19      4  NaN
3  2015-08-28      1  NaN
4  2015-08-29      5  NaN

In [71]: df['min'] = np.minimum.accumulate(df.value)

In [72]: df
Out[72]: 
         date  value  min
0  2015-08-17      3    3
1  2015-08-18      2    2
2  2015-08-19      4    2
3  2015-08-28      1    1
4  2015-08-29      5    1

Тест выполнения -

In [65]: df = pd.DataFrame(np.random.randint(0,100,(1000000)), columns=list(['value']))

# @MaxU's soln using pandas cummin
In [66]: %timeit df['min'] = df.value.cummin()
100 loops, best of 3: 6.84 ms per loop

In [67]: df = pd.DataFrame(np.random.randint(0,100,(1000000)), columns=list(['value']))

# Using NumPy
In [68]: %timeit df['min'] = np.minimum.accumulate(df.value)
100 loops, best of 3: 3.97 ms per loop
4
Divakar 24 Апр 2017 в 11:52

Используйте cummin () метод:

In [53]: df['min'] = df.value.cummin()

In [54]: df
Out[54]:
         date  value  min
0  2015-08-17      3    3
1  2015-08-18      2    2
2  2015-08-19      4    2
3  2015-08-28      1    1
4  2015-08-29      5    1
5
MaxU 24 Апр 2017 в 11:41