Мой пример кода выглядит следующим образом:

import pandas as pd


dictx = {'col1':[1,'nan','nan','nan',5,'nan',7,'nan',9,'nan','nan','nan',13],\
    'col2':[20,'nan','nan','nan',22,'nan',25,'nan',30,'nan','nan','nan',25],\
    'col3':[15,'nan','nan','nan',10,'nan',14,'nan',13,'nan','nan','nan',9]}
df = pd.DataFrame(dictx).astype(float)

Я пытаюсь интерполировать различные сегменты, которые содержат значение «nan».
Для контекста, я пытаюсь отследить скорость шины, используя данные GPS, предоставленные городом (Сан-Паулу, Бразилия), но данные скудны и с частями, которые не предоставляют информацию, например, но есть сегменты, которые Я точно знаю, что они остановлены, например, на рассвете, но информация также представлена как «нан».

Что мне нужно:
Я экспериментировал с параметрами dataframe.interpolate() (limit и limit_diretcion), но потерпел неудачу. Если я установлю df.interpolate(limit=2), я буду не только интерполировать данные, которые мне нужны, но и данные там, где это не нужно. Так что мне нужно интерполировать между разделами, определенными лимитом

Пожеланная выходная мощность:

Out[7]: 
    col1   col2   col3
0    1.0  20.00  15.00
1    nan  nan    nan
2    nan  nan    nan
3    nan  nan    nan
4    5.0  22.00  10.00
5    6.0  23.50  12.00
6    7.0  25.00  14.00
7    8.0  27.50  13.50
8    9.0  30.00  13.00
9    nan  nan    nan
10   nan  nan    nan
11   nan  nan    nan
12   13.0 25.00  9.00

Логика, которую я пытался применить, - это в основном попытка найти nan и вычислить разницу между их индексами и создать новый dataframe_temp для интерполяции и только затем добавить его к другому, создав новый dataframe_final. Но этого стало трудно достичь из-за того, что 'nan'=='nan' return False

4
Gabriel_Koch 22 Фев 2018 в 19:59

3 ответа

Лучший ответ

Это взлом, но все еще может быть полезным. Вероятно, у Pandas 0.23 будет лучшее решение.

https://pandas-docs.github.io/pandas-docs-travis/whatsnew.html#dataframe-interpolate-has-gained-the-limit-area-kwarg

df_fw = df.interpolate(limit=1)
df_bk = df.interpolate(limit=1, limit_direction='backward')

df_fw.where(df_bk.notna())

    col1  col2  col3
0    1.0  20.0  15.0
1    NaN   NaN   NaN
2    NaN   NaN   NaN
3    NaN   NaN   NaN
4    5.0  22.0  10.0
5    6.0  23.5  12.0
6    7.0  25.0  14.0
7    8.0  27.5  13.5
8    9.0  30.0  13.0
9    NaN   NaN   NaN
10   NaN   NaN   NaN
11   NaN   NaN   NaN
12  13.0  25.0   9.0

Не взломай
Более законный способ справиться с этим.
Обобщается для обработки любого ограничения.

def interp(df, limit):
    d = df.notna().rolling(limit + 1).agg(any).fillna(1)
    d = pd.concat({
        i: d.shift(-i).fillna(1)
        for i in range(limit + 1)
    }).prod(level=1)

    return df.interpolate(limit=limit).where(d.astype(bool))

df.pipe(interp, 1)

    col1  col2  col3
0    1.0  20.0  15.0
1    NaN   NaN   NaN
2    NaN   NaN   NaN
3    NaN   NaN   NaN
4    5.0  22.0  10.0
5    6.0  23.5  12.0
6    7.0  25.0  14.0
7    8.0  27.5  13.5
8    9.0  30.0  13.0
9    NaN   NaN   NaN
10   NaN   NaN   NaN
11   NaN   NaN   NaN
12  13.0  25.0   9.0

Может также обрабатывать изменения в NaN от столбца к столбцу. Рассмотрим другой df

dictx = {'col1':[1,'nan','nan','nan',5,'nan','nan',7,'nan',9,'nan','nan','nan',13],\
    'col2':[20,'nan','nan','nan',22,'nan',25,'nan','nan',30,'nan','nan','nan',25],\
    'col3':[15,'nan','nan','nan',10,'nan',14,'nan',13,'nan','nan','nan',9,'nan']}
df = pd.DataFrame(dictx).astype(float)
df

    col1  col2  col3
0    1.0  20.0  15.0
1    NaN   NaN   NaN
2    NaN   NaN   NaN
3    NaN   NaN   NaN
4    5.0  22.0  10.0
5    NaN   NaN   NaN
6    NaN  25.0  14.0
7    7.0   NaN   NaN
8    NaN   NaN  13.0
9    9.0  30.0   NaN
10   NaN   NaN   NaN
11   NaN   NaN   NaN
12   NaN   NaN   9.0
13  13.0  25.0   NaN

Затем с limit=1

df.pipe(interp, 1)

    col1  col2  col3
0    1.0  20.0  15.0
1    NaN   NaN   NaN
2    NaN   NaN   NaN
3    NaN   NaN   NaN
4    5.0  22.0  10.0
5    NaN  23.5  12.0
6    NaN  25.0  14.0
7    7.0   NaN  13.5
8    8.0   NaN  13.0
9    9.0  30.0   NaN
10   NaN   NaN   NaN
11   NaN   NaN   NaN
12   NaN   NaN   9.0
13  13.0  25.0   9.0

И с limit=2

df.pipe(interp, 2).round(2)

     col1   col2  col3
0    1.00  20.00  15.0
1     NaN    NaN   NaN
2     NaN    NaN   NaN
3     NaN    NaN   NaN
4    5.00  22.00  10.0
5    5.67  23.50  12.0
6    6.33  25.00  14.0
7    7.00  26.67  13.5
8    8.00  28.33  13.0
9    9.00  30.00   NaN
10    NaN    NaN   NaN
11    NaN    NaN   NaN
12    NaN    NaN   9.0
13  13.00  25.00   9.0
1
piRSquared 22 Фев 2018 в 22:27

Вот способ выборочно игнорировать строки, которые являются последовательными сериями NaN, длина которых превышает определенный размер (заданный limit):

import numpy as np
import pandas as pd

dictx = {'col1':[1,'nan','nan','nan',5,'nan',7,'nan',9,'nan','nan','nan',13],\
    'col2':[20,'nan','nan','nan',22,'nan',25,'nan',30,'nan','nan','nan',25],\
    'col3':[15,'nan','nan','nan',10,'nan',14,'nan',13,'nan','nan','nan',9]}
df = pd.DataFrame(dictx).astype(float)

limit = 2
notnull = pd.notnull(df).all(axis=1)
# assign group numbers to the rows of df. Each group starts with a non-null row,
# followed by null rows
group = notnull.cumsum()
# find the index of groups having length > limit
ignore = (df.groupby(group).filter(lambda grp: len(grp)>limit)).index
# only ignore rows which are null
ignore = df.loc[~notnull].index.intersection(ignore)
keep = df.index.difference(ignore)
# interpolate only the kept rows
df.loc[keep] = df.loc[keep].interpolate()

print(df)

Печать

    col1  col2  col3
0    1.0  20.0  15.0
1    NaN   NaN   NaN
2    NaN   NaN   NaN
3    NaN   NaN   NaN
4    5.0  22.0  10.0
5    6.0  23.5  12.0
6    7.0  25.0  14.0
7    8.0  27.5  13.5
8    9.0  30.0  13.0
9    NaN   NaN   NaN
10   NaN   NaN   NaN
11   NaN   NaN   NaN
12  13.0  25.0   9.0

Изменяя значение limit, вы можете контролировать размер группы, прежде чем ее следует игнорировать.

1
unutbu 22 Фев 2018 в 21:40

Это частичный ответ.

for i in list(df):

     for x in range(len(df[i])):

         if not df[i][x]  > -100:

                   df[i][x] = 0

df

col1    col2    col3
0   1.0     20.0    15.0
1   0.0     0.0     0.0
2   0.0     0.0     0.0
3   0.0     0.0     0.0
4   5.0     22.0    10.0
5   0.0     0.0     0.0
6   7.0     25.0    14.0
7   0.0     0.0     0.0
8   9.0     30.0    13.0
9   0.0     0.0     0.0
10  0.0     0.0     0.0
11  0.0     0.0     0.0
12  13.0    25.0    9.0

В настоящее время,

df["col1"][1] == df["col2"][1]
True
0
MichaelRSF 22 Фев 2018 в 18:24