Учитывая следующие данные:

import pandas as pd
import io

df = pd.read_csv(
    io.StringIO(
        "bit,val\nbit_0,40.9\nbit_1,49.6\nbit_2,50.5\nbit_3,37.7\nbit_4,52.0\nbit_5,55.1\nbit_6,40.6\nbit_7,37.8\nbit_8,39.2\nbit_9,51.1\nbit_10,48.4\nbit_11,49.8\nbit_12,51.7\nbit_13,46.7\nbit_14,40.8\nbit_15,41.1\nbit_16,36.7\nbit_17,50.8\nbit_18,41.6\nbit_19,41.3\n"
    )
)

df = df.sample(len(df), random_state=1).reset_index(drop=True)

Что выглядит так:

       bit   val
0    bit_3  37.7
1   bit_16  36.7
2    bit_6  40.6
3   bit_10  48.4
4    bit_2  50.5
5   bit_14  40.8
6    bit_4  52.0
7   bit_17  50.8
8    bit_7  37.8
9    bit_1  49.6
10  bit_13  46.7
11   bit_0  40.9
12  bit_19  41.3
13  bit_18  41.6
14   bit_9  51.1
15  bit_15  41.1
16   bit_8  39.2
17  bit_12  51.7
18  bit_11  49.8
19   bit_5  55.1

Я хотел бы отсортировать данные по столбцу bit на основе конечной цифры.

Если бы это был стандартный список Python, то работало бы следующее:

sorted(df["bit"].to_list(), key=lambda x: int(x.split("_")[-1]))

Я не уверен, как применить это к фреймворку данных.

1
baxx 8 Ноя 2020 в 20:42

5 ответов

Лучший ответ

Используйте df.sort_values и .str.split("_",expand=True) и приведите к int с .astype(int) следующим образом:

df.sort_values('bit',key=lambda x: x.str.split("_",expand=True)[1].astype(int))

Выход:

       bit   val
11   bit_0  40.9
9    bit_1  49.6
4    bit_2  50.5
0    bit_3  37.7
6    bit_4  52.0
19   bit_5  55.1
2    bit_6  40.6
8    bit_7  37.8
16   bit_8  39.2
14   bit_9  51.1
3   bit_10  48.4
18  bit_11  49.8
17  bit_12  51.7
10  bit_13  46.7
5   bit_14  40.8
15  bit_15  41.1
1   bit_16  36.7
7   bit_17  50.8
13  bit_18  41.6
12  bit_19  41.3

Если вам нужно сбросить индекс, просто добавьте .reset_index(drop=True):

df.sort_values('bit',key=lambda x: x.str.split("_",expand=True)[1].astype(int)).reset_index(drop=True)

Выход:

       bit   val
0    bit_0  40.9
1    bit_1  49.6
2    bit_2  50.5
3    bit_3  37.7
4    bit_4  52.0
5    bit_5  55.1
6    bit_6  40.6
7    bit_7  37.8
8    bit_8  39.2
9    bit_9  51.1
10  bit_10  48.4
11  bit_11  49.8
12  bit_12  51.7
13  bit_13  46.7
14  bit_14  40.8
15  bit_15  41.1
16  bit_16  36.7
17  bit_17  50.8
18  bit_18  41.6
19  bit_19  41.3
1
Wasif Hasan 8 Ноя 2020 в 17:56

Попробуйте с natsort

from natsort import index_natsorted
df = df.iloc[index_natsorted(df.bit)]
df
Out[195]: 
       bit   val
11   bit_0  40.9
9    bit_1  49.6
4    bit_2  50.5
0    bit_3  37.7
6    bit_4  52.0
19   bit_5  55.1
2    bit_6  40.6
8    bit_7  37.8
16   bit_8  39.2
14   bit_9  51.1
3   bit_10  48.4
18  bit_11  49.8
17  bit_12  51.7
10  bit_13  46.7
5   bit_14  40.8
15  bit_15  41.1
1   bit_16  36.7
7   bit_17  50.8
13  bit_18  41.6
12  bit_19  41.3
2
BEN_YO 8 Ноя 2020 в 17:50

Вы можете использовать str.extract с помощью Series.argsort и df.loc:

In [1038]: ix = df.bit.str.extract('(\d+)', expand=False).astype(int).argsort().tolist()

In [1039]: df.loc[ix]
Out[1039]: 
       bit   val
11   bit_0  40.9
9    bit_1  49.6
4    bit_2  50.5
0    bit_3  37.7
6    bit_4  52.0
19   bit_5  55.1
2    bit_6  40.6
8    bit_7  37.8
16   bit_8  39.2
14   bit_9  51.1
3   bit_10  48.4
18  bit_11  49.8
17  bit_12  51.7
10  bit_13  46.7
5   bit_14  40.8
15  bit_15  41.1
1   bit_16  36.7
7   bit_17  50.8
13  bit_18  41.6
12  bit_19  41.3
0
Mayank Porwal 8 Ноя 2020 в 18:02

Один из эффективных методов - создать серию, отсортированную по вашему желанию, а затем передать этот индекс в фрейм данных:

# create series of bit integers, sort them
bit_vals = df.bit.str.split("_", expand=True).loc[:, 1].astype(int)
sort_series = bit_vals.sort_values()    

# pass back to dataframe
df = df.iloc[sort_series.index]

Результат:

       bit   val
11   bit_0  40.9
9    bit_1  49.6
4    bit_2  50.5
0    bit_3  37.7
6    bit_4  52.0
19   bit_5  55.1
2    bit_6  40.6
8    bit_7  37.8
16   bit_8  39.2
14   bit_9  51.1
3   bit_10  48.4
18  bit_11  49.8
17  bit_12  51.7
10  bit_13  46.7
5   bit_14  40.8
15  bit_15  41.1
1   bit_16  36.7
7   bit_17  50.8
13  bit_18  41.6
12  bit_19  41.3

Вы можете сбросить индекс фрейма данных по желанию

0
anon01 8 Ноя 2020 в 17:49

С pandas> = 1.1.0 вы можете использовать key точно так же, как в sorted.
В своем решении я сортирую по битовому столбцу, но для сортировки выбрасываю bit_:

df.sort_values(
    by='bit', 
    key=lambda x: x.str.replace('bit_', '').astype(int),
)

    bit     val
11  bit_0   40.9
9   bit_1   49.6
4   bit_2   50.5
0   bit_3   37.7
6   bit_4   52.0

Документы на .sort_values():
https://pandas.pydata.org/ pandas-docs / stable / reference / api / pandas.DataFrame.sort_values.html.

1
Sander van den Oord 8 Ноя 2020 в 18:34