Pandas - это библиотека Python для обработки и анализа данных, например, кадры данных, многомерные временные ряды и наборы данных поперечного сечения, обычно встречающиеся в статистике, результатах экспериментальной науки, эконометрике или финансах. Pandas - одна из основных библиотек данных в Python.

Подробнее про pandas...

У меня есть 2-мерный фрейм данных pandas, который имеет в качестве индекса значения «1, 2, 'NaN', 'NaN', 'NaN', 'NaN'» и данные [10, 20, 30, 40, 50, 60 ]. Теперь я хотел бы построить массив numpy с размерностью (3,2). В первой записи первого измерения массива должны быть назначены первые два знач....
26 Ноя 2021 в 12:07
Я пытаюсь рассчитать бонусную плату, выплачиваемую нашему курьеру, на основе их Success Rate, которая основана на количестве Eligible заказов, которые они успешно доставили. Вот мой код: from openpyxl import load_workbook import pandas as pd df = pd.read_excel(r'path\filename.xlsx') df['Delivered....
26 Ноя 2021 в 12:03
import pandas as pd import numpy as np data_A=pd.read_csv('D:/data_A.csv') data_A имеет столбец с именем power. Столбец power имеет только 0 и 1, а dtype - int64. Я хочу убедиться, что в столбце power только 0 и 1. Итак, если в столбце power есть другие числа, кроме 0 и 1, я хочу сделать значен....
26 Ноя 2021 в 11:57
Я пытаюсь найти что-то похожее на скользящее среднее, но исключающее предыдущий набор значений. Ниже снимок листа Excel показывает среднее значение с окном 2. снимок Я пробовал использовать команду прокрутки и расширения в пандах, но они включают предыдущее значение. Есть ли другие методы, которые ....
26 Ноя 2021 в 11:53
У меня есть это: Wochentag Mo 1083 Di 913 Mi 1125 Do 1797 Fr 2129 Name: Besucher, dtype: int64 Я просто хочу выбрать «Ди», потому что 913 - это наименьшее число. Поэтому я попробовал: df.loc[df.min()] - but I always get an error ....
26 Ноя 2021 в 11:38
Учитывая следующие примерные данные: import pandas as pd import numpy as np np.random.seed(2021) dates = pd.date_range('20130226', periods=90) df = pd.DataFrame(np.random.uniform(0, 10, size=(90, 4)), index=dates, columns=['A_values', 'B_values', 'C_values', 'target']) df Вне: ....
26 Ноя 2021 в 10:22
В базе данных у меня есть данные, которые выглядят так (просто фрагмент): itemId userId action likeorDislike timestamp i1 u1 rate 0 2021-06-09 10:43:57.827 UTC i1 u1 rate 1 2021-06-10 10:43:57.827 UTC i1 ....
26 Ноя 2021 в 10:19
У меня есть список данных list=[df1,df2,df3,df4,...df10], которые построены следующим образом: >df1 col1 col2 col3 col4 Y 2 XX PP У меня есть еще один фрейм данных DATA_SEL , такой что >DATA_SEL col1 col2 col3 col4 A KK C D A1 PP C D .................
26 Ноя 2021 в 10:10
У меня есть диапазон дат в столбце даты фрейма данных. Даты разбросаны, например, 1 февраля, 5 февраля, 11 февраля и т. Д. Я хочу использовать pd.date_range с частотой одна минута в каждую дату в этом столбце. Таким образом, моим начальным аргументом будет дата, а конечным аргументом будет date + ....
26 Ноя 2021 в 09:14
У меня есть данные, как показано на прилагаемом изображении. Я хочу, чтобы следующее значение было таким же или равным текущему значению + 1, тогда я помещу их в ту же группу. Группа должна быть разной для разных клиентов. Например: (dd-mm-yyyy) Customer A1 1/1/2020 - Group A Customer A1 1/1/202....
26 Ноя 2021 в 07:41
Предположим, у меня есть фрейм данных df1 = pd.DataFrame({'parent id': [0,0,2,2,2,2,2,2,3,3,4,4,4], 'id' : [1,2,3,4,11,12,13,16,14,15,41,42,43]}) Я хочу использовать эти данные для создания дерева, а затем представить дерево в виде словаря следующим образом: tree = {0: [1, {2: ....
26 Ноя 2021 в 02:45
У меня есть фрейм данных, для которого я предсказал result с помощью XGBoost (все необходимые импорты сделаны, и я больше не буду их писать): studentId testId result Length Words picture s1 t1 0 10 8.50 0 s1 ....
26 Ноя 2021 в 01:47
У меня есть кадр данных панд, как: Id a b c d x 1 1 1 01/01/2021 x 1 1 0 01/05/2021 y 1 1 1 02/01/2021 y 1 1 1 02/01/2021 Id a b c d x 2 1 1 01/01/2021 y 1 1 1 02/01/2021 Я хочу суммировать значения столбцов a b и c для одного и того же идентификатора тогда и только тогда, когда дата в сто....
26 Ноя 2021 в 01:43
У меня есть dataframe со столбцом, который имеет 2 значения: хорошее и плохое. Я хочу знать, есть ли способ их поменять местами. Например, если значение хорошее, его следует изменить на плохое или наоборот. Есть ли способ поменять местами значения? Изменить: я хочу поменять местами значения для оп....
26 Ноя 2021 в 00:49
У меня данные структурированы, как показано ниже. Я хочу создать сгруппированные диаграммы для каждого человека и отображать только сгруппированные метки x. Однако в моей попытке он повторяет групповую метку для каждого человека: import pandas as pd import matplotlib.pyplot as plt import numpy as ....
25 Ноя 2021 в 20:59
Моя цель - удалить все строки, содержащие слово Drop в столбце Drop. Столбец имеет следующие свойства: df.dtypes['Drop']: dtype('O') type(df['Drop']): pandas.core.series.Series Я пытался: indexNames = df[df['Drop'] == 'Drop'].index df.drop(indexNames, inplace=True) df.drop(df['Drop'] == 'Drop', axi....
25 Ноя 2021 в 20:43
Предположим, файл .csv выглядит следующим образом: title: это имя столбца а [senior innovation manager] - первая строка. Примечание: обе строки (заголовок и строка) выглядят точно так, как здесь написано. title [senior innovation manager] Идея состоит в том, чтобы преобразовать это строковое пр....
25 Ноя 2021 в 20:05
У меня есть таблица данных стоимости продукта на каждой временной отметке (интервал 1 мин). Я хотел бы создать третий столбец, который возвращает значение через 2 мин. Могу я узнать, как это сделать? Спасибо dateTime value 0 2021-06-01 00:00:00 37253.82000000 1 ....
25 Ноя 2021 в 18:53
Сейчас я предварительно обрабатываю свои данные в R, а затем импортирую их в python, но было бы удобнее, если бы я мог делать все на python. Кто-нибудь знает, как преобразовать следующий код в Python? aggregate(mrna[,c(2:178)],by=list(mrna$GeneSymbol), FUN=function(x) x=max(x)) Благодарность! Изме....
25 Ноя 2021 в 16:35
У меня 2 dfs, df_1: col_1 col_2 index_1 index_2 abc a_1 10 20 a_2 15 15 c_2 48 74 def a_1 10 15 b_2 1 1 ....
25 Ноя 2021 в 16:30
Я пытаюсь присвоить значение столбцу на основе фильтра дня и времени. Допустим, я создаю фрейм данных: import pandas as pd from datetime import date date_range = pd.DataFrame({'date': pd.date_range(date(2019,8,30), date.today(), freq='15T')}) date_range.index = date_range['date'] Затем я могу отф....
25 Ноя 2021 в 15:50
Итак, у меня есть фреймворк с двумя столбцами (цена, местоположение). Теперь я хочу получить медианное значение цены, если местоположение, например, "Париж". Как мне этого добиться? Dataframe : location price paris 5 paris 2 rome 5 paris 4 ... Желаемый ....
25 Ноя 2021 в 15:32
С помощью: import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(0,3,(100000,5000))) df = df.loc[:, (df != 0).any(axis=0)] Избавиться от столбцов, содержащих только нули, слишком медленно для очень большого (1000000x2000) фрейма данных. Есть предложения, как это ускорить? Бла....
25 Ноя 2021 в 15:04
У меня есть начальное и конечное значение, и есть n пропущенных значений. Логика для заполнения пропущенного значения - найти среднее между начальным и конечным значением. Псевдокод: start_index = 0 end_index = len(l) while l[mid] = (l[start_index]+l[end_index])/2 update start_index and en....
25 Ноя 2021 в 12:13
Я пытаюсь разработать способ поместить nan в столбцы, которые не существуют между двумя начальными / конечными значениями в другом столбце для каждой строки. Скажем, у меня есть следующий фрейм данных: df = pd.DataFrame({'39' : [1, np.nan, 3], '40' : [2, 4, 5], ....
25 Ноя 2021 в 12:09