GROUP BY - это команда в стандарте реляционной базы данных SQL для свертывания группы строк, которые разделяют значения общего поля в одну строку. Агрегатные функции могут выполняться в других полях группы, таких как SUM () или AVG (), для объединения связанных данных в одно значение.

Подробнее про group-by...

У меня есть фрейм данных, который выглядит так: df <- data.frame(col1 = c(2,3,6,1,8,4,8,2,4,5,7,4,2,7),col2 = c(rep(1,4),rep(2,3),rep(3,4),rep(4,3))) Теперь мне нужен столбец rem_val, который начинается с начального значения 40, сгруппированного по столбцу col2, и вычитает предыдущую строку из col1...
27 Ноя 2022 в 06:32
У меня есть следующий кадр данных pandas df time animal 0 0 cat 1 0 dog 2 1 hedgehog 3 1 cat 4 1 cat Я бы хотел группировать по времени, подсчитывая, как часто животное находится в новой группе, например, 2x кошка за время 1...
26 Ноя 2022 в 15:53
Я пытаюсь создать оператор, который объединяет следующие три столбца: BusinessEntityID, AveQuota и PctComm. У меня проблемы с присоединением, я постоянно получаю синтаксическую ошибку рядом с присоединением. Пожалуйста помоги SELECT BusinessEntityID, AVG (SalesQuota) as AveQuota from [sales].[Sale...
25 Ноя 2022 в 20:59
У меня есть датафрейм: import pandas as pd data = [('s1', 's2'), ('s1', 's3'), ('s2', 's4'), ('s3', 's5'), ('s5', 's6')] df = pd.DataFrame(data, columns=['start', 'end']) +-----+---+ |start|end| +-----+---+ | s1| s2| | s1| s3| | s2| s4| | s3| s5| | s5| s6| +---...
25 Ноя 2022 в 19:59
Я в отчаянии от задачи анализа данных, которую я хотел бы выполнить на кадре данных в python. Итак, это кадр данных, который у меня есть: df = pd.DataFrame({"Person": ["P1", "P1","P1","P1","P1","P1","P1","P1","P1","P1", "P2", "P2","P2","P2","P2","P2","P2","P2","P2","P2"], "Activ...
25 Ноя 2022 в 19:01
Я пытаюсь написать функцию, которая будет заполнять столбцы в фрейме данных в соответствии с условием. Заполнение должно производиться только внутри групп. Однако мне трудно заставить групповой объект разгруппироваться. Я попробовал reset_index, как в примере ниже, но получил AttributeError. Дост...
25 Ноя 2022 в 16:05
У меня есть кадр данных с повторяющимися значениями в столбце «Пакет» и истинными/ложными значениями в столбце «Обнаружение присутствия». Для повторяющегося значения в столбце «Упаковать», если в соответствующих строках столбца «Обнаружение присутствия» есть какое-либо истинное значение, мне нужен ...
25 Ноя 2022 в 15:27
Я нашел этот очень полезный пост здесь, и я пытаюсь сделать то же самое в группе df... Вот исходный пост с инкрементным счетчиком каждый раз, когда df['step'] имеет 6 : ссылка В моем случае я хочу увеличивать этот счетчик каждый раз, когда происходит 1 Итак, я изменил этот запрос: df['counter'] = ((...
25 Ноя 2022 в 15:10
Я пытаюсь получить наиболее частые значения в кадре данных pandas и заполнить/обновить данные наиболее частым значением. Примеры данных import numpy as np import pandas as pd test_input = pd.DataFrame(columns=[ 'key', 'value'], data= [[ 1, 'A' ]...
25 Ноя 2022 в 09:44
Как использовать пользовательский запрос, такой как Group By, Sum или Any Query в JPA, с запуском всего кода Как использовать пользовательский запрос, такой как Group By, Sum или Any Query в JPA, с запуском всего кода...
25 Ноя 2022 в 09:00
Я хотел бы узнать наиболее используемое место на дату 01.02.2022. Данные ID location total marks_free marks_utilized date 1 NY 6 5 1 2/1/2022 2 NY 10 5 5 2/1/2022 3 NY 2 1 1 ...
25 Ноя 2022 в 06:30
У меня есть данные из анкеты, в которой есть столбец года рождения. Таким образом, диапазон данных был слишком велик, и мое отображение стало запутанным. Теперь я пытаюсь взять годы, сгруппировать их по десятилетиям, а затем нанести на карту. Но я не знаю, как их сгруппировать. Мои данные такие: ...
25 Ноя 2022 в 05:27
В моей базе данных есть две таблицы: tweets и users. В таблице users у меня есть три столбца с именами "id" (идентификатор пользователя), "datetime_created_at" (дата и время добавления пользователя в базу данных) и "datetime_modified_at" (последняя дата и время, когда атрибуты пользователя были изме...
25 Ноя 2022 в 02:21
В чем точная разница между data_sex1= data_suicide.groupby(by=["year", "sex"])["suicides_no"].sum() А также data_sex2 = data_suicide.groupby(by=['year', 'sex']).agg({'suicides_no': ['sum']}) ? Моя проблема в том, что мне нужно изменить оба, чтобы построить их в море. Линия для Seaborn это sns.bar...
25 Ноя 2022 в 00:53
Мне нужно суммировать данные во многих строках, чтобы создать одну строку во многих столбцах. Я обработал набор данных с 52 образцами (столбцами) и ввел их все вручную, но вскоре мне придется иметь дело с НАМНОГО большим набором данных, в котором ручной ввод нецелесообразен. вот небольшой пример т...
24 Ноя 2022 в 19:42
В настоящее время у меня есть 2 списка, один для записей, один для карточек. Я пытаюсь объединить эти два списка в общий идентификатор GUID, а затем сгруппировать по имени карты, чтобы найти общее количество карт с таким именем. Я просто не знаю, как заставить работать эту группу по оператору. У к...
24 Ноя 2022 в 17:29
У меня есть pandas DataFrame следующего формата: Ввод : X [OTHER_COLUMNS] version branch v1 overall 2475.0 -1 . A 1712.5 1 . B 257.5 2 ...
24 Ноя 2022 в 14:31
У меня есть данные за период с декабря 2013 года по ноябрь 2018 года. Я преобразовал их в фрейм данных, как показано здесь. Date 0.1 0.2 0.3 0.4 0.5 0.6 2013-12-01 301.04 297.4 296.63 295.76 295.25 295.25 2013-12-04 297.96 297.15 296.25 295.25 294.43 293.45 2013-12-05 298.4 2...
24 Ноя 2022 в 08:31
Доброй ночи, Я пытаюсь придумать простую формулу Excel, которая позволит мне получить коды самых ценных напитков. Я не хочу использовать для этого сводную таблицу. Пример: Я хочу получить для MALIBU код 8991 Для JAMESON код 6113 и т. д. Я застрял здесь с тех пор, как проснулся, ха-ха Благодарность!...
24 Ноя 2022 в 02:43
Связанные с MySQL В основном у меня есть две таблицы: Таблица1 как t1 id | product_id | serial ---|------------|--------- 1 | 100 | "QX0001" 2 | 108 | "ZK0001" 3 | 110 | "FS0001" 4 | 132 | "QX0001" 5 | 156 | "900002" 6 | 167 | "900002" ...| ... ...
23 Ноя 2022 в 22:46
У меня есть временной ряд с несколькими продуктами. Я хочу удалить выбросы, используя метод Tukey Fence. Идея состоит в том, чтобы создать столбец с флагом, указывающим на выброс или нет, используя groupby. Должно быть так (столбец flag добавляется groupby): date prod units flag 1 a 100 ...
23 Ноя 2022 в 21:55
Подобно этому вопросу, Pandas интерполирует внутри groupby, но ответ на этот вопрос интерполирует () для всех столбцов. Если я хочу ограничить интерполяцию() только одним столбцом, как мне это сделать? Ввод filename val1 val2 t 1 file1.csv 5 10 2 file1.csv ...
23 Ноя 2022 в 19:57
У меня есть таблица базы данных (mytable) с двумя столбцами x и y, как показано ниже, из которой я намерен извлечь строки с соответствующими диагональными парами (x, y) и (y ,x) например, 4 21 и 21 4 x y 86 86 27 27 45 45 95 95 11 11 18 8 85 85 2 2 77 77 91 91 15 15 84 84 51 51 32 32 35 35 8 8 92 ...
23 Ноя 2022 в 18:33
Я новичок в Python, поэтому извините, если на этот вопрос уже был дан ответ или его можно легко решить. У меня есть длинный фрейм данных с числовыми переменными и категориальными переменными. Это выглядит примерно так: Category Detail Gender Weight Food Apple Female 30 Food Apple ...
23 Ноя 2022 в 14:21
У меня есть датафрейм data = [[1000, 'x', 'A'], [2000,'y', 'A'], ['NaN','NaN', 'A'], ['NaN','NaN','B'], [1700,'z', 'B']] df = pd.DataFrame(data, columns=['Price', 'Attribute', 'Model' ]) df = df.replace('NaN',np.nan) Теперь я хочу вписать нули таким образом, чтобы, если модель была одинаковой, ско...
23 Ноя 2022 в 11:53