GROUP BY - это команда в стандарте реляционной базы данных SQL для свертывания группы строк, которые разделяют значения общего поля в одну строку. Агрегатные функции могут выполняться в других полях группы, таких как SUM () или AVG (), для объединения связанных данных в одно значение.
У меня есть очень большой массив данных, содержащий ежемесячные индексы цен на 400 товаров за 20 лет. Для моего анализа мне нужно связать индексы по годам, чтобы обеспечить согласованный базовый отчетный период. По сути, январский индекс рассчитывается относительно предыдущего января. На этом рис...
25 Сен 2023 в 16:05
У меня есть данные, которые выглядят следующим образом:
| OmgevingID | AdministratieKantoorID | WerkgeverID | AdministratieID | JaarID | VolgnummerRun | PersoneelsnummerVerloning | Periode | Component | Tabel | Datum |
|------------|------------------------|-------------|-----------------|-----...
25 Сен 2023 в 11:45
Я хочу заменить недостающие значения в столбце «X» тестового набора в соответствии со средним значением каждой категории столбца «Класс», но эти средние значения должны быть взяты из обучающего набора.
train:
| Class | X |
| --- | --- |
| A | 10 |
| A | NaN |
| A | 20 |
| B | ...
24 Сен 2023 в 20:11
Я работаю с данными о настольных играх из BoardGameGeek и хотел бы создать фрейм данных, который группирует настольные игры по минимальному количеству игроков И по категориям.
Вот названия столбцов: ['name', 'category', 'playtime', 'playtime_num', 'avg_rating', 'num_ratings', 'min_players'].
Сначала...
Я пытаюсь разделить файл Excel в pycharm, импортировав pandas. Мой код разбивает лист на основе значения ключа и правильно копирует текст в цель. Но формат исходного файла не копируется. Я хочу, чтобы лист был разделен вместе с исходным форматированием. Файлы примеров находятся по ссылке, а сним...
23 Сен 2023 в 11:35
У меня возникла проблема с объединением этих двух таблиц. Приведенный ниже запрос вернет ID-A 1 и 8. Однако я также хочу проверить, имеет ли ID-A StatusCode= 2 в TableA. Как мне объединить две таблицы, которые возвращают только ID-A 8.
TableA
ID-A, StatusCode
1 1
5 9
8 2
TableB
...
У меня проблема с потоком. У меня есть кадр данных следующим образом:
Country_code country low_number high_number
-----------------------------------------------------
AU Australia 1 10
FR France 2 45
AU Australia 10 ...
Может ли кто-нибудь объяснить мне реальную разницу между оконными функциями и группировкой, например, как все работает внутри, когда мы пытаемся суммировать, используя оконные функции и группировку. Какой из них работает лучше, и случаи, когда один превосходит другого по временной сложности....
21 Сен 2023 в 13:22
Рассмотрим пример фрейма данных
df = pd.DataFrame({'group' : [1, 2, 2], 'x' : [1, 2, 3], 'y' : [2, 3, np.nan]})
Если я хочу получить максимальное значение переменной 'y' без пропуска NAN, я бы использовал функцию:
df.y.max(skipna = False)
Возвращаемые результаты — nan, как и ожидалось.
Однако, есл...
Я пытаюсь определить отчетный период из набора данных отчетов. Вариантами отчетного периода могут быть:
ежемесячно Ежеквартальный Другие
Фрейм данных выглядит так:
data = [['F000003Y6H', '2018-07-31'], ['F000003Y6H', '2018-08-31'],
['F000003Y6H', '2018-09-30'], ['F000003Y6H', '2018-10-31']...
У меня очень большой фрейм данных, содержащий 150 000 строк и 1000 значений идентификаторов за 20 лет. Я хочу сохранить все строки, имеющие общее значение идентификатора в разные годы.
x <- structure(list(ID = c(2, 2, 3, 3, 4, 5), Julian = c(40749, 41425,
40749, 41057, 40735, 40743), Year = c(2011...
У меня есть такой фрейм данных,
Name COST Timestamp
0 c 8 2023-09-20 15:14:46
1 a 8 2023-09-20 15:14:48
2 c 9 2023-09-20 15:14:55
3 b 10 2023-09-20 15:15:00
4 c 4 2023-09-20 15:15:02
5 a 9 2023-09-20 15:15:04
6 b 3 2023-09-20 15:15:12
7 a 3 2023-...
20 Сен 2023 в 12:22
Предположим, что у меня есть следующий кадр данных
df = pd.DataFrame()
df['group'] = ['a', 'a', 'a', 'b', 'b']
df['value'] = [1, 0, 3, 1, 4]
Для каждого значения я хочу найти ближайшее значение в той же группе («a» или «b»).
Результат должен выглядеть так:
df['min_diff'] = [1, 1, 2, 3, 3]
Спасибо!...
У меня есть фрейм данных следующим образом:
julia> println(df_roa_kvkt)
15×3 DataFrame
Row │ year sector roa
│ Int64 String Float64
─────┼─────────────────────────────────────────
1 │ 2017 Construction -1.15
2 │ 2017 Services ...
20 Сен 2023 в 05:08
Я динамически добавил список (более 100) столбцов в фрейм данных. Столбцы с отрицательными числами — это столбцы, которые были созданы на основе значения столбца bookID. В каждой строке только один из динамических столбцов имеет значение 1, а остальные столбцы будут равны 0. Мне нужно объединить с...
19 Сен 2023 в 17:25
У меня есть генератор, содержащий 5400 строк Sqlalchemy из 1 таблицы (Entity). Я хотел бы сгруппировать строки по значению одного столбца (скажем, столбца 1); для каждой «группы» я хочу вычислить среднее значение строк на основе другого столбца (скажем, столбца 2).
Что-то вроде этого:
Шаг 1: {col1...
У меня есть большой набор данных панели, в основном состоящий из символьных переменных, и я хотел бы просмотреть один из них (назовем его A, возможно, через список?), чтобы я мог создавать разные наборы данных/фреймы данных, используя функцию group_by для создания спагетти или панельные сюжеты. На...
У меня есть база данных UserPlayed мобильной игры, содержащая следующее:
df = pd.DataFrame({
'AppVersion':['1.0.20','1.0.20','1.0.20','1.0.20','1.0.20','1.0.20','1.0.22','1.0.22','1.0.22','1.0.22'],
'Level':['1','2','3','4','5','1','2','3','4','5'],
'UserPlayed':['7131','6666','6235','54...
У меня есть процедура, которая в основном используется для данных GROUP BY и представлена в одной строке. Но с помощью приведенного ниже кода я могу видеть один и тот же SPANID несколько раз. Изображение ниже для справки.
Также ниже приведен запрос на то же самое.
WITH
temp
AS
( SE...
18 Сен 2023 в 14:55
Я пытаюсь сделать что-то похожее на переиндексацию в индекс даты переиндексации Pandas по группе, повторно посещенной а>
За исключением того, что у меня есть еще один дополнительный уровень индексации. Мои данные имеют следующую структуру: [Ячейка сетки, Сайт, Дата, Значение], и я хочу переиндекси...
Итак, это мой образец данных. ИТ-отдел отображает транзакцию, происходящую для этого идентификатора клиента, и дату.
data = {
'CUSTOMER_ID': [3131, 718, 1320, 3834, 1132, 718],
'TX_DATE': ['2023-03-01', '2023-03-08', '2023-03-07', '2023-03-01', '2023-03-02', '2023-03-08'],
'TX_WEEK': [1...
Я пытаюсь создать столбец с равным весом в своем фрейме данных, разделив 100 на количество записей на уникальную дату (рыночную дату).
Я использовал Group_by(marketdate), а затем использовал функцию Count, но продолжаю получать ошибку ниже.
Вызвано ошибкой в UseMethod(): ! нет применимого метода...
15 Сен 2023 в 16:50
Я пытаюсь выбрать все вложения человека и сгруппировать по полю, но если я добавлю предложение orderby, чтобы отображать только последний документ этой категории, это не сработает. Для группировки всегда используется первый идентификатор.
Использование ->get()->unique('gruppo_cors') вместо groupBy ...
15 Сен 2023 в 13:25
У меня есть polars.DataFrame вроде:
df = pl.DataFrame({
"timestamp": ['2009-04-18 11:30:00', '2009-04-18 11:40:00', '2009-04-18 11:50:00', '2009-04-18 12:00:00', '2009-04-18 12:10:00', '2009-04-18 12:20:00', '2009-04-18 12:30:00'],
"group": ["group_1", "group_1", "group_1", "group_2", "group_2", "gr...
15 Сен 2023 в 10:50
Учитывая этот json:
{
"hits": [
{
"country": "PT",
"level": "H2",
"id": "id1"
},
{
"country": "PT",
"level": "H1",
"id": "id2"
},
{
"country": "CZ",
"level": "H2",
"id": "id3"
},
{
"country": "IT",
"level...