Spark Python API (PySpark) предоставляет Python модель программирования apache-spark.

Подробнее про pyspark...

У меня есть фрейм данных с xml в строковом столбце, прежде чем я смогу справиться с этим дальше, мне нужен xml, чтобы проверить его правильность. Стратегия, которой я сейчас придерживаюсь, использует udf, но в результате получаю сообщение об ошибке. Код: from lxml import etree def wellformedness (....
26 Ноя 2021 в 16:17
Я пытаюсь добавить в свой набор данных новый столбец с поддельными данными. Скажем это в качестве примера (не имеет значения, что такое фрейм данных - мне нужен новый дополнительный столбец с уникальными поддельными именами; это просто пустышка, с которой можно поиграть): from faker import Faker f....
25 Ноя 2021 в 13:00
У меня есть список ориентированных ребер, которые представляют собой дерево. 'u v' означает, что u - ребенок v. sc = SparkContext(conf = conf) lines = sc.textFile("/content/sample_data/data.txt") lines.take(10) ['0 0', '1 0', '2 0', '3 1', '4 1', '5 2', '6 2', '7 3', '8 3', '9 4'] Я преобразовал ....
Работа со следующим маркетинговым файлом JSON { "request_id": "xx", "timeseries_stats": [ { "timeseries_stat": { "id": "xx", "timeseries": [ { "start_time": "xx", "end_time....
Я пытаюсь сделать простую вещь: внутреннее соединение между двумя таблицами, но в одной из них есть столбец, который был переименован, а data_type неправильный. Поэтому я хочу использовать cast () и изменить имя столбца. Я сделал это: spark.sql(f'''SELECT nr_cpf_base_srf as nr_cpf, ....
24 Ноя 2021 в 23:17
Я пытаюсь преобразовать список в фрейм данных в pyspark, чтобы затем я мог присоединить его к большему фрейму данных в виде столбца. Данные в списке представляют собой случайно сгенерированные имена, например: from faker import Faker from pyspark.sql.functions import * import pyspark.sql.functions ....
24 Ноя 2021 в 21:06
Я новичок в Spark, и у меня есть некоторые сомнения по поводу работы с df. Моя проблема в том, что мне нужно применить формулу к столбцу pyspark df, используя значения из других столбцов. У меня есть подписка на df +-------+-------+-------+-------+-------+-------+ | count1| count2|val__00|val__0....
24 Ноя 2021 в 20:20
Мне нужно добавить новый столбец в DataFrame (DynamicFrame) на основе данных json из другого столбца, как лучше всего это сделать? Схема : 'id' 'name' 'customJson' -------------------------- 1 ,John, {'key':'lastName','value':'Smith'} После: 'id' 'name' 'lastName' 'customJson' ---------------------....
24 Ноя 2021 в 20:08
У меня есть такой DataFrame (но намного больше): id start end 0 10 20 1 11 13 2 14 18 3 22 30 4 25 27 5 28 31 Я пытаюсь эффективно объединить перекрывающиеся интервалы в PySpark, сохраняя при этом в новом столбце идентификаторы, которые был....
24 Ноя 2021 в 19:24
Я работаю над проблемой небольшого набора данных. Новые данные собираются сверхурочно, и я хотел бы добавить эти новые данные в свой набор данных. Я создал уникальный идентификатор в моем текущем наборе данных и использовал randomSplit, чтобы разделить его на набор для обучения и тестирования: tra....
24 Ноя 2021 в 14:09
У меня есть главная таблица как +-----------+----------+-------------+ | Age | Gender | date | +-----------+----------+-------------+ | [1,2] | M | 2021-01-01 | | [11,13] | M | 2021-01-10 | | [4,5] | M | 2021-01-15 | | [3] | M | 2021-0....
24 Ноя 2021 в 13:40
У меня есть эта функция, которая преобразует секунды в dd: hh: mm: ss (string) - однако, когда есть пустой экземпляр из входного столбца, я получаю сообщение об ошибке PythonException: 'TypeError: неподдерживаемые типы операндов для divmod ( ): 'NoneType' и 'int' '. Есть ли исправление, которое мож....
24 Ноя 2021 в 01:05
Я хочу добавить в myDF столбец версии, в который помещается версия моего столбца Hash. Мой DF: Hash Code P1 P2 P3 P4 P5... Pn x-x-1-x-x A x x 1 x x x-1-x-x-x A x 1 x x x 5-x-1-x-x A 5 x 1 x x x-x-1-x-2 A x x 1 x 2 x-x-1-x-x A ....
23 Ноя 2021 в 20:18
Я хочу воспроизвести приведенный ниже код, используя функции pyspark DataFrame вместо SQL-запроса. spark.sql("select date from walmart_stock order by high desc limit 1").show() Ссылка на набор данных....
23 Ноя 2021 в 16:54
Я пытаюсь получить последнюю строку за каждый день для каждого some_guid. Например, у меня есть следующие данные, все отсортировано по item_time по убыванию: +----------+--------------------+-------------+ | file_date| some_guid| item_time| +----------+--------------------+------------....
23 Ноя 2021 в 14:03
Мой текущий фрейм данных pyspark выглядит следующим образом: Region Location Month Services Type values_in_millions values_in_percent USA USA 1/1/2021 ABC DC 101537.553 34.775 Europe Italy 2/1/2021 ABC DC 434404.87 ....
23 Ноя 2021 в 06:16
У меня json хранится в S3. Иногда units хранится как строка, иногда как целое число. К сожалению, это была ошибка, и теперь у меня есть миллиарды записей со смешанными типами данных в исходном json. Пример: { "other_stuff": "stuff" "units": 2, { { "other_stuff": "stuff" "units": "2", { Я....
23 Ноя 2021 в 01:25
У меня есть объединенный DataFrame с двумя столбцами TimeStamp. Я хочу найти ближайший (вперед) TimeStamp (Timestamp1 -> Timestamp2), взять ассоциированное значение и добавить его в новый столбец. TimeStamp1 Value1 TimeStamp2 Value2 2021-11-01T01:55:29.473 131 ....
22 Ноя 2021 в 22:19
Как мне сравнить два столбца и сказать, что я хочу использовать столбец x, когда они не совпадают? Это то, что я делаю прямо сейчас. SUMMARY = SUMMARY.withColumn("type_description", F.when((SUMMARY.type_description != SUMMARY.rename_description), F.lit("rename_description") ....
22 Ноя 2021 в 20:19
У меня проблема с вычислением длины сгруппированных данных: объект типа GroupedData не имеет len () В PySpark у меня есть следующий код: gb = df.groupBy('A_1') l = len(gb) print(l) Но я получаю эту ошибку. Как я могу вычислить длину gb? Этот код можно запустить с пандами: gb = df.groupby(['A_1']) ....
22 Ноя 2021 в 16:26
У меня есть фрейм данных pyspark: Location Month Year USA 1 2020 USA 1 2021 CAN 1 2020 CAN 2 2020 CAN 1 2021 CAN 2 2021 Мне нужно объединить столбцы месяца и года, чтобы создать столбец даты. Мой ожидаемый фре....
22 Ноя 2021 в 14:55
Как я могу преобразовать тиковые данные в OHLCV (Open, High, Low, Close, Volume): Текущая выборка (формат галочки) +---------+-------+--------+----------+-------------------+ | id| price| volume| capital| datetime| +---------+-------+--------+----------+-------------------+ |2373....
21 Ноя 2021 в 21:21
Каков эквивалентный код в PySpark для объединения двух разных фреймов данных (как слева, так и справа)? df_merge = pd.merge(t_df, d_df, left_on='a_id', right_on='d_id', how='inner') ....
21 Ноя 2021 в 19:55
Мне очень нужна помощь в синтаксическом анализе вложенных данных JSON с помощью PySpark-SQL, потому что я новичок в PySpark. Данные имеют следующую схему: Схема root |-- data: struct (nullable = true) | |-- result: array (nullable = true) | | |-- element: struct (containsNull = true) ....
21 Ноя 2021 в 16:15
Это может быть нишевый вопрос, но представьте, что у вас есть udf, определенный следующим образом: import pyspark.sql.functions as sf import pyspark.sql.types as st @sf.udf(returnType=st.ArrayType(st.StringType())) def some_function(text: str) -> List[str]: return text.split(' ') Это возвращает....
20 Ноя 2021 в 13:17