Spark Python API (PySpark) предоставляет Python модель программирования apache-spark.

Подробнее про pyspark...

Это логика в SQL: coalesce (если effc_dt <= tran_dt select (max of effc_dt), if effc_dt> = tran_dt select (min of effc_dt)) Мне нужна аналогичная логика в Pyspark, когда effc date меньше, чем .......
4 Мар 2021 в 18:50
Допустим, у меня есть следующий код: df = df \ .withColumn ('this_month_sales', df.units * df.rate) \ .withColumn ('this_year_sales_v1', df.this_month_sales + df.sales_till_last_month) \ ........
4 Мар 2021 в 17:12
У меня есть такой фрейм данных: + ----- + ---- + ---- + -------- + | index | name | Num | решение | + ----- + ---- + ---- + -------- + | 0 | а | 1000 | правда | | 1 | а | 2000 | правда | | 2 | а | 300 | ложь | | 3 | .......
4 Мар 2021 в 11:50
У меня DataFrame с текстом столбца, содержащим строку (или Null). Если длина слова из текста столбца> = 6 и <= 11, я хочу сопоставить его со списком слов. Если слово совпадает, то .......
У меня есть фрейм данных с именем df, который содержит следующее: accountname | имя кластера | пространство имен | стоимость account1 | cluster_1_1 | ns_1_1 | 10 account1 | cluster_1_1 | .......
4 Мар 2021 в 05:29
Я пытаюсь прочитать json в искре и записать его как паркет. Я запускаю свой код в Windows. Ниже мой код. После выполнения он создает папку с именем output_spark.parquet. А еще .......
4 Мар 2021 в 02:02
У меня есть следующий фрейм данных Spark: id месяц column_1 column_2 А 1 100 0 А 2 200 1 А 3 800 2 А 4 1500 3 А 5 1200 0 А 6 1600 1 А 7 2500 2 А 8 2800 3 А 9 3000 4 Я хочу создать новый .......
3 Мар 2021 в 21:35
Я видел много сообщений, подчеркивающих это поведение с помощью iterrows (), однако мы наблюдаем это с помощью .columns и .dtypes. Здесь есть два ключевых фрагмента кода # 1. Простой цикл for, перебирающий .......
3 Мар 2021 в 21:28
Я хочу изменить данные в столбце с помощью .when (). Я пробовал сделать это: x = (spark.table ('my_table') .select ('date' 'id', .when (sf.col ('name') == 'x', 'One'),. ......
3 Мар 2021 в 19:24
Привет, ребята, я увеличиваю свой DF. Интересно, можете ли вы протянуть руку помощи. df = df.withColumn (('СТРАНА'), когда (col ("СТРАНА"). начинается с ("США"), "США"). в противном случае (".......
3 Мар 2021 в 17:15
Я пытаюсь прочитать файл паркета, чтобы сохранить схему, а затем использовать эту схему, чтобы назначить его фрейму данных при чтении файла csv. Файлы fee.parquet и loan__fee.csv имеют одинаковое содержимое с разными форматами файлов. Ниже мой код - я получаю сообщение об ошибке, что схема должна бы....
Фрейм входных данных: | id | start_date | end_date | | - | ----------- | ----------- | | 12 | 2020-02-01 | 2019-02-01 | | 12 | 2020-02-01 | 2018-02-01 | | 34 | 2021-02-01 | 2019-02-01 | | 34 | 2021-02-01 | 2018-02-01 | Я хочу .......
3 Мар 2021 в 15:36
У меня более 100 столбцов в фрейме данных под названием ele_df, и я хотел бы получить количество непустых значений для каждого столбца и позволить числам отображаться в таблице с соответствующими именами столбцов. Но когда я попробовал этот код ниже: from pyspark.sql.functions import col, count, isn....
3 Мар 2021 в 05:50
Я хотел бы определить следующий pandas_udf в репозитории кода Palantir Foundry. @pandas_udf("long", PandasUDFType.GROUPED_AGG) def percentile_95_udf(v): return v.quantile(0.95) Но когда я пытаюсь определить этот udf в глобальной области видимости, я получаю сообщение об ошибке: AttributeError: ....
2 Мар 2021 в 23:32
У меня есть фреймворк pyspark со столбцами parsed_date (dtype: date) и id (dtype: bigint), как показано ниже: + ------- + ----------- + | id | parsed_date | + ------- + ----------- + | 1471783 | 2017-12-18 | | .......
2 Мар 2021 в 23:10
Попытка загрузить изображение из папки в pyspark из pyspark.ml.image импорт ImageSchema из pyspark.sql.functions import lit zero_df = ImageSchema.readImages ('../ Transfer-Learning- PySpark / images / o') ........
2 Мар 2021 в 22:28
У меня есть некоторые данные, которые я беру максимум, например: t = ( spark.table('schema.t1') .where(F.col('yyyy_mm_dd').between('2020-01-01', '2021-01-01')) .select('id', 'is_enabled') .groupby('id') .agg( sf.max('is_enabled').alias('is_enabled') ) ) Данные в is_e....
2 Мар 2021 в 19:39
У меня есть фрейм данных pyspark со столбцами parsed_date (dtype: date) и id (dtype: bigint), как показано ниже: +-------+-----------+ | id|parsed_date| +-------+-----------+ |1471783| 2017-12-18| |1471885| 2017-12-18| |1472928| 2017-12-19| |1476917| 2017-12-19| |1477469| 2017-12-21| |1478190| 2....
Мне дали файл csv, в котором мне нужно выполнить определенные задачи по очистке с помощью pyspark. Перед очисткой я провожу проверку правильности схемы. Ниже мой код. # схема для входных данных def .......
2 Мар 2021 в 12:57
У меня ситуация, как показано ниже. У меня есть основной фрейм данных DF1. Я обрабатываю внутри цикла for, чтобы отразить изменения, и мои псевдокоды приведены ниже. for Year in [2019, 2020]: query_west = query_{Year} df_west = spark.sql(query_west) df_final = DF1.join(df_west, on['ID'], how....
В моем dataFrame некоторые столбцы являются непрерывными значениями, а другие столбцы имеют только значения 0/1. Я хочу использовать StandardScaler для непрерывных столбцов перед логистической регрессией с помощью конвейера. Как .......
2 Мар 2021 в 12:06
Я пытаюсь построить sql-запрос внутри блоков данных, и этот запрос нужно выполнять для каждого года и, следовательно, пытаюсь добавить год и имя таблицы в качестве переменной внутри запроса, как показано ниже. Я пытаюсь сначала создать 2 таблицы Temp для каждого года, как показано ниже. df_Conc_2019....
2 Мар 2021 в 11:18
У меня есть sql-запрос, который я хочу преобразовать в pyspark: select * from Table_output where cct_id not in (select * from df_hr_excl) Псевдокод: Table_output=Table_output.select(col("cct_id")).exceptAll(df_hr_excl.select("cct_id")) or col("cct_id").isin(df_hr_excl.select("cct_id")) ....
2 Мар 2021 в 08:15
Я работаю с двумя средами в Azure: Databricks и База данных SQL. Я работаю с функцией, которая генерирует фрейм данных, который будет использоваться для перезаписи таблицы, хранящейся в базе данных SQL. У меня много проблем, потому что df.write.jdbc (mode = 'overwrite') только удаляет таблицу, и, ....
Я пишу био-ориентированное приложение pyspark, и на одном из шагов у меня есть искровый фрейм данных извлеченных последовательностей ДНК. Для тех, что появляются в минусовой нити, я хотел бы перевернуть комплемент. Мне удалось выполнить задачу с udf, но я понимаю, что это ограничивает способность S....