Spark Python API (PySpark) предоставляет Python модель программирования apache-spark.

Подробнее про pyspark...

У меня есть два файла: один - file1.csv, а другой - file2.csv. Я поместил данные file1 в один фрейм данных, и когда появится второй файл file2.csv, мне нужно написать код таким образом, что если данные второго файла совпадают в данных первого файла на основе столбцов года и месяца, затем удалите да...
26 Ноя 2022 в 14:15
У меня есть набор данных, в котором мне нужно подсчитать количество столбцов из набора данных, чтобы получить количество столбцов и сгруппировать их по носителю. Хитрость в том, что я должен перечислить 10 перевозчиков с наибольшим количеством рейсов, а остальные объединить в категорию «Другие». Ка...
26 Ноя 2022 в 05:05
Я новичок в PySpark и просто пытаюсь прочитать таблицу из своего банка красных смещений. Код выглядит следующим образом: import findspark findspark.add_packages("io.github.spark-redshift-community:spark-redshift_2.11:4.0.1") findspark.init() spark = SparkSession.builder.appName("Dim_Customer").g...
Кто-нибудь знает, как применить правило оттока к набору данных ниже? Цель состоит в том, чтобы создать столбец под названием «отток» и использовать его для информирования о том, является ли он истинным или ложным, всякий раз, когда идентификатор остается «ложным» более 30 дней подряд в столбце «исп...
26 Ноя 2022 в 00:27
У меня есть два DFS: Df1: sku category cep seller state 4858 BDU 00000 xefd SP Df2: depth price sku seller infos_product 6.1 5.60 47347 gaha [{1, 86800000, 86... Для df2 у меня есть следующая схема: |-- depth: double (nullable = true) |-- sku: string (nullable =...
25 Ноя 2022 в 23:39
У меня есть ситуация, когда мне нужно извлечь некоторую информацию из столбца на основе другого столбца. Размер стола довольно большой. Он имеет почти 50 столбцов и 70 миллионов записей. Прикрепляю скриншот ниже, чтобы объяснить ситуацию. id idkey ValuesNeededInAnotherColumn ----- ...
25 Ноя 2022 в 21:53
Df состоит из этих строк [rn,rn1,rn2]. Условие: если rn равно нулю, сгенерируйте случайное число от 0 до 1000, а затем присвойте это значение rn1, rn2. Любые предложения, пожалуйста. Я перепробовал все возможные варианты. Не могу понять, так как я новичок в azure. Пожалуйста, помогите...
25 Ноя 2022 в 17:28
У меня проблемы с чтением файлов во фреймы данных при запуске Spark в Docker. Вот мой docker-compose.yml: version: '2' services: spark: image: docker.io/bitnami/spark:3.3 environment: - SPARK_MODE=master - SPARK_RPC_AUTHENTICATION_ENABLED=no - SPARK_RPC_ENCRYPTION_ENABLE...
25 Ноя 2022 в 15:23
У меня есть датафрейм: data = [('s1', 's2'), ('s1', 's3'), ('s2', 's4'), ('s3', 's5'), ('s5', 's6')] sdf = spark.createDataFrame(data, schema = ['start', 'end']) sdf.show() +-----+---+ |start|end| +-----+---+ | s1| s2| | s1| s3| | s2| s4| | s3| s5| | s5| s6| +--...
25 Ноя 2022 в 14:40
У меня есть файл csv, в котором есть столбец с именем «jsonColumn». ниже пример данных. jsonColumn {"page":"mainpage","_timestamp":"2022-11-22T10:47:45.8060+01:00","object":"object1","destination":"destination1","subObject":"subObject1","type":"event"} ... Теперь я хочу извлечь несколько полей из ...
25 Ноя 2022 в 13:58
У меня уже есть код, который соответствует этому ['vita', 'oscura', 'smarrita', 'dura', 'forte', 'paura', 'morte', 'trovai', 'scorte', 'v’intrai'] Я хочу этот [('vita','oscura',1),('oscura','smarrita',1),('smarrita','dura',1), ('dura','forte',1) etc Я думал, что могу сделать это с помощью лямбда-...
25 Ноя 2022 в 13:57
У меня есть приведенный ниже образец данных dataframe, val df= spark.read.option("inferSchema",true).orc("abc/path/abc.snappy.orc") df.show() ID, date, timestamp, count, idcount, unit, code, Pcode, ccode, bid, vcode 12345432,10-11-2011,11:11:12.555,0,0,XVC_AS,12,14,19,123454323,qweds Я хочу напи...
25 Ноя 2022 в 13:55
На веб-сайте ApacheSpark говорится, что для построения диаграммы мне нужно сделать df = ps.DataFrame(data, columns=list('ABCD')) Точно так же для гистограммы мне нужно сделать df = ps.from_pandas(df) df.plot.hist(bins=12, alpha=0.5) Но когда я набираю ps, он возвращает ошибку. Так что же такое ...
25 Ноя 2022 в 13:22
Я пытаюсь объединить кадры данных, используя выражение LIKE, в котором условия (содержимое LIKE) хранятся в столбце. Возможно ли это в PySpark 2.3? Source dataframe: +---------+----------+ |firstname|middlename| +---------+----------+ | James| | | Michael| Rose| | Robert| Willi...
24 Ноя 2022 в 21:25
Я ищу решение, в котором я хочу прочитать все файлы из имени папки как **'COUNTRIES DETAIL', содержащий другую папку 'YEAR', которая находится в контейнере в ADLS GEN2 с именем 'DETAILS'. . В настоящее время у меня есть 200 файлов в моей подпапке «ГОД». формат файлов 'YYYY_DETAILS_GERMANY_GERMAN...
У меня есть электронная таблица Fusion для литейного производства, и я хочу отслеживать ее историю всякий раз, когда пользователь вводит в нее что-то новое или изменяет ее содержимое. Можем ли мы сделать что-то подобное?...
Я пытаюсь выполнить запрос на вставку на сервере Azure SQL в сценарии Databricks с помощью pyspark. Я знаю, что есть родной коннектор искры, но, насколько я понимаю, данная опция просто добавляет или перезаписывает таблицу. Мне нужно обновить таблицу, и обновление затрагивает не каждую ее строку. ...
Я читал о кэшировании pyspark и о том, как работает выполнение. Для меня ясно, как использовать .cache(), когда несколько действий запускают одно и то же вычисление: df = sc.sql("select * from table") df.count() df = df.where({something}) df.count() Можно улучшить, выполнив: df = sc.sql("select *...
24 Ноя 2022 в 19:43
Я отправляю задание Spark, используя Dataproc Serverless. Мой код Spark использует несколько файлов .yaml в качестве конфигурации, и я передаю их как --archives коду. Команда для запуска кода: gcloud dataproc batches submit pyspark src/mapper.py \ --project=$PROJECT_ID \ --region=$REGION \ --...
24 Ноя 2022 в 19:05
** Я пытаюсь передать некоторые аргументы для запуска моего скрипта pyspark с помощью параметра boto3 (emr-serverless client) EntryPointArguments, однако это вообще не работает, я хотел бы знать, делаю ли я это правильно. ** **my python code is like this:** ` import argparse parser = argparse....
Я был бы рад помочь здесь :-) У меня есть следующий кадр данных: Type | Number | Date | Value | ------------------------------------ A | 1 | 2022-10-01 | 5 | A | 2 | 2022-10-01 | 8 | A | 3 | 2022-11-23 | 4 | B | 1 | 2022-02-02 | 1 | B | 2...
24 Ноя 2022 в 16:14
Надеюсь, ты сможешь мне помочь. У меня есть одна большая таблица с информацией о решенных задачах по пользователю. Мне нужно создать случайную выборку, где размер выборки равен 10% от общего количества элементов на пользователя. Я уже создал временную таблицу с информацией о размере выборки (табли...
24 Ноя 2022 в 13:29
У меня есть несколько CSV-файлов, в некоторых файлах могут быть совпадающие столбцы, а в некоторых — совершенно разные столбцы. Например, файл 1 имеет следующие столбцы: ['circuitId', 'circuitRef', 'имя', 'местоположение', 'страна', 'широта', 'долгота', 'alt', 'url'] И файл2 имеет следующие столбцы...
24 Ноя 2022 в 09:00
Мне нужны данные в Dataframe за один раз после Индии, но только данные из папки Processed_Parquet (внутри категорий есть еще несколько папок, но мне нужен только Processed_Parquet). Путь: "/mnt/adls/Centrallake/ExternalSources/Nilesh/BlobFileShare/India/Categories/Processed_Parquet" Где категории: К...
Я читаю таблицу в кадре данных, в котором есть столбец «day_dt» в формате даты «2022/01/08». Я хочу, чтобы формат был «08.01.2022» (M/d/yyyy). Возможно ли это в pyspark? Я попытался использовать date_format(), но в результате получил значение null....
24 Ноя 2022 в 08:44