Apache Spark - это механизм распределенной обработки данных с открытым исходным кодом, написанный на Scala, предоставляющий пользователям унифицированный API и распределенные наборы данных как для пакетной, так и для потоковой обработки. Варианты использования Apache Spark часто связаны с машинным / глубоким обучением и обработкой графиков.

Подробнее про apache-spark...

Я новичок в PySpark и просто пытаюсь прочитать таблицу из своего банка красных смещений. Код выглядит следующим образом: import findspark findspark.add_packages("io.github.spark-redshift-community:spark-redshift_2.11:4.0.1") findspark.init() spark = SparkSession.builder.appName("Dim_Customer").g...
У меня есть ситуация, когда мне нужно извлечь некоторую информацию из столбца на основе другого столбца. Размер стола довольно большой. Он имеет почти 50 столбцов и 70 миллионов записей. Прикрепляю скриншот ниже, чтобы объяснить ситуацию. id idkey ValuesNeededInAnotherColumn ----- ...
25 Ноя 2022 в 21:53
Я хочу создать несколько столбцов из одного столбца в Spark с помощью Java. Я пробовал несколько методов, включая ответ из этого вопрос задан в scala, но я не могу заставить его работать в Java. Например, у меня есть этот столбец с очень длинной последовательностью (около 100): +-------------------...
25 Ноя 2022 в 18:27
У меня проблемы с чтением файлов во фреймы данных при запуске Spark в Docker. Вот мой docker-compose.yml: version: '2' services: spark: image: docker.io/bitnami/spark:3.3 environment: - SPARK_MODE=master - SPARK_RPC_AUTHENTICATION_ENABLED=no - SPARK_RPC_ENCRYPTION_ENABLE...
25 Ноя 2022 в 15:23
У меня есть датафрейм: data = [('s1', 's2'), ('s1', 's3'), ('s2', 's4'), ('s3', 's5'), ('s5', 's6')] sdf = spark.createDataFrame(data, schema = ['start', 'end']) sdf.show() +-----+---+ |start|end| +-----+---+ | s1| s2| | s1| s3| | s2| s4| | s3| s5| | s5| s6| +--...
25 Ноя 2022 в 14:40
У меня есть приведенный ниже образец данных dataframe, val df= spark.read.option("inferSchema",true).orc("abc/path/abc.snappy.orc") df.show() ID, date, timestamp, count, idcount, unit, code, Pcode, ccode, bid, vcode 12345432,10-11-2011,11:11:12.555,0,0,XVC_AS,12,14,19,123454323,qweds Я хочу напи...
25 Ноя 2022 в 13:55
Недавно я начал работать со искрой и очень хотел узнать, должен ли я выполнять запросы, которые будут лучше искрового sql или databricks sql и почему?...
25 Ноя 2022 в 13:02
Я настроил Hadoop и spark в докере через контейнер агента k8s, который мы используем для запуска задания Jenkins, и мы используем AWS EKS. но при запуске задания spark-submit мы получаем следующую ошибку py4j.protocol.Py4JJavaError: An error occurred while calling o40.exists. com.amazonaws.service...
25 Ноя 2022 в 12:24
У меня есть два заголовка в файле. должны удалить их. я пробовал с zipwithindex. он будет назначать индекс с нуля и далее. Но он показывает ошибку при выполнении условия фильтра. val data=spark.sparkContext.textFile(filename) val s=data.zipWithIndex().filter(row=>row[0]>1) --> throwing error her...
25 Ноя 2022 в 03:01
Я разрабатываю некоторые преобразования в ETL (используя Spark SQL), где одно из них, в частности, создает row_number в определенном кадре данных, например: ROW_NUMBER() OVER (order by column_x) Сначала выдается следующее предупреждение: WARN WindowExec: No Partition Defined for Window operation! M...
Я пытаюсь объединить кадры данных, используя выражение LIKE, в котором условия (содержимое LIKE) хранятся в столбце. Возможно ли это в PySpark 2.3? Source dataframe: +---------+----------+ |firstname|middlename| +---------+----------+ | James| | | Michael| Rose| | Robert| Willi...
24 Ноя 2022 в 21:25
Я пытаюсь использовать Kafka ByteArrayDeserializer для чтения записей avro из темы Kafka. Но ниже исключения. Caused by: java.lang.ClassCastException: [B cannot be cast to java.lang.String Мой код: val ssc = new StreamingContext(spark.sparkContext, Seconds(1)) val kafkaParams: Map[String, Objec...
24 Ноя 2022 в 21:02
Я отправляю задание Spark, используя Dataproc Serverless. Мой код Spark использует несколько файлов .yaml в качестве конфигурации, и я передаю их как --archives коду. Команда для запуска кода: gcloud dataproc batches submit pyspark src/mapper.py \ --project=$PROJECT_ID \ --region=$REGION \ --...
24 Ноя 2022 в 19:05
** Я пытаюсь передать некоторые аргументы для запуска моего скрипта pyspark с помощью параметра boto3 (emr-serverless client) EntryPointArguments, однако это вообще не работает, я хотел бы знать, делаю ли я это правильно. ** **my python code is like this:** ` import argparse parser = argparse....
Я читал эту статью - https://www.databricks.com/session_na20/native-support-of-prometheus-monitoring-in-apache-spark-3-0, и было упомянуто, что мы можем получить метрики потоковой передачи искры, такие как вводите строки, скорость обработки и продолжительность пакета в prometheus. Мне удалось получ...
Надо подумать какой вариант лучше Мы хотим создать поток кликов в очень большом объеме, сценарий таков: events-kinesis-lambda-DB. все должно быть в реальном времени или близко к реальному времени, облако: AWS наш вариант: HDFS или Dynamodb...
Я хочу выполнить итерацию и сравнить столбцы между двумя искровыми фреймами данных и сохранить записи о несоответствии. Я получаю записи о несоответствии в формате dataframe, поэтому я хочу сохранить любую переменную, поскольку dataframe неизменяем. Пожалуйста, предложите, как сохранить выходные да...
24 Ноя 2022 в 13:14
У меня есть искровой SQL-запрос, как показано ниже: with xxx as ( select pb_id, pb_name, req_id, level, t_val_id_path from( select pb_id, pb_name, req_id, explode(req_vals) as t_id from A where dt = '2022-11-20') a join ( select t_val_id, level, t_val_id_path from B where dt = '2022-11-2...
24 Ноя 2022 в 11:08
Просить помощи: Data: map (nullable = true) |-- key: string |-- value: map (valueContainsNull = true) | |-- key : string | |-- value : string (valueContainsNull = true) reffer you Я отсылаю вас по ссылке ниже Передача карты с помощью struct- введите ключ в Spark UDF и с...
24 Ноя 2022 в 10:26
Я ищу метод аутентификации моей записной книжки databricks для публикации сообщений в теме kafka, для которой требуется токен IMS для аутентификации при использовании библиотеки spark kafka для публикации. Кто-нибудь знает, как я могу этого добиться? Заранее спасибо. Я пробовал следующую команду -: ...
Мне нужны данные в Dataframe за один раз после Индии, но только данные из папки Processed_Parquet (внутри категорий есть еще несколько папок, но мне нужен только Processed_Parquet). Путь: "/mnt/adls/Centrallake/ExternalSources/Nilesh/BlobFileShare/India/Categories/Processed_Parquet" Где категории: К...
Я пытаюсь запустить Glue на своем локальном компьютере с помощью scala, поэтому я добавил приведенную ниже зависимость в соответствии с документацией AWS Glue (https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-libraries.html ) <dependency> <groupId>com.amazonaws</groupId> ...
23 Ноя 2022 в 22:23
Приведенные примеры данных: data = [{"id": random.randint(1, 10), "content": random.choice(string.ascii_letters)} for _ in range(0, 1000)] Я хочу сгруппировать записи данных по их id и выполнить функцию, например. store_content(group) в каждой группе. Например, все записи с id 1 должны храниться ...
23 Ноя 2022 в 17:30
У меня есть строка вида: {'text':'abc'},{'text':'def'} Мне нужно получить массив вида ['abc','def'] Я использую следующий код: schema = StructType([StructField('text_str', StringType(), True)]) dsdf.withColumn('text', from_json(col('text'), schema)).show(truncate=False) Что возвращает ['abc']. Как ...
23 Ноя 2022 в 17:30
В настоящее время я работаю над функцией Python. Предполагается, что процесс зацикливается на кадре данных pandas, содержащем мою структуру данных (я получаю информацию о том, какая таблица содержит значение для поля, которое я ищу), а затем зацикливается на кадре данных искры, который загружает пр...
23 Ноя 2022 в 16:47