Apache Spark - это механизм распределенной обработки данных с открытым исходным кодом, написанный на Scala, предоставляющий пользователям унифицированный API и распределенные наборы данных как для пакетной, так и для потоковой обработки. Примеры использования Apache Spark часто связаны с машинным / глубоким обучением, обработкой графиков.

Подробнее про apache-spark...

Я новичок в Apache Spark и не могу заставить это работать. У меня есть RDD формы (Int, (Int, Int)), и я хотел бы суммировать первый элемент значения, добавляя второй элемент. Например, у меня есть следующий RDD: [(5,(1,0)), (5,(1,2)), (5,(1,5)))] И я хочу получить что-то вроде этого: (5,3,(0,2,5)) ....
26 Ноя 2021 в 05:05
У меня есть образец набора данных с зарплатами. Я хочу распределить эту зарплату на 3 сегмента, а затем найти меньшую из зарплат в каждом сегменте, а затем преобразовать это в массив и прикрепить его к исходному набору. Я пытаюсь использовать для этого оконную функцию. И, кажется, делает это прог....
25 Ноя 2021 в 18:27
У меня есть следующий фрейм данных: val simpleData = Seq(Row("James ","","Smith","36636","M",3000), Row("Michael ","Rose","","40288","M",4000), Row("Robert ","","Williams","42114","M",4000), Row("Maria ","Anne","Jones","39192","F",4000), Row("Jen","Mary","Brown","bad","F",-1) ) val simp....
25 Ноя 2021 в 16:29
Я пытаюсь добавить в свой набор данных новый столбец с поддельными данными. Скажем это в качестве примера (не имеет значения, что такое фрейм данных - мне нужен новый дополнительный столбец с уникальными поддельными именами; это просто пустышка, с которой можно поиграть): from faker import Faker f....
25 Ноя 2021 в 13:00
У меня есть список ориентированных ребер, которые представляют собой дерево. 'u v' означает, что u - ребенок v. sc = SparkContext(conf = conf) lines = sc.textFile("/content/sample_data/data.txt") lines.take(10) ['0 0', '1 0', '2 0', '3 1', '4 1', '5 2', '6 2', '7 3', '8 3', '9 4'] Я преобразовал ....
Я запускаю следующий искровой sql, и он получит все данные: scala> spark.sql("select * from t1").show() +------+----+-------+ | 名稱|年齡|address| +------+----+-------+ |jeremy| 33| Taipei| | Mary| 18| Taipei| | John| 28| XXX| | 大明| 29| YYY| | 小黃| 19| ZZZ| +------+----+-------+ Но к....
25 Ноя 2021 в 05:37
Работа со следующим маркетинговым файлом JSON { "request_id": "xx", "timeseries_stats": [ { "timeseries_stat": { "id": "xx", "timeseries": [ { "start_time": "xx", "end_time....
У меня есть таблица в Hive, ключи разделов которой я хотел бы удалить, чтобы в дальнейшем использовать другие ключи разделов. Файл паркета находится в Amazon S3. Таблица, над которой я работаю, разбита на столбцы date_year и date_month. Всего 143 раздела. Теперь я пытаюсь удалить раздел, выполнив....
25 Ноя 2021 в 00:46
Я пытаюсь преобразовать список в фрейм данных в pyspark, чтобы затем я мог присоединить его к большему фрейму данных в виде столбца. Данные в списке представляют собой случайно сгенерированные имена, например: from faker import Faker from pyspark.sql.functions import * import pyspark.sql.functions ....
24 Ноя 2021 в 21:06
У меня есть такой DataFrame (но намного больше): id start end 0 10 20 1 11 13 2 14 18 3 22 30 4 25 27 5 28 31 Я пытаюсь эффективно объединить перекрывающиеся интервалы в PySpark, сохраняя при этом в новом столбце идентификаторы, которые был....
24 Ноя 2021 в 19:24
У меня есть файл CSV, как показано: name,age,languages,experience 'Alice',31,['C++', 'Java'],2 'Bob',34,['Java', 'Python'],2 'Smith',35,['Ruby', 'Java'],3 'David',36,['C', 'Java', 'R']4 При загрузке данных по умолчанию все столбцы загружаются как строки. scala> val df = spark.read.format("csv").opt....
Есть 2 таблицы Hive, созданные с использованием тех же источников и той же логики, но с немного разными запросами: Запрос таблицы 1: create table test.table1 stored as orc as select f1, mc.f2 as f2, mc.f3 as f3, f4 from src.test_table lateral view explode(mult....
24 Ноя 2021 в 17:41
Я работаю над проблемой небольшого набора данных. Новые данные собираются сверхурочно, и я хотел бы добавить эти новые данные в свой набор данных. Я создал уникальный идентификатор в моем текущем наборе данных и использовал randomSplit, чтобы разделить его на набор для обучения и тестирования: tra....
24 Ноя 2021 в 14:09
У меня есть главная таблица как +-----------+----------+-------------+ | Age | Gender | date | +-----------+----------+-------------+ | [1,2] | M | 2021-01-01 | | [11,13] | M | 2021-01-10 | | [4,5] | M | 2021-01-15 | | [3] | M | 2021-0....
24 Ноя 2021 в 13:40
Я новичок в Spark, Scala, извините за глупый вопрос. Итак, у меня есть несколько таблиц: table_a, table_b, ... И количество соответствующих типов для этих таблиц case class classA (...), case class classB (...), ... Затем мне нужно написать методы, которые читают данные из этих таблиц и создают наб....
24 Ноя 2021 в 00:17
Я хочу воспроизвести приведенный ниже код, используя функции pyspark DataFrame вместо SQL-запроса. spark.sql("select date from walmart_stock order by high desc limit 1").show() Ссылка на набор данных....
23 Ноя 2021 в 16:54
Я пытаюсь получить последнюю строку за каждый день для каждого some_guid. Например, у меня есть следующие данные, все отсортировано по item_time по убыванию: +----------+--------------------+-------------+ | file_date| some_guid| item_time| +----------+--------------------+------------....
23 Ноя 2021 в 14:03
У меня есть RDD с такими строками (упорядоченными определенным образом): ["A","B","C","D"] И еще один RDD с такими списками: ["C","B","F","K"], ["B","A","Z","M"], ["X","T","D","C"] Я хотел бы упорядочить элементы в каждом списке во втором RDD в соответствии с порядком, в котором они появляются в п....
23 Ноя 2021 в 09:47
У меня есть два фрейма данных: RegionValues: +-----------+----------+----------------------+ |marketplace|primary_id|values | +-----------+----------+----------------------+ |xyz |0000000001|[cat, dog, cow] | |reg |PRT0000001|[hippo, dragon, moose]| |asz |0....
23 Ноя 2021 в 09:21
У меня есть искровой фреймворк, как показано ниже. val df = Seq(("a",1,1400),("a",1,1250),("a",2,1200),("a",4,1250),("a",4,1200),("a",4,1100),("b",2,2500),("b",2,1250),("b",2,500),("b",4,250),("b",4,200),("b",4,100),("b",4,100),("b",5,800)). toDF("id","hierarchy","amount") Я работаю на языке Scala,....
23 Ноя 2021 в 07:56
Мой текущий фрейм данных pyspark выглядит следующим образом: Region Location Month Services Type values_in_millions values_in_percent USA USA 1/1/2021 ABC DC 101537.553 34.775 Europe Italy 2/1/2021 ABC DC 434404.87 ....
23 Ноя 2021 в 06:16
У меня есть фрейм данных со столбцом таких нормализованных функций: +--------------------+ | normFeatures| +--------------------+ |(17412,[0,1,2,5,1...| |(17412,[0,1,2,5,9...| |(17412,[0,1,2,5,1...| |(17412,[0,1,2,5,9...| |(17412,[0,1,2,5,1...| |(17412,[0,1,2,5,1...| +--------------------+ Э....
22 Ноя 2021 в 18:47
Я создал запрос в Apache Spark в надежде взять несколько строк данных о клиентах и ​​свести их в одну строку, показывая, какие типы продуктов у них открыты. Итак, данные выглядят так: Customer Product 1 Savings 1 Checking 1 Auto В итоге выглядит так: Customer Pr....
22 Ноя 2021 в 18:15
У меня есть фрейм данных pyspark: Location Month Year USA 1 2020 USA 1 2021 CAN 1 2020 CAN 2 2020 CAN 1 2021 CAN 2 2021 Мне нужно объединить столбцы месяца и года, чтобы создать столбец даты. Мой ожидаемый фре....
22 Ноя 2021 в 14:55
Я подписываюсь на этот раздел руководства по Apache Spark от команды Azure. Но когда я пытаюсь использовать функцию BroupBy для DataFrame, я получаю следующую ошибку: Ошибка : NameError: имя TripDistanceMiles не определено Вопрос : что может быть причиной ошибки в следующем коде и как ее исправит....
22 Ноя 2021 в 03:18