Я просматривал документацию oozie и понял, что это распределенный планировщик рабочих процессов.

Может ли он планировать рабочие процессы в кластере, куда было отправлено задание oozie? перефразируя, oozie может планировать задания или запускать сценарии на любом случайном узле в кластере, способен ли он выполнять действия на клиентском компьютере / граничном узле / другом кластере (например, distcp).

0
Nag 4 Янв 2016 в 08:40

2 ответа

Лучший ответ

Сам Oozie не распространяется; служба работает на «граничном узле» (машина, на которой есть все библиотеки и конфигурация Hadoop, но не выполняет задания и не хранит файлы HDFS) и использует базу данных, обычно MySQL, для хранения всех определений и состояний заданий.

Координаторы Oozie определяют, когда и как запускать рабочий процесс.

Рабочие процессы Oozie - это прямые ациклические графы (DAG), то есть цепочки простых шагов - некоторые шаги могут выполняться параллельно, цепочка шагов может быть условной, но нет циклов (вот что Средство в DAG) .

Некоторые тривиальные шаги (например, отправка электронной почты) выполняются непосредственно Oozie, но все остальное переводится в задания YARN, а затем YARN запускает эти задания в случайных режимах. Эти задания могут быть действительно "распределенными" или нет (например, действие Shell транслируется в один Mapper, который запускает JAR начальной загрузки Oozie, который запускает интерпретатор оболочки, который запускает предоставленный скрипт - в конце концов, это параллельная обработка всего 1 процесс ... ну)

Обратите внимание, что одна служба Oozie может выполнять задания на нескольких кластерах , поэтому каждый рабочий процесс должен указывать NameNode и JobTracker (на самом деле ResourceManager с YARN)

Вы можете просмотреть это старое, но исчерпывающее руководство, состоящее из 14 глав: http://hadooped.blogspot.fr /2013/06/apache-oozie-part-1-workflow-with-hdfs.html

1
Samson Scharfrichter 4 Янв 2016 в 15:34

Да, это можно сделать. Это сервис с учетом данных, позволяющий управлять зависимостями между заданиями, выполняемыми в Hadoop. Это включает HDFS, Pig, Hive, Python, Shell, Map Reduce Java, SSH, DISTCP, Custom Action Executor, также известный как UDF.

Ссылка: БЛОГ, вы можете проверить как полезный образец, есть еще много других, которые подробно описывают использование

1
Deb 4 Янв 2016 в 06:02