У меня есть несколько вопросов, связанных с облачным композитором и BigQuery. Нам нужно импортировать и создать автоматический процесс для экспорта таблиц от BigQuery для хранения. У меня есть 4 варианта в данный момент:

  • BIGQUERY_TO_GCS Оператор
  • Bashoperator: выполнение команды «BQ», предоставляемая облаком SDK на облачный композитор.
  • Функция Python: создайте функцию Python, используя BIGQUERY API, почти такой же, как BIGQUERY_TO_GCS и выполнить эту функцию с воздушным потоком.
  • DataFlow: Работа будет выполнена с воздушным потоком.

У меня есть некоторые мысли, связанные с первыми 3 вариантами. Если таблица огромна, есть ли шанс потреблять большую часть ресурсов облачного композитора? Я искал, если оператор Bashoperator и BigQuery потребляет некоторые ресурсы облачного композитора. Всегда думая, что этот процесс будет на производстве в будущем, и одновременно бегают больше DAGS. Если это правда, Dataflow будет более удобным вариантом?

Хорошим подходом данных DataFlow заключается в том, что мы можем экспортировать таблицу только в одном файле, если мы хотим, это невозможно с другими опциями, если таблица более 1 ГБ.

0
StriderKeni 1 Окт 2019 в 02:43

1 ответ

Лучший ответ

Сама по себе имеет функцию экспорта данных в GCS. Это означает, что если вы используете какие-либо из упомянутых вами вещей (за исключением работы DataFlow), вы просто запустите экспортную работу, которая будет выполнена и управляться BigQuery.

Это означает, что вам не нужно беспокоиться о потреблении кластерных ресурсов в композиторе. Оператор BIGQUERY_TO_GCS - это просто контроллер, начисляющий бодрому, чтобы сделать экспорт.

Таким образом, из вариантов вы упоминаете: Biagquery_To_GCS Оператор, Bashoperator и Python Функция понесет аналогичную низкую стоимость. Просто используйте в зависимости от того, что вам легче управлять.

1
Pablo 1 Окт 2019 в 00:18