У меня есть ведро S3, куда сбрасываются повседневные файлы. Сканер AWS сканирует данные из этого местоположения. В самый первый день, когда мое задание склеивания запускается, он берет все данные из таблицы, созданной искателем AWS. Например, в самый первый день там три файла (например, file1. txt, file2.txt, file3.txt) и задание склеивания обрабатывает эти файлы в первый день выполнения задания склеивания. На второй день еще два файла достигают местоположения S3. Теперь в местоположении S3 это уже существующие файлы (т.е. file1 .txt, file2.txt, file3.txt, file4.txt, file5.txt). Могу ли я каким-то образом спроектировать мой сканер AWS таким образом, чтобы на следующий день выполнения задания он просто читал два файла (file4.txt, file5 .txt)? Или как я могу написать задание склейки AWS только для идентификации этих дополнительных файлов?

4
trp 2 Дек 2018 в 07:02

1 ответ

Лучший ответ

Вам нужно включить закладку задания AWS для клея, и он сможет сохранять состояние уже обработанных данных. Вы можете обратиться к ссылке ниже, чтобы узнать, как это сделать.

закладка для работы с клеем AWS

6
alturium 22 Мар 2019 в 01:23