Можно ли сохранить состояние хранилища HDFS в кластере emr после его воссоздания? По моему опыту, все файлы, хранящиеся локально, теряются.
Будет ли вариант использовать подключенный том, скажем, EFS, и подключить кластер EMR к этому файлу? бывший:
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///mnt/my/efs/location/</value>
</property>
Ищете способ выбрать, где в последний раз остановился кластер, если он был удален. Любая помощь будет оценена по достоинству.
1 ответ
Кластер EMR использует локальные хранилища и смонтированные EBS экземпляров EC2 для дисковых областей HDFS (вы можете проверить, что объем доступного дискового пространства HDFS больше или меньше количества дисков, смонтированных на узлах кластера EMR). Насколько мне известно, использование EFS не является вариантом, поскольку разрешения IAM на использование EFS и шлюза безопасности для подключения не являются параметрами при создании кластера EMR.
Можно использовать S3DistCp (s3-dist-cp) для скопировать с HDFS на S3. Или придерживайтесь EMRFS вместо HDFS.
Похожие вопросы
Новые вопросы
amazon-web-services
Amazon Web Services (AWS) — это облачный сервис, предлагающий решения IaaS (инфраструктура как услуга) и SaaS (программное обеспечение как услуга). Только вопросы по программированию применительно к AWS относятся к теме. Общую справку по серверу можно получить по адресу https://serverfault.com. Тег AWS редко используется сам по себе и обычно используется с другими тегами, чтобы более четко определить тему вопроса.