Я пробовал группы автомасштабирования и, в качестве альтернативы, просто несколько экземпляров EC2, связанных балансировщиком нагрузки. Обе конфиги на первый взгляд работают нормально.

Но когда EC2 входит в группу автомасштабирования, он иногда выходит из строя. На самом деле это случается очень часто, почти раз в день. И они выходят из строя методом "полной перезагрузки". Графики мониторинга ec2 показывают, что загрузка ЦП достигает 100%, затем экземпляр перестает отвечать, а затем прекращает работу группой автомасштабирования.

И это не имеет ничего общего с моими процессами в этих случаях.

Когда экземпляр не входит в группу автомасштабирования, он может работать без скачков загрузки ЦП в течение многих лет.

«Жесткий сброс» экземпляров группы автомасштабирования тормозит мои работы cron. Как бы мне ни нравились группы автомасштабирования, я не могу его использовать.

Есть ли стандартный способ борьбы с "жесткими сбросами"?

PS .

В моем случае задания cron запускают сценарии PHP на Ubuntu. Мне удалось сделать только один экземпляр, выполняющий задание.

2
Yevgeniy Afanasyev 19 Фев 2021 в 07:13

2 ответа

Лучший ответ

Похоже, у вас есть проверка работоспособности, которая не работает, когда ваш cron работает, в результате чего экземпляр выводится из эксплуатации.

Если вы посмотрите на ASG, должна быть указана причина, по которой экземпляр был отключен. Обычно это происходит из-за сбоя проверки работоспособности, но могут быть и другие причины.

Есть пара вещей, которые вы можете сделать, чтобы это исправить.

Во-первых, определите, почему ваш cron использует 100% ЦП и сколько времени это обычно занимает.

Проверьте настройки проверки работоспособности. Вы используете HTTP или TCP? Каков интервал и сколько проверок должно завершиться ошибкой, прежде чем он будет выведен из эксплуатации?

Между этими двумя элементами вы должны иметь возможность настроить проверки работоспособности, чтобы он не выводил его из строя во время работы cron. Возможно, что экземпляр выходит из строя, обычно это происходит из-за нехватки памяти. Если это так, вы можете рассмотреть возможность перехода к большому типу экземпляра и / или включения подкачки.

2
chris 2 Мар 2021 в 16:56

Как только у меня возникла аналогичная проблема, в этой ситуации было запущено автоматическое обновление системы. В систему (сервер Windows) было загружено большое обновление, которое в течение нескольких часов занимало 100% ЦП. Мое предложение - попытаться отслеживать, какая служба запущена в данный момент (даже если SO - это Linux), а также проверить наличие каких-либо задач расписания (похоже, что она выполняется периодически). В остальном старайтесь держать список задач открытым во время мероприятия и смотреть, что происходит.

1
Gustavo E. Hennemann 1 Мар 2021 в 17:33