Построение стека мониторинга производительности распределенных систем: от хаоса к ясности

Построение стека мониторинга производительности распределенных систем: от хаоса к ясности

Помните, когда мониторинг распределённой системы казался попыткой найти определённую песчинку на пляже с завязанными глазами? Да, были такие времена. А теперь представьте, что вы делаете это с тысячами узлов, микросервисами, общающимися друг с другом, как соседи, сплетничающие о происходящем, и задержками в сети, которые создают вам проблемы каждые пять секунд. Добро пожаловать в прекрасный хаос мониторинга производительности распределённых систем. Правда в том, что без надлежащего мониторинга ваша распределённая система — это, по сути, чёрный ящик — и не тот, который является информативным самописцем....

26 ноября 2025 14:00 · 5 минут · 969 слов · Maxim Zhirnov
Внедрение методов проектирования хаоса с помощью Gremlin: Ломаем вещи для создания более совершенных систем

Внедрение методов проектирования хаоса с помощью Gremlin: Ломаем вещи для создания более совершенных систем

Ваша инфраструктура, вероятно, в порядке. Пока всё не пойдёт крахом. И когда в три часа ночи в субботу всё сломается, вы пожалеете, что не потратили немного времени на преднамеренное тестирование отказов в рабочее время. Добро пожаловать в Chaos Engineering с Gremlin — здесь мы выступаем в роли ответственных поджигателей в архитектуре вашей системы, устраивая контролируемые пожары, чтобы проверить, какие спринклеры действительно работают. Понимание философии Chaos Engineering Если ваши системы не давали сбоев в контролируемой среде, они обязательно дадут сбой в неконтролируемой....

20 ноября 2025 14:00 · 5 минут · 1013 слов · Maxim Zhirnov
Великий отставки 2.0: Почему инженеры DevOps и SRE имеют выгорания (и что на самом деле работает)

Великий отставки 2.0: Почему инженеры DevOps и SRE имеют выгорания (и что на самом деле работает)

Слон в чате, о котором никто не хочет говорить Давайте на секунду отложим в сторону корпоративный жаргон. Если вы читаете это, вы, вероятно, сталкивались с таким моментом: когда в 2 часа ночи ваша система PagerDuty срабатывает уже в третий раз за неделю, и вы понимаете, что не видели свою семью за обеденным столом уже несколько месяцев. Или, может быть, вы тот человек, который стал неформальным «гуру» в своей команде, потому что знаете, где похоронены все скелеты инфраструктуры....

1 ноября 2025 06:00 · 6 минут · 1159 слов · Maxim Zhirnov