Sre | Hemaks: Экспертные руководства и ресурсы по программированию на русском

Стек Наблюдаемости при ограниченном бюджете: куда инвестировать в первую очередь

Если вы когда-либо получали счёт за мониторинг, который заставлял вас сомневаться в своих решениях, вы не одиноки. Забавно то, что мониторинг — это самая важная вещь, на которую вы, вероятно, тратите слишком много. Позвольте объяснить: мониторинг необходим для современных систем, но то, как большинство команд его покупают, — вот где начинаются финансовые проблемы. Основная проблема проста: платформы мониторинга SaaS взимают плату за гигабайт принятых данных, за каждый отслеживаемый хост или за каждый отслеживаемый показатель с высокой кардинальностью....

Измерение и совершенствование MTTR в вашей инженерной команде: от хаоса к предсказуемости

Существует момент, которого боится каждый инженер — оповещение в 3 часа ночи, когда происходит сбой в чём-то критически важном, и внезапно ваша команда переходит в режим тушения пожара. Настоящий вопрос заключается не в том, произойдёт ли сбой системы (он произойдёт), а в том, насколько быстро вы сможете восстановить её работу. Именно здесь на помощь приходит среднее время восстановления (MTTR), и, честно говоря, это один из самых недооценённых показателей в инженерии. Не потому, что он сложный, а потому, что большинство команд измеряют его неправильно или, что ещё хуже, не измеряют вовсе....

Построение стека мониторинга производительности распределенных систем: от хаоса к ясности

Помните, когда мониторинг распределённой системы казался попыткой найти определённую песчинку на пляже с завязанными глазами? Да, были такие времена. А теперь представьте, что вы делаете это с тысячами узлов, микросервисами, общающимися друг с другом, как соседи, сплетничающие о происходящем, и задержками в сети, которые создают вам проблемы каждые пять секунд. Добро пожаловать в прекрасный хаос мониторинга производительности распределённых систем. Правда в том, что без надлежащего мониторинга ваша распределённая система — это, по сути, чёрный ящик — и не тот, который является информативным самописцем....

Внедрение методов проектирования хаоса с помощью Gremlin: Ломаем вещи для создания более совершенных систем

Ваша инфраструктура, вероятно, в порядке. Пока всё не пойдёт крахом. И когда в три часа ночи в субботу всё сломается, вы пожалеете, что не потратили немного времени на преднамеренное тестирование отказов в рабочее время. Добро пожаловать в Chaos Engineering с Gremlin — здесь мы выступаем в роли ответственных поджигателей в архитектуре вашей системы, устраивая контролируемые пожары, чтобы проверить, какие спринклеры действительно работают. Понимание философии Chaos Engineering Если ваши системы не давали сбоев в контролируемой среде, они обязательно дадут сбой в неконтролируемой....

Великий отставки 2.0: Почему инженеры DevOps и SRE имеют выгорания (и что на самом деле работает)

Слон в чате, о котором никто не хочет говорить Давайте на секунду отложим в сторону корпоративный жаргон. Если вы читаете это, вы, вероятно, сталкивались с таким моментом: когда в 2 часа ночи ваша система PagerDuty срабатывает уже в третий раз за неделю, и вы понимаете, что не видели свою семью за обеденным столом уже несколько месяцев. Или, может быть, вы тот человек, который стал неформальным «гуру» в своей команде, потому что знаете, где похоронены все скелеты инфраструктуры....

Subscribe to Our Telegram Channel

Подпишитесь на наш телеграм

Thank you for subscribing!

Спасибо за подписку!