Автор: [Слёрм] [Иван Круглов, Павел Селиванов]
Название: SRE онлайн-интенсив (2020)

На курсе вы будете:
Строить
Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких
микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит,
соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.
Ломать
Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной
нагрузкой.
Чинить
Организуете работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Имитация реальных условий: восстановление работоспособности сервиса в условиях предельно ограниченного времени.
Изучать
Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.
Требования к участникам:
Скачать:
Название: SRE онлайн-интенсив (2020)

На курсе вы будете:
Строить
Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких
микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит,
соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.
Ломать
Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной
нагрузкой.
Чинить
Организуете работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Имитация реальных условий: восстановление работоспособности сервиса в условиях предельно ограниченного времени.
Изучать
Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.
Требования к участникам:
- Свободное владение Linux;
- Любой язык программирования: уровень Junior;
- GitLab: навыки автоматизации;
- Prometheus: навыки мониторинга;
- Kubernetes: навыки работы в кластере.
- Что нужно чтобы стать SRE?
- DevOps vs SRE
- Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
- SLI, SLO и SLA
- Error budget и его роль в SRE
- Архитектура и функционал приложения
- Non-Abstract Large System Design
- Operability / Design for failure
- gRPC или REST
- Версионирование и обратная совместимость
- Лучшие практики от SRE
- Чек-лист приема проекта
- Логирование, метрики, трейсинг
- Забираем CI/CD в свои руки
- Обратное проектирование — как работает система?
- Согласовываем SLI и SLO
- Практика capacity planning
- Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
- Запускаем Prometheus, Grafana, Elastic
- Monitoring vs. Observability
- Настраиваем мониторинг и алертинг с Prometheus
- Практический мониторинг SLI и SLO
- Symptoms vs. Causes
- Black-Box vs. White-Box Monitoring
- Распределенный мониторинг доступности приложений и серверов
- 4 золотых сигнала (обнаружение аномалий)
- Работа под давлением
- Failure-injection
- Chaos Monkey
- Алгоритм управления стрессом
- Взаимодействие между участниками инцидента
- Постмортем
- Knowledge sharing
- Формирование культуры
- Контроль неисправностей
- Проведение blameless разбора полетов
- Балансировка нагрузки
- Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
- DDoS (создаем нагрузку) + Cascading Failures
- Разбор полетов
- Практика On-Call
- Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
- Протоколы управления инцидентами
- Журналирование
- Отладка
- Практика анализа и отладки на нашем приложении
- Нагрузочное тестирование
- Тестирование конфигураций
- Тестирование производительности
- Canary release
- Реальные кейсы
- Проверка спикерами
Cкрытый контент, нужно авторизируйся или присоединяйся.
Скачать:
Cкрытый контент, нужно авторизируйся или присоединяйся.
Возможно, Вас ещё заинтересует:
- [it-black] Виктор Черемных ― Администрирование безопасных сетей (ViPNet) (2025)
- [Diogo Resende] Учебный лагерь по инженерии ИИ - технология поисковой дополненной генерации (RAG) для LLM
- [Павел Старцев] [Stepik] Нейросети: от простейшего запроса до создания бота (2025)
- [Нетология] Профессия «Интернет‑маркетолог с нуля до middle» (2025)
- [Яндекс.Практикум] Python‑разработчик (+Python‑разработчик плюс)
- [Архэ] Компьютерная лингвистика. Основные задачи компьютерной лингвистики и подходы к их решению
- [Екатерина Юсупова] Герпес вирус. Обучающий проект (2024)
- [Stepik] Разработка мобильных и PC приложений на Python. Фреймворк Kivy (2024)
- [Павел Монахов] Системное администрирование Linux (2024)
- [Богдан Кухар] Администратор 1С v 3.8 (все модули) (2024)
- [Stepik] Многозадачность в Python. Многопоточное программирование
- [developedbyed] Фулстек Next.js (React) разработчик
- [brainy] Веб-тестирование для абсолютных новичков (2024)
- [PurpleSchool] Neovim - практика и настройка (2024)
- [Stepik] Java с нуля до Junior + Подготовка к собеседованию (2024)
- [NFE] Внедрение Cisco SD-WAN (Viptela) . Базовый курс (2024)
- [Webщик] Тревожный чемоданчик складчика 3 (2024)
- [Яндекс.Практикум] Python-разработчик. Часть 5 из 8
- [Structy] Алгоритмы и структуры данных для Faang (2024)
- [Laravelcreative] Laravel 9, 10 (база + 4 практических курса)