Close

Управление инцидентами для высокоскоростных команд

Справочник Atlassian по инцидентам

От современных команд, работающих с техническими сервисами, ожидают круглосуточной доступности этих сервисов.

Когда случаются проблемы — в силу аппаратного сбоя или неправильной работы программных возможностей — специалисты должны немедленно отреагировать и восстановить работу сервиса. Управление инцидентами (именно так называют этот процесс) является постоянной и сложной задачей для компаний любого размера.

Мы хотим помочь разным командам оптимизировать управление инцидентами. Вдохновившись примерами Google и PagerDuty, мы создали этот справочник, вобравший в себя сведения о процессе управления инцидентами в Atlassian. Это знания, которые мы накопили за десять лет реагирования на инциденты. Конечно, они основаны на нашем уникальном опыте, но наверняка могут оказаться полезными и для вашей команды.

Справочник по управлению инцидентами

Закажите печатную версию нашего справочника или скачайте PDF-версию

Количество печатных версий нашего справочника по управлению инцидентами, которые мы отправляем бесплатно, ограничено. Вы также можете загрузить PDF-версию.

Мы хотим помочь разным командам оптимизировать управление инцидентами. Вдохновившись примерами Google и PagerDuty, мы создали этот справочник, вобравший в себя сведения о процессе управления инцидентами в Atlassian. Это знания, которые мы накопили за десять лет реагирования на инциденты. Конечно, они основаны на нашем уникальном опыте, но наверняка могут оказаться полезными и для вашей команды.


Для кого предназначено это руководство?

Если вы работаете в команде разработчиков или в операционной команде по обслуживанию интернет-сервисов, которые должны быть доступны клиентам круглосуточно, этот справочник — для вас.


Что такое инцидент?

Мы определяем инцидент как событие, которое приводит к нарушению или снижению качества работы сервиса и требует незамедлительных действий. В командах, которые придерживаются практик ITIL или ITSM, такое событие могут называть «серьезным инцидентом».

Инцидент считается устраненным, когда затронутый сервис возобновляет работу в обычном режиме. Это подразумевает выполнение лишь тех задач, которые необходимы для восстановления всех функциональных возможностей.

Разбор инцидента выполняется после его устранения и включает выяснение основной причины инцидента и планирование действий для ее устранения, чтобы не допустить повторных инцидентов.


Наши принципы подхода к инцидентам

Процесс управления инцидентами не может охватить все возможные ситуации, поэтому мы даем нашим командам общие рекомендации в виде принципов. Как и ценности компании Atlassian, наши принципы подхода к инцидентам нацелены на решение следующих задач.

  • Руководство по автономному принятию решений людьми и командами в ходе устранения инцидентов и при их разборе.
  • Формирование в разных командах единой культуры определения инцидентов, управления инцидентами и формирования ценных выводов по каждому инциденту.
  • Обеспечение согласованного подхода команд к каждому этапу определения, устранения и анализа инцидента.
Этап Принцип подхода к инциденту Соответствующая ценность Atlassian Обоснование
1. Обнаружение Atlassian узнает о проблеме раньше клиентов

Создавать с душой и гармонией

Продуманный сервис включает в себя возможности мониторинга и отправки оповещений, достаточные для того, чтобы обнаруживать инциденты раньше клиентов.

Идеальный мониторинг предупреждает о проблемах до того, как они станут инцидентами.

2. Реагирование Эскалация, эскалация, эскалация

Играть как команда

Никому не нравится, когда его будят, и мы понимаем, что это серьезная ответственность. Но люди готовы к тому, что иногда им приходится просыпаться для разрешения инцидента напрасно и что их помощь на самом деле не требуется. Еще хуже, когда нужно проснуться и быстро сориентироваться в работе над серьезным инцидентом, хотя вас должны были оповестить раньше.

Мало кто знает ответы на все вопросы, поэтому не стесняйтесь подключать дополнительных специалистов.

3. Восстановление Проблемы случаются, надо их быстро устранять Не #@!% клиента

Клиентов не волнует, почему нужный сервис не работает. Им важно, чтобы мы его починили как можно быстрей.

Не сомневайтесь, если можете устранить проблему быстро: в этом случае последствия для клиентов будут минимальными.

4. Выводы Никакого поиска виновных Открытая компания, никакой ерунды Инциденты случаются в работе любых сервисов. Мы улучшаем сервисы, когда распределяем ответственность между командами, а не когда назначаем виновных.
5. Улучшение Никогда не допускайте повторения инцидентов Воплощайте в себе то, к чему стремитесь

Определите основную причину и что требуется изменить, чтобы любые подобные инциденты больше не могли случиться.

Планируйте внесение конкретных изменений в определенные сроки.


Требования к инструментам

Процесс управления инцидентами, описанный здесь, использует несколько инструментов, характерных для Atlassian, но при необходимости можно найти им замену.

  • Отслеживание инцидентов. Каждый инцидент отслеживается как задача Jira; дочерние задачи создаются для отслеживания того, как выполняются решения, принятые после разбора инцидента (в компании Atlassian для этих целей используют специально настроенную версию Jira Software).
  • Комната чата. Канал для обмена текстовыми сообщениями в режиме реального времени, основной инструмент совместной диагностики и устранения инцидента в команде.
  • Видеочат. При работе со многими инцидентами командный видеочат, например Blue Jeans, может помочь обсудить проблему и согласовать подход к ее решению.
  • Система предупреждений. Программный инструмент, например OpsGenie, который отслеживает дежурных и подключает к работе дополнительных специалистов.
  • Инструмент ведения документации. Мы используем Confluence для документирования текущего состояния инцидента и разбора инцидентов в блогах.
  • Statuspage. Информирование клиентов и заинтересованных лиц внутри компании о ходе ситуации с помощью Statuspage позволяет держать всех в курсе дела.

Отслеживание инцидентов

Каждый инцидент отслеживается как задача Jira; дочерние задачи создаются для отслеживания того, как выполняются решения, принятые после разбора инцидента. В этом справочнике процесс описан со ссылками на специально настроенную версию Jira Software.

Задачи по инциденту обычно создаются инженером службы поддержки в ответ на обращение клиента или разработчиком, который обнаруживает инцидент, получив предупреждение от системы мониторинга. Мы призываем людей создавать задачи, когда их что-то беспокоит, а не ждать возможности подключить кого-то к этому вопросу.

В Jira используется простой рабочий процесс для отслеживания инцидентов на этапе устранения и для записи всех важных действий, выполненных во время реагирования.


Менеджер инцидента

Руководство процессом осуществляет менеджер инцидентов (ИМ), который несет общую ответственность за этот инцидент и обладает всеми полномочиями. Это лицо указывается как исполнитель задачи по инциденту. Менеджер инцидентов уполномочен предпринимать любые действия, необходимые для устранения инцидента. Это подразумевает привлечение к работе над инцидентом любых сотрудников организации и мотивацию всех участников процесса на скорейшее восстановление сервиса.

Менеджер инцидента — это роль в процессе устранения инцидента, а не конкретный человек. Определение ролей при работе с инцидентом обеспечивает выгодную возможность замены одних исполнителей другими. Если специалист знает, как выполнять ту или иную роль, он может справиться с ней при работе с любым инцидентом.


Есть идеи или предложения для этого руководства?