Закрыть

Справочник Atlassian по инцидентам

Обзор

От современных команд, работающих с техническими сервисами, ожидают круглосуточной доступности этих сервисов.

Когда случаются проблемы — в силу аппаратного сбоя или неправильной работы программных возможностей — специалисты должны немедленно отреагировать и восстановить работу сервиса. Управление инцидентами (именно так называют этот процесс) является постоянной и сложной задачей для компаний любого размера.

We want to help teams everywhere improve their incident management. Inspired by teams like Google, we've created this handbook as a summary of Atlassian's incident management process. These are the lessons we've learned responding to incidents for more than a decade. While it’s based on our unique experiences, we hope it can be adapted to suit the needs of your own team.

Реагирование на инцидент

Процесс реагирования и шаги, которые необходимо предпринять после обнаружения инцидента.

Разбор инцидентов

Как провести разбор инцидентов без поиска виновных, выявить основные причины и запланировать работы по исправлению.

Обзор справочника по инцидентам

Для кого предназначено это руководство?

Если вы работаете в команде разработчиков или в операционной команде по обслуживанию интернет-сервисов, которые должны быть доступны клиентам круглосуточно, этот справочник — для вас.

Что такое инцидент?

Мы определяем инцидент как событие, которое приводит к нарушению или снижению качества работы сервиса и требует незамедлительных действий. В командах, которые придерживаются практик ITIL или ITSM, такое событие могут называть «серьезным инцидентом».

Инцидент считается устраненным, когда затронутый сервис возобновляет работу в обычном режиме. Это подразумевает выполнение лишь тех задач, которые необходимы для восстановления всех функциональных возможностей. 

Разбор инцидента выполняется после его устранения и включает выяснение основной причины инцидента и планирование действий для ее устранения, чтобы не допустить повторных инцидентов.

Наши принципы подхода к инцидентам

Процесс управления инцидентами не может охватить все возможные ситуации, поэтому мы даем нашим командам общие рекомендации в виде принципов. Как и ценности компании Atlassian, наши принципы подхода к инцидентам нацелены на решение следующих задач.

  • Руководство по автономному принятию решений людьми и командами в ходе устранения инцидентов и при их разборе. 

  • Формирование в разных командах единой культуры определения инцидентов, управления инцидентами и формирования ценных выводов по каждому инциденту.

  • Обеспечение согласованного подхода команд к каждому этапу определения, устранения и анализа инцидента.

Этап Принцип подхода к инциденту Соответствующая ценность Atlassian Обоснование
1. Обнаружение Atlassian узнает о проблеме раньше клиентов

Создавать с душой и гармонией

Продуманный сервис включает в себя возможности мониторинга и отправки оповещений, достаточные для того, чтобы обнаруживать инциденты раньше клиентов. 

Идеальный мониторинг предупреждает о проблемах до того, как они станут инцидентами.

2. Реагирование Всем, всем, всем 

Играть как команда

Nobody likes being woken up and we don’t take the responsibility lightly. But people understand that occasionally they will be woken for an incident where it turns out they aren't needed. What’s usually harder is waking up to a major incident and playing catch up when you should have been alerted earlier.

Мало кто знает ответы на все вопросы, поэтому не стесняйтесь подключать дополнительных специалистов.

3. Восстановление Проблемы случаются, надо их быстро устранять Не #@!% клиента

Клиентов не волнует, почему нужный сервис не работает. Им важно, чтобы мы его починили как можно быстрей.

Не сомневайтесь, если можете устранить проблему быстро: в этом случае последствия для клиентов будут минимальными. 

4. Выводы Никакого поиска виновных Открытая компания, никакой ерунды Инциденты случаются в работе любых сервисов. Мы улучшаем сервисы, когда распределяем ответственность между командами, а не когда назначаем виновных.
5. Улучшение Никогда не допускайте повторения инцидентов Воплощайте в себе то, к чему стремитесь

Определите основную причину и что требуется изменить, чтобы любые подобные инциденты больше не могли случиться.

Планируйте внесение конкретных изменений в определенные сроки.

 

Требования к инструментам

Процесс управления инцидентами, описанный здесь, использует несколько инструментов, характерных для Atlassian, но при необходимости можно найти им замену.

  • Отслеживание инцидентов. Каждый инцидент отслеживается как задача Jira; дочерние задачи создаются для отслеживания того, как выполняются решения, принятые после разбора инцидента. (До релиза Jira Ops в Atlassian использовали для этих целей специально настроенную версию Jira Software.)

  • Комната чата. Канал для обмена текстовыми сообщениями в режиме реального времени, основной инструмент совместной диагностики и устранения инцидента в команде.

  • Видеочат. При работе со многими инцидентами командный видеочат, например Blue Jeans, может помочь обсудить проблему и согласовать подход к ее решению.

  • Система предупреждений. Программный инструмент, например OpsGenie, который отслеживает дежурных и подключает к работе дополнительных специалистов.

  • Инструмент ведения документации. Мы используем Confluence для документирования текущего состояния инцидента и разбора инцидентов в блогах.

  • Statuspage. Информирование клиентов и заинтересованных лиц внутри компании о ходе ситуации с помощью Statuspage позволяет держать всех в курсе дела.

Отслеживание инцидентов

Каждый инцидент отслеживается как задача Jira; дочерние задачи создаются для отслеживания того, как выполняются решения, принятые после разбора инцидента. В этом справочнике процесс описан со ссылками на специально настроенную версию Jira Software, на основе которой мы создали Jira Ops. Как следствие, процесс не в полной мере соответствует функциональным возможностям, которые сейчас доступны в Jira Ops.

Задачи по инциденту обычно создаются инженером службы поддержки в ответ на обращение клиента или разработчиком, который обнаруживает инцидент, получив предупреждение от системы мониторинга. Мы призываем людей создавать задачи, когда их что-то беспокоит, а не ждать возможности подключить кого-то к этому вопросу.

В Jira используется простой рабочий процесс для отслеживания инцидентов на этапе устранения и для записи всех важных действий, выполненных во время реагирования.

Менеджер инцидента

Руководство процессом осуществляет менеджер инцидента (IM), который несет общую ответственность за этот инцидент. Это лицо указывается как исполнитель задачи по инциденту. Менеджер инцидента уполномочен предпринимать любые действия, необходимые для устранения инцидента. Это подразумевает привлечение к работе над инцидентом любых сотрудников организации и мотивацию всех участников процесса на скорейшее восстановление сервиса. 

Менеджер инцидента — это роль в процессе устранения инцидента, а не конкретный человек. Определение ролей при работе с инцидентом обеспечивает выгодную возможность замены одних исполнителей другими. Если специалист знает, как выполнять ту или иную роль, он может справиться с ней при работе с любым инцидентом.

Есть идеи или предложения для этого руководства?

Отлично! Вы можете отправить свой отзыв на электронную почту incident-handbook@atlassian.com и сообщить нам, что вы думаете.

Реагирование на инцидент

Процесс реагирования и шаги, которые необходимо предпринять после обнаружения инцидента.

Разбор инцидентов

Как провести разбор инцидентов без поиска виновных, выявить основные причины и запланировать работы по исправлению.

Ищете инструмент, который поможет организовать процесс управления инцидентами?