РЕСУРСЫ
Управление услугами для команд по ИТ-операциям, разработчиков и бизнес-команд

Осуществляйте высокоскоростное управление услугами при любом масштабе.

Получить бесплатно

Подробнее

Управление комплексным предоставлением ИТ-услуг

Ознакомьтесь с советами по улучшению управления услугами.

Подробнее

Все, что нужно знать для настройки JSM

В этих руководствах рассматривается все — от основ до подробных рекомендаций.

Смотреть руководство

Библиотека ресурсов Jira Service Management

Ознакомьтесь с нашими техническими документами, примерами использования, отчетами и другими материалами, чтобы получить всю необходимую информацию.

Смотреть библиотеку

РЕСУРСЫ
Управление услугами для команд по ИТ-операциям, разработчиков и бизнес-команд

Осуществляйте высокоскоростное управление услугами при любом масштабе.

Получить бесплатно

Подробнее

Управление комплексным предоставлением ИТ-услуг

Ознакомьтесь с советами по улучшению управления услугами.

Подробнее

Все, что нужно знать для настройки JSM

В этих руководствах рассматривается все — от основ до подробных рекомендаций.

Смотреть руководство

Библиотека ресурсов Jira Service Management

Ознакомьтесь с нашими техническими документами, примерами использования, отчетами и другими материалами, чтобы получить всю необходимую информацию.

Смотреть библиотеку

Управление инцидентами для высокоскоростных команд

Справочник Atlassian по инцидентам

От современных команд, работающих с техническими сервисами, ожидают круглосуточной доступности этих сервисов.

Когда случаются проблемы — в силу аппаратного сбоя или неправильной работы программных возможностей — специалисты должны немедленно отреагировать и восстановить работу сервиса. Управление инцидентами (именно так называют этот процесс) является постоянной и сложной задачей для компаний любого размера.

Мы хотим помочь разным командам оптимизировать управление инцидентами. Вдохновившись примерами Google и PagerDuty, мы создали этот справочник, вобравший в себя сведения о процессе управления инцидентами в Atlassian. Это знания, которые мы накопили за десять лет реагирования на инциденты. Конечно, они основаны на нашем уникальном опыте, но наверняка могут оказаться полезными и для вашей команды.

Закажите печатную версию нашего справочника или скачайте PDF-версию

Количество печатных версий нашего справочника по управлению инцидентами, которые мы отправляем бесплатно, ограничено. Вы также можете загрузить PDF-версию.

Читать справочник

Что такое инцидент?

Мы определяем инцидент как событие, которое приводит к нарушению или снижению качества работы сервиса и требует незамедлительных действий. В командах, которые придерживаются практик ITIL или ITSM, такое событие могут называть «серьезным инцидентом».

Инцидент считается устраненным, когда затронутый сервис возобновляет работу в обычном режиме. Это подразумевает выполнение лишь тех задач, которые необходимы для восстановления всех функциональных возможностей.

Разбор инцидента выполняется после его устранения и включает выяснение основной причины инцидента и планирование действий для ее устранения, чтобы не допустить повторных инцидентов.

Наши принципы подхода к инцидентам

Процесс управления инцидентами не может охватить все возможные ситуации, поэтому мы даем нашим командам общие рекомендации в виде принципов. Как и ценности компании Atlassian, наши принципы подхода к инцидентам нацелены на решение следующих задач.

Руководство по автономному принятию решений людьми и командами в ходе устранения инцидентов и при их разборе.
Формирование в разных командах единой культуры определения инцидентов, управления инцидентами и формирования ценных выводов по каждому инциденту.
Обеспечение согласованного подхода команд к каждому этапу определения, устранения и анализа инцидента.

Этап	Принцип подхода к инциденту	Соответствующая ценность Atlassian	Обоснование
1. Обнаружение	Atlassian узнает о проблеме раньше клиентов	Создавать с душой и гармонией	Продуманный сервис включает в себя возможности мониторинга и отправки оповещений, достаточные для того, чтобы обнаруживать инциденты раньше клиентов. Идеальный мониторинг предупреждает о проблемах до того, как они станут инцидентами.
2. Реагирование	Эскалация, эскалация, эскалация	Играть как команда	Никому не нравится, когда его будят, и мы понимаем, что это серьезная ответственность. Но люди готовы к тому, что иногда им приходится просыпаться для разрешения инцидента напрасно и что их помощь на самом деле не требуется. Еще хуже, когда нужно проснуться и быстро сориентироваться в работе над серьезным инцидентом, хотя вас должны были оповестить раньше. Мало кто знает ответы на все вопросы, поэтому не стесняйтесь подключать дополнительных специалистов.
3. Восстановление	Проблемы случаются, надо их быстро устранять	Не #@!% клиента	Клиентов не волнует, почему нужный сервис не работает. Им важно, чтобы мы его починили как можно быстрей. Не сомневайтесь, если можете устранить проблему быстро: в этом случае последствия для клиентов будут минимальными.
4. Выводы	Никакого поиска виновных	Открытая компания, никакой ерунды	Инциденты случаются в работе любых сервисов. Мы улучшаем сервисы, когда распределяем ответственность между командами, а не когда назначаем виновных.
5. Улучшение	Никогда не допускайте повторения инцидентов	Воплощайте в себе то, к чему стремитесь	Определите основную причину и что требуется изменить, чтобы любые подобные инциденты больше не могли случиться. Планируйте внесение конкретных изменений в определенные сроки.

Требования к инструментам

Процесс управления инцидентами, описанный здесь, использует несколько инструментов, характерных для Atlassian, но при необходимости можно найти им замену.

Отслеживание инцидентов. Каждый инцидент отслеживается как задача Jira; дочерние задачи создаются для отслеживания того, как выполняются решения, принятые после разбора инцидента (в компании Atlassian для этих целей используют специально настроенную версию Jira Software).
Комната чата. Канал для обмена текстовыми сообщениями в режиме реального времени, основной инструмент совместной диагностики и устранения инцидента в команде.
Видеочат. При работе со многими инцидентами командный видеочат, например Blue Jeans, может помочь обсудить проблему и согласовать подход к ее решению.
Система предупреждений. Программный инструмент, например OpsGenie, который отслеживает дежурных и подключает к работе дополнительных специалистов.
Инструмент ведения документации. Мы используем Confluence для документирования текущего состояния инцидента и разбора инцидентов в блогах.
Statuspage. Информирование клиентов и заинтересованных лиц внутри компании о ходе ситуации с помощью Statuspage позволяет держать всех в курсе дела.

Отслеживание инцидентов

Каждый инцидент отслеживается как задача Jira; дочерние задачи создаются для отслеживания того, как выполняются решения, принятые после разбора инцидента. В этом справочнике процесс описан со ссылками на специально настроенную версию Jira Software.

Задачи по инциденту обычно создаются инженером службы поддержки в ответ на обращение клиента или разработчиком, который обнаруживает инцидент, получив предупреждение от системы мониторинга. Мы призываем людей создавать задачи, когда их что-то беспокоит, а не ждать возможности подключить кого-то к этому вопросу.

В Jira используется простой рабочий процесс для отслеживания инцидентов на этапе устранения и для записи всех важных действий, выполненных во время реагирования.

Менеджер инцидента

Руководство процессом осуществляет менеджер инцидентов (ИМ), который несет общую ответственность за этот инцидент и обладает всеми полномочиями. Это лицо указывается как исполнитель задачи по инциденту. Менеджер инцидентов уполномочен предпринимать любые действия, необходимые для устранения инцидента. Это подразумевает привлечение к работе над инцидентом любых сотрудников организации и мотивацию всех участников процесса на скорейшее восстановление сервиса.

Менеджер инцидента — это роль в процессе устранения инцидента, а не конкретный человек. Определение ролей при работе с инцидентом обеспечивает выгодную возможность замены одних исполнителей другими. Если специалист знает, как выполнять ту или иную роль, он может справиться с ней при работе с любым инцидентом.

Tutorial

Составление графика дежурств с помощью Opsgenie

С помощью этого руководства вы научитесь настраивать график дежурств, использовать правила переадресации дежурств, настраивать оповещения о начале дежурства, а также изучите другие возможности Opsgenie.

Читать учебное руководство

продолжение темы

Как мы реагируем на инцидент

Здесь описан процесс, применяемый в Atlassian для реагирования на инциденты согласно нашему справочнику. Узнайте, какие шаги предпринимает менеджер инцидентов, начиная с обнаружения и заканчивая решением проблемы.

Читать статью

Избранное

Jira Software

Confluence

Jira Service Management

Trello

Marketplace

Новые возможности

Compass

Jira Product Discovery

Возможно, вам будет полезно

Избранное

Управление работой

Управление ИТ-услугами

Agile и DevOps

ПО РАЗМЕРУ КОМАНДЫ

ПО ПРОФИЛЮ КОМАНДЫ

По отрасли

Новости

Atlassian Together

Возможно, вам будет полезно

Обучение

Поддержка

Интегрируйте

Новости

Atlassian Presents: Unleash

Jira Service Management

ITSM

Руководство по продукту

Библиотека ресурсов

Управление услугами для команд по ИТ-операциям, разработчиков и бизнес-команд

Управление комплексным предоставлением ИТ-услуг

Все, что нужно знать для настройки JSM

Библиотека ресурсов Jira Service Management

Jira Service Management

ITSM

Руководство по продукту

Библиотека ресурсов

Управление услугами для команд по ИТ-операциям, разработчиков и бизнес-команд

Управление комплексным предоставлением ИТ-услуг

Все, что нужно знать для настройки JSM

Библиотека ресурсов Jira Service Management

Управление инцидентами для высокоскоростных команд

Справочник Atlassian по инцидентам

Закажите печатную версию нашего справочника или скачайте PDF-версию

Для кого предназначено это руководство?

Что такое инцидент?

Наши принципы подхода к инцидентам

Требования к инструментам

Отслеживание инцидентов

Менеджер инцидента

Есть идеи или предложения для этого руководства?

Составление графика дежурств с помощью Opsgenie

Как мы реагируем на инцидент