Close

ITSM для высокоскоростных команд

Что подразумевается под управлением непрерывностью предоставления ИТ-услуг?

Управление непрерывностью предоставления ИТ-услуг (ITSCM) — это ключевой компонент концепции предоставления услуг ITIL. Основное внимание уделяется планированию предотвращения инцидентов, прогнозированию и управлению инцидентами с целью поддержания доступности и производительности услуг на максимально возможном уровне до, во время и после инцидента аварийного уровня.

Цель ITSCM заключается в сокращении времени простоя, затрат и влияния инцидентов на бизнес путем внедрения эффективных стандартизированных процессов в тех случаях, когда эти инциденты неизбежно происходят.

Существует множество факторов, которые могут помешать восстановлению после инцидентов, поэтому планирование необходимо. В конце концов, от дежурных экспертов может потребоваться среагировать на инцидент в три часа ночи. Код может быть недоступен после работы над чем-то другим в течение нескольких недель или месяцев. Инцидент аварийного уровня может вызвать панику. Или сотрудник может быть новым членом команды по аварийному восстановлению, не имеющим большого опыта в решении проблем.

Наличие грамотно задокументированного и четкого плана обеспечения непрерывности обслуживания поможет свести к минимуму любые задержки, вызванные обучением, недоступностью кода, паникой в случае аварии или оповещениями в ночное время.

ITSCM и ITIL 4

В ITIL 4 управление непрерывностью обслуживания — это процесс, поддерживающий управление непрерывностью бизнеса (BCM). Его цель в том, чтобы обеспечить резервное копирование и работу сервисов в согласованные сроки после серьезных сбоев в обслуживании.

ITSCM и управление инцидентами

ITIL 4 различает управление инцидентами, в рамках которого инциденты обрабатываются на различных уровнях воздействия, и процесс ITSCM, который предполагает планирование действий на случай крупномасштабных аварий.

Что представляет собой авария? Ответ может быть разным для каждой компании. Институт непрерывности бизнеса дает такое определение аварии: это «внезапное незапланированное событие, которое причиняет большой ущерб или приводит к серьезным потерям для организации. В результате такого события организация не может выполнять критически важные бизнес-функции в течение заранее определенного минимального периода времени».

Масштаб понятия «авария», заранее определенное минимальное время и критически важные бизнес-функции — это то, что каждая компания должна определить и задокументировать.

ITSCM и обеспечение непрерывности бизнеса (BCM)

Управление непрерывностью бизнеса осуществляется за пределами ИТ-отдела. В рамках такого управления выявляются риски для бизнеса и проводится работа по их снижению. Некоторые риски могут быть связаны с ИТ, включая инциденты аварийного уровня, другие могут быть вне контроля со стороны ИТ-отдела, например стихийные бедствия или пожары на объектах.

Поскольку BCM включает в себя ITSCM, а также другие процессы снижения рисков, ИТ-командам имеет смысл тесно сотрудничать с командой BCM. Вместе они могут:

  • разработать план обеспечения непрерывности бизнеса (BCP), который включает планы предотвращения и восстановления после ИТ-инцидентов аварийного уровня;
  • провести анализ влияния на бизнес (BIA), чтобы спрогнозировать, какие последствия ИТ-авария может иметь для деятельности компании.

Цели ITSCM

С точки зрения бизнеса, целью ITSCM является сокращение времени простоев, снижение затрат и смягчение последствий инцидентов аварийного уровня для бизнеса. Цели на более тактическом уровне:

  • Тесное сотрудничество с BCM для обеспечения общей непрерывности бизнеса
  • Создание планов обеспечения непрерывности предоставления ИТ-услуг и восстановления в случае аварий и управление этими планами
  • Работа с поставщиками для минимизации влияния любых простоев в их продуктах и услугах, поскольку они могут отражаться на деятельности компании
  • Анализ рисков и последствий и пересмотр планов с течением времени

Процесс ITSCM

В Atlassian план обеспечения непрерывности основан на предположении о том, что процесс планирования действий на случай аварии является непрерывным, подтвержден руководством и тщательно проверяется. Мы прикладываем все усилия к тому, чтобы оправдать ожидания наших клиентов. Наш процесс включает планирование, информирование, четкое формулирование обязанностей, тестирование и постоянное совершенствование.

Планирование

Процесс планирования начинается с вопросов общего характера, а затем на основе ответов на эти вопросы разрабатывается план действий. Примеры вопросов:

  • Как реагировать на инциденты?
  • Каковы наши ценности?
  • К каким авариям необходимо готовиться? Какие риски и угрозы связаны с нашей деятельностью?
  • Какие системы нужно поддерживать? Какие из них критически важны?
  • Как мы будем реагировать на каждую из аварий?
  • Откуда мы будем брать информацию для поддержки и восстановления критически важных систем?
  • Как мы можем централизованно управлять этой информацией и упростить процессы восстановления?
  • Имеют ли доступ к информации и документации по процессам те команды, которые будут управлять ей?

После того как вы получите ответы на эти вопросы, вам нужно будет определить:

  • политики аварийного восстановления;
  • обязанности в области ИТ;
  • степень влияния каждого риска на бизнес;
  • планы и процессы для каждого сценария риска;
  • требования к персоналу и документации.

Ключом к успешному планированию в рамках ITSCM являются документирование и создание шаблонов плана таким образом, чтобы план был ясным и воспроизводимым. Такие ресурсы, как сборники сценариев по реагированию на инциденты или иные перечни процедур, могут служить достоверным источником информации и четким планом действий для реагирующих лиц при реализации сценариев с высокой ценой ошибки.

В рамках процесса ITSCM решение с доступом к встроенной базе знаний, например Jira Service Management на основе Confluence, обеспечивает непрерывное документирование, которое, в свою очередь, открывает возможности для пересмотра, оптимизации и сотрудничества. Таким образом, у реагирующих лиц появляется доступ к документации о решении проблем в прошлом и к актуальным ресурсам.

Четкие обязанности

Кто несет ответственность в каждом случае аварии? Кто отвечает за поддержание и обновление планов, процессов и документации? ITSCM предполагает, что роли и обязанности должны быть четко определены не только в отношении самих аварий, но также в отношении мониторинга и улучшения. С помощью Jira Service Management реагирующие лица могут упоминать соответствующие стороны или сотрудников в связи с конкретными задачами, чтобы надлежащим образом делегировать обязанности и облегчить межфункциональное сотрудничество.

В Atlassian регулярно проводятся встречи, посвященные аварийному восстановлению, с нашими инженерами по техническому обеспечению надежности объекта и нашей командой по рискам и соответствию требованиям. На этих встречах обсуждаются пробелы в аварийном восстановлении и определяется, где необходимо создать дополнительные планы, провести оценку, внести улучшения или изменения.

Коммуникация

Открытость является основной ценностью Atlassian. Мы убеждены: чем более осведомлена ваша организация о ваших планах ITSCM, тем эффективнее будут эти планы.

Доступность гибких каналов связи в ходе реагирования на инцидент позволяет командам поддерживать связь предпочтительным для них способом. Jira Service Management интегрирует различные каналы связи, такие как встраиваемый виджет статуса, выделенная страница Statuspage, электронная почта, средства чата, социальные сети и СМС, что позволяет свести к минимуму время простоя.

Постоянная связь не только обеспечивает информированность заинтересованных лиц и помогает руководству не допустить паники во время инцидента аварийного уровня, но также дает командам возможность при необходимости обращаться друг к другу за помощью и снижает риск трений, вызванных организационной путаницей.

Тестирование

Как узнать, работают ли ваши планы, если их не протестировать? Это основополагающий вопрос для ITSCM и причина того, что тестирование и учения по управлению инцидентами имеют жизненно важное значение для достижения успеха.

Тестирование помогает выявить слабые места в процессе, непредвиденные проблемы, а также области, в которых командам может потребоваться переподготовка или более качественная документация.

Оценка и улучшение

ITSCM — это не одноразовый процесс. Он требует продуманного планирования и постоянного обучения, оценки и улучшения. Вот почему мы регулярно проводим собрания, посвященные аварийному восстановлению. Именно поэтому мы тестируем резервные копии системы и проводим учения на случай сбоя центра обработки данных или сбоя региона AWS. И именно поэтому любой план ITSCM непрерывно контролируется и при необходимости корректируется.

Большинство компаний представляют процесс ITSCM как серию шагов, но мы считаем, что это больше похоже на круг. Результатом планирования должны быть строго определенные роли и обязанности. Затем команда должна проинформировать всех заинтересованных лиц в организации, многократно тестировать, оценивать, контролировать, улучшать и вносить изменения в план, обновлять роли и держать заинтересованных лиц в курсе.

Здесь тоже важную роль играет встроенная совместная база знаний. Статьи из базы знаний являются ценным ресурсом для проведения оценки и документирования. Ретроспективные отчеты об инциденте имеют решающее значение при последующем пересмотре и внесении исправлений, а также могут служить долгосрочным ресурсом для решения будущих проблем. Jira Service Management на основе Confluence является мощной платформой для реализации решений по оценке и улучшению услуг в ходе совместной работы.

Роли и обязанности ITSCM

Чтобы эффективно планировать и внедрять методики ITSCM в масштабе всей организации, многие компании назначают менеджера по обеспечению непрерывности обслуживания и создают команду по восстановлению непрерывности обслуживания.

Менеджер по обеспечению непрерывности обслуживания (SCM)

Как следует из названия, менеджер по обеспечению непрерывности обслуживания отвечает за контроль непрерывности обслуживания. Этот человек, как правило, владеет процессом от А до Я, руководит разработкой планов, управляет мониторингом и оценкой, а также контролирует реализацию планов действий в случае аварии.

Это, как правило, опытный сотрудник службы технической поддержки, однако он может занимать руководящую должность и не работать каждый день с технологиями напрямую.

Команда по восстановлению непрерывности обслуживания

Под руководством SCM эта команда отвечает за проведение испытаний и учений по реагированию на инциденты и постоянное улучшение ITSCM. В команду, как правило, входят технические специалисты, сотрудники отдела контроля качества или пользователи для тестирования, а также представители разных отделов, которые отвечают за взаимодействие между SCM и их командами.

Для чего нужно ITSCM?

Организации, у которых есть четкий план аварийного восстановления, будут восстанавливаться быстрее и в полной мере в случае аварий.

Суть ITSCM заключается не только в планировании повседневных простоев. Данный процесс рассматривает наихудшие сценарии и гарантирует, что в случае возникновения таких сценариев они не окажут негативного влияния на жизнь и работу клиентов и сотрудников.

Вот три преимущества качественного процесса ITSCM:

  • В случае аварии грамотный план ITSCM обеспечивает быстрое восстановление и оперативный запуск жизненно важных услуг.
  • Организация всегда готова к крупной аварии и может реагировать быстро и надлежащим образом.
  • Все в компании понимают, что произойдет в случае аварии и как долго системы могут быть недоступны.

Узнайте, как в рамках процесса ITSCM повысить качество обслуживания клиентов и свести к минимуму коллективное время простоя с помощью Jira Service Management.