Gestão de incidentes: o que é e quais benefícios se destacam?

Recebo diariamente muitas dúvidas sobre como iniciar a adoção das práticas de gerenciamento de serviços.

Pensando nisso, decidi iniciar um tópico específico aqui no blog, batizado de “ABC do ITSM”, para descrever como adotar práticas elementares de gerenciamento de serviços.

Neste post começamos nossa série com a prática de Gerenciamento de Incidentes. 

Vamos lá?

 

Conceitos fundamentais do Gerenciamento de Incidentes

O Gerenciamento de incidentes é a mais popular das práticas de ITSM.

Normalmente encabeça a lista de “primeiros passos no ITSM “, pois é uma das que podem trazer mais resultados a curto prazo.

Mas apesar da maioria dos profissionais de TI já terem tido contato com essa prática em suas experiências profissionais anteriores, é preciso ter cautela, pois a experiência também pode vir com alguns vícios.

Por isso é importante sempre voltar a fonte (a literatura ITIL) para buscar os conceitos fundamentais da prática.

Vamos destacar alguns deles estão abaixo:

 

O que é um incidente, segundo o ITIL?

Uma interrupção não planejada de um serviço ou redução na qualidade de um serviço

ITIL4 Foundation

 

E qual é o propósito da prática de gerenciamento de incidentes?

Minimizar o impacto negativo de incidentes, restaurando o estado normal da operação o mais rápido possível.

ITIL4 Foundation

 

Em resumo, gerenciar incidentes significa responder adequadamente às falhas não previstas dos serviços de TI.

 

Dentre o escopo do Gerenciamento de Incidentes, destaca-se:

  • Detectar e registrar incidentes;
  • Diagnosticar e investigar incidentes;
  • Restaurar os serviços afetados e seus itens de configuração para a qualidade acordada;
  • Gerenciar registros de incidente;
  • Comunicar com as partes interessadas relevantes de acordo com o ciclo de vida do incidente;
  • Revisar incidentes e iniciar melhorias nos serviços e na prática de gerenciamento de incidentes depois da resolução.

Quais são os benefícios do Gerenciamento de Incidentes?

O Gerenciamento de Incidentes é uma das práticas mais populares e comuns nas organizações de TI. Porém, seus benefícios nem sempre são amplamente compreendidos. Veja alguns deles abaixo.

Eficiência e produtividade

Adotar o gerenciamento de incidentes faz com que sua área de TI consiga administrar melhor aquilo que é inesperado, permitindo que os especialistas que suportam os serviços sejam capazes de identificar, analisar, resolver e aprender sobre determinados tipos de falhas, aumentando a eficiência da organização em restaurar suas operações ao normal de forma mais rápida. Essa prática também permite que o trabalho seja organizado por “tickets” ou “chamados”, que ajudam a adequar (e aumentar) a produtividade da área de suporte, fazendo com que cada especialista possa cuidar daquilo que lhe foi atribuído, podendo até solicitar ajuda de profissionais mais experientes (dentro ou fora da organização).

 

Visibilidade e transparência

O gerenciamento de incidentes promove visibilidade e transparência para os consumidores de serviço (clientes e usuários) ao apresentar possíveis falhas em produtos e serviços (compartilhando a devida criticidade delas), bem como mostrar o que está sendo feito para resolvê-las mais rapidamente, mantendo todos atualizados periodicamente sobre o andamento dos trabalhos.

 

Nível de qualidade de serviço

Adotar a prática de gerenciamento de incidentes aumenta o nível de qualidade de serviço pelos motivos apresentados acima e, também, melhorando o nível de satisfação dos clientes de acordo com a forma que os incidentes são tratados e resolvidos, afetando minimamente a capacidade dos usuários realizarem seus trabalhos.

 

Informações para a qualidade de serviço

Alguns exemplos de informações para a qualidade de serviço podem incluir:

  • Tempo entre a ocorrência de um incidente e a sua detecção
  • Porcentagem de incidentes detectados
  • Tempo para realizar o diagnóstico de incidentes
  • Taxa de resolução de incidentes no primeiro atendimento

 

Conhecer os SLAs

Os SLAs no gerenciamento de incidentes normalmente estão relacionados ao tempo máximo tolerável em que um serviço pode ficar indisponível, de acordo com a sua criticidade. Você pode entrar em acordo com seu cliente sobre quais serviços são críticos para a organização e colocá-los em ordem de prioridade para serem tratados em relação a outros serviços menos prioritários. Quando se tem a lista de serviços, é possível determinar a quantidade em dias ou horas que esses serviços críticos devem ser restaurados. Daqui a pouco você vai ver um exemplo disso.

 

Atividades do Gerenciamento de Incidentes

Agora que os conceitos fundamentais foram colocados e já entendemos o escopo, podemos nos concentrar em conhecer as 6 principais atividades do gerenciamento de incidentes.

Mais adiante, vamos entender que a execução delas pode se tornar mais detalhada (e incluir outros passos) conforme elas se tornam mais maduras (ou mais familiarizadas) para a área de TI.

O workflow abaixo mostra a sequência das atividades após a ocorrência de um erro ou de uma degradação de qualidade de um serviço

 

 

Vamos detalhar um pouco mais estas atividades.

Detectar

A detecção de incidentes é a constatação de que algo inesperado ocorreu em um serviço e que, provavelmente, já está causando impacto negativo na organização, com piora na experiência dos usuários e mal funcionamento de algum (ou alguns) componente(s) de serviço. Um incidente pode ser detectado de duas formas: 

  1. Usuários reportam um mau funcionamento de um serviço através dos canais de comunicação disponíveis para a área de TI;
  2. Um evento é detectado por um sistema de monitoramento e identificado como incidente de acordo com as regras de classificação pré-definidas.

 

Registrar

O registro de incidentes consiste em anotar o relato descrito na atividade de detecção em algum repositório para que possa ser consultado e atualizado de acordo com as ações realizadas para a resolução do incidente.

Classificar

O incidente deve ser classificado para ajudar a determinar o seu impacto e quem será(ão) o(s) responsável(is) pelo diagnóstico e resolução.

 

Diagnosticar

O diagnóstico consiste nas ações realizadas para a resolução do incidente para que o serviço seja restabelecido ao estado normal o mais rápido possível. Cada ação deve ser registrada no repositório de incidentes para rastreabilidade. A comunicação sobre o andamento do diagnóstico para os usuários pode ser divulgada neste momento, após cada ação ter sido concluída.  

 

Resolver

Quando uma solução é encontrada, o(s) especialista(s) tenta(m) aplicá-la. Se a solução não funcionar, diagnósticos adicionais podem ser realizados.

 

Encerrar

Após um incidente ser resolvido com sucesso, os seguintes procedimentos podem ser realizados para o seu encerramento formal:

  • Confirmação do usuário que o serviço foi restaurado;
  • Análise e revisão do registro.

 

Use os princípios orientadores para uma adoção mais rápida e assertiva do Gerenciamento de Incidentes

É muito comum que as iniciativas de adoção de práticas do ITIL percam o foco e tornem-se extremamente complexas.

Para evitar que isso aconteça, use os princípios orientadores para tomar decisões melhores.

 

“Focar no Valor” – o gerenciamento de incidentes vai trazer mais controle e eficiência para atender a organização na resolução de eventos que impactem o negócio. Os modelos de incidentes podem ser ferramentas úteis para estruturar respostas para os incidentes mais críticos.

“Começar por onde você está” – é muito improvável que uma organização não tenha ao menos alguma atividade de gerenciamento de incidentes implementada. sempre que possível, aproveite o que estiver disponível e procure não reinventar a roda.

“Progredir iterativamente com feedback” – você não precisa ter um playbook completo de como gerenciar os incidentes. Não há problema em dar pequenos passos, desde que sejam para frente.

“Manter simples e prático” – temos uma impressionante capacidade de trazer complexidade para as nossas ações. As vezes basta seguir o “arroz com feijão” e nada mais.

“Colaborar e promover visibilidade” – alguns mitos precisam ser derrubados para que o gerenciamento de incidentes funcione bem. A transparência nas informações e o compartilhamento de conhecimento entre todas as equipes são alguns deles.

“Pensar e trabalhar holisticamente” – o gerenciamento de incidentes funciona melhor se for pensado como parte de um fluxo de valor. outras práticas podem fazer parte deste mesmo fluxo, como gerenciamento de problemas, habilitação de mudanças, central de serviços, etc. É importante compreender o todo.

 

“Otimizar e automatizar” – conforme a prática se torna mais madura e familiar à organização (otimizada), oportunidades de automação vão surgir. use a automação sempre que possível.

 

Use a melhoria contínua para aumentar a maturidade

Ao longo do tempo é possível elevar o nível de maturidade do gerenciamento de incidentes. Veja um exemplo abaixo de como isso poderia funcionar.

 

Maturidade 0 – É hora de adotar!

Vamos começar a adoção da prática, entendendo os Conceitos Fundamentais, o Escopo e as Atividades, como descrito anteriormente.

O próximo passo é revisar os serviços de TI que são oferecidos, considerando quais deles causam maior risco à organização caso eles sejam afetados por um evento não esperado ou por completa interrupção. Vamos colocar alguns exemplos em uma lista:

  • Correio Eletrônico
  • Usuários, Senhas e Acessos
  • Back Office – ERP
  • E-Commerce (Site e App)
  • Micro Informática (computadores, impressoras, periféricos)
  • Telecomunicações (Links de dados, Telefonia Fixa e Celular)

Uma sessão de brainstorming pode ser realizada com a equipe de TI e alguns consumidores de serviço para mapear possíveis eventos que possam acontecer aos serviços e mapear as prioridades de acordo com o que causar mais impacto. O resultado dessa sessão pode determinar níveis de prioridade. Uma sugestão:

Prioridade Impacto Risco Tempo Esperado para Retorno à Normalidade Exemplo
1 – Crítica A organização inteira (ou mais de uma área estratégica) foi afetada ou o negócio não pode ser realizado Alto 8 horas O aplicativo e/ou site de e-commerce está com muitos acessos e está impossibilitando que os usuários naveguem no site e realizem compras dos produtos, resultando em muitas vendas canceladas/perdidas
2 – Alta Uma área estratégica da organização foi afetada ou parte do negócio não pode ser realizada Alto 24 horas A Folha de Pagamento não está sendo processada por um erro no servidor de banco de dados, e isso pode impactar no pagamento dos colaboradores da empresa
3 – Média Um usuário (ou um pequeno grupo de usuários) foi afetado. A organização continua a operar normalmente. Médio 72 horas Um link de dados de uma filial ficou fora do ar, impedindo que essa unidade de negócio realize suas atividades, fazendo com que as ações sejam transferidas para outras localidades ou que acessos alternativos à rede sejam fornecidos aos usuários.
4 – Baixa Um usuário foi afetado. A organização não foi afetada. Baixo 120 horas O laptop do Analista de Contas a Pagar não liga e o computador precisa ser reparado ou substituído.

Tem mais sugestões de priorização de chamados no artigo “8 maneiras de priorizar chamados de suporte”.

O mapeamento de prioridades também pode ser realizado através da Análise de Riscos, descrita com mais detalhes no artigo “Como fazer análise de riscos no gerenciamento de problemas”

Agora, vamos revisar as atividades do Gerenciamento de Incidentes com a Maturidade 0

  • Detectar – usuários reportam um mau funcionamento em algum serviço ao time de suporte técnico por email, telefone, mensagem instantânea, redes sociais ou qualquer meio de comunicação que seja devidamente autorizado pela organização.
  • Registrar – considerando que não há ferramentas de ITSM neste nível de maturidade, os incidentes devem ser registrados em documentos, planilhas, formulários ou outros meios disponíveis, entretanto, os dados registrados são sensíveis e vale a recomendação de usar recursos que estejam disponíveis apenas dentro da organização (em pastas de rede com restrição de acesso ou formulários na intranet, por exemplo).
  • Classificar – usando os critérios desenvolvidos anteriormente (por prioridade, por exemplo)
  • Diagnosticar – um especialista da equipe de suporte se dedica ao diagnóstico. Cada ação aplicada por ele deve ser registrada no repositório de incidentes para rastreabilidade.
  • Resolver – neste momento, as soluções encontradas pelos especialistas podem ser aplicadas com algum acordo entre as partes interessadas, considerando que práticas como Gerenciamento de Liberação, Gerenciamento de Implantação e Habilitação de Mudanças ainda não estão adotadas. Vale a pena analisar os riscos de se aplicar uma solução para evitar que ela cause outros incidentes futuros, especialmente nos incidentes de maior prioridade.
  • Encerrar – os usuários devem ser consultados para confirmar que o incidente foi resolvido e o serviço voltou ao funcionamento normal. Isso também deve ser registrado no repositório de incidentes.

Maturidade 1 – É hora de melhorar!

Neste momento, já temos alguma maturidade no Gerenciamento de Incidentes e podemos pensar em melhorias para deixar a prática um pouco mais apurada.

A Melhoria da prática pode considerar os Fatores de Sucesso do Gerenciamento de Incidentes:

  • detectar os incidentes mais cedo possível;
  • resolver os incidentes de forma rápida e eficiente;
  • melhorar continuamente as ações de gerenciamento de incidentes.

Os Fatores de Sucesso podem ajudar a estabelecer um norte para medir o desempenho do gerenciamento de incidentes e, assim, fornecer um número inicial que pode ser usado como parâmetro de melhoria.

Fator de Sucesso Métricas Chave
Detectar os incidentes mais cedo possível tempo entre a ocorrência do incidente e a sua detecção

porcentagem dos incidentes detectados através do gerenciamento de eventos e monitoramento
Resolver os incidentes de forma rápida e eficiente tempo entre a detecção do incidente e a aceitação para o diagnóstico

tempo de diagnóstico

número de re-atribuições

porcentagem do tempo de espera em todo o processo de gestão do tempo do incidente

taxa de resolução de incidentes no primeiro contato

porcentagem de incidentes resolvidos dentro do tempo acordado para resolução

satisfação do usuário com a gestão e a resolução de incidentes

porcentagem de incidentes resolvidos automaticamente

porcentagem de incidentes resolvidos antes de serem reportados pelos usuários
Melhorar continuamente as ações de gerenciamento de incidentes porcentagem de resoluções de incidentes usando soluções que foram identificadas e registradas anteriormente

porcentagem de incidentes resolvidos usando modelos de incidentes

melhoria dos indicadores chave da prática através do tempo

equilíbrio entre métricas de rapidez e efetividade na resolução de incidentes

O investimento em uma ferramenta de ITSM é necessário para ajudar a atingir os fatores de sucesso. Como a área de TI já está acostumada a executar as atividades do gerenciamento de incidentes, é possível desenhar um Business Case para justificar esse investimento. Aqui, uma sugestão de perguntas que podem ser respondidas para guiar a criação do Business Case:

  • Que problemas estamos buscando resolver?
    • Melhorar a utilização da prática de Gerenciamento de Incidentes;
    • Centralizar a gestão, registro e tratamento de incidentes em um repositório único;
    • Criar canal único para os colaboradores registrarem os incidentes, retirando canais alternativos como e-mail, telefone, redes sociais, etc.
  • Qual será o escopo?
    • Melhoria nas atividades da Prática de Gerenciamento de Incidentes;
  • Quem são os consumidores?
    • Todos os usuários da organização;
  • Quais riscos estamos mitigando ou eliminando?
    • Eliminação do risco de ter um incidente não atendido pela dificuldade de encontrar o registro relacionado;
    • Mitigação do re-trabalho no atendimento de um incidente por mais de um especialista por termos registros de uma mesma ocorrência vindos de origens distintas;
  • Quais opções estão sendo avaliadas e quais os critérios?
    • Construir ou Adquirir;
    • Parceiros e fornecedores avaliados;
    • Características da ferramenta;
    • Custos introduzidos e removidos;
    • Planos e prazos de implementação;
  • Quais ações são esperadas para iniciar a implantação da ferramenta de Gerenciamento de Incidentes?
    • Engajar partes interessadas: consumidores e prestadores de serviço;
    • Realizar ações de Mudança Organizacional para comunicar a mudança na forma de registrar incidentes (de forma centralizada);
    • Criar Escritório de Projetos e reunir recursos especializados;
    • Avaliar o Gerenciamento de Projetos (Agile ou Waterfall);
  • Quais oportunidades, resultados ou valor agregado estamos esperando?
    • Oportunidade de tornar a prática de Gerenciamento de Incidentes mais madura, com maior controle e gestão;
    • Oportunidade de adotar outros tipos de Melhores Práticas de TI, integrando-as através da ferramenta de ITSM, já que ela está pronta para implementá-las em conjunto com o Gerenciamento de Incidentes;
    • Aqui também se podem incluir os Fatores de Sucesso da Prática:
      • oportunidade de detectar os incidentes mais cedo possível;
      • oportunidade de resolver os incidentes de forma rápida e eficiente;
      • oportunidade de melhorar continuamente as ações de gerenciamento de incidentes;
      • oportunidade de medir e melhorar as métricas do gerenciamento de incidentes;

E como podemos melhorar as Atividades?

  • Detectar – usuários reportam um mau funcionamento diretamente na ferramenta de ITSM através de um portal na intranet ou em um app no celular corporativo.
  • Registrar – equipe de suporte faz primeiro contato para confirmar o incidente que foi reportado no sistema de ITSM.
  • Classificar – usando os critérios desenvolvidos anteriormente, devidamente cadastrados na ferramenta.
  • Diagnosticar – estudar a possibilidade de implementar níveis de especialidade (nível 1, 2, etc) ou grupos de atendimento, devidamente registrados. Tudo deve ser anotado no formulário de incidente fornecido pela ferramenta.
  • Resolver – ainda não há integração com outras práticas, mas já é possível ter as ações de solução devidamente registradas na ferramenta.
  • Encerrar – os usuários devem ser consultados para confirmar que o incidente foi resolvido e o serviço voltou ao funcionamento normal. Isso também deve ser registrado na ferramenta.

Maturidade 2 – É hora de expandir e integrar!

Agora que a Prática está mais familiarizada na organização, é hora de expandir a visão do Gerenciamento de Incidentes, pensando em como integrar com outras práticas ITIL:

Prática Atividade
Gerenciamento de Problemas Investigar causas de incidentes
Central de Serviços Comunicação com os usuários
Habilitação de Mudanças
Gerenciamento de Implantação
Gerenciamento de Liberação
Gerenciamento de Infraestrutura e Plataforma
Gerenciamento e Desenvolvimento de Software 
Gerenciamento de Projetos
Implementação de mudanças em produtos e serviços
Gerenciamento de Eventos e Monitoramento Monitorar o desempenho de tecnologia, equipes e fornecedores
Melhoria Contínua Gerenciamento de iniciativas de melhoria
Gerenciamento de Requisição de Serviços Gerenciamento e atendimento de requisições de serviços
Gerenciamento de Continuidade de Serviços Restaurar as operações ao normal em caso de desastre

E as Atividades?

  • Detectar – criar parâmetros em ferramentas de monitoramento para que elas reportem eventos que podem ser classificados como incidentes, criando detecção proativa.
  • Registrar – pode ser delegado à Central de Serviços para posterior atribuição aos especialistas conforme o tipo de incidente e seu grupo resolvedor.
  • Classificar – usando os critérios implementados na ferramenta, com possibilidade de atribuir um incidente a um registro de Requisição de Serviços, Habilitação de Mudanças, Gerenciamento de Problemas, etc.
  • Diagnosticar – buscar oportunidades de automação na resolução através da execução de scripts ou RPA.
  • Resolver – aplicar as ações de resolução, integrando-as com outras práticas como Habilitação de Mudança, Gerenciamento de Liberação, Gerenciamento de Implantação, etc.
  • Encerrar – os usuários devem ser consultados para confirmar que o incidente foi resolvido e o serviço voltou ao funcionamento normal. Pesquisas de satisfação podem ser disparadas para os usuários. Registros de Incidentes podem ser usados como entrada para o Gerenciamento de Problemas, Gerenciamento de Conhecimento e Melhoria Contínua.

 

Conclusão

 

O mais importante é reconhecer um aspecto fundamental sobre as práticas do ITIL. O fato de serem práticas.

O Gerenciamento de Incidentes é a prática mais adotada pelas organizações, por isso, é aquela onde você vai encontrar mais referências para tirar dúvidas.

Você não precisa ter ferramentas de ITSM para adotar o Gerenciamento de Incidentes. Adapte a prática à sua realidade e maturidade! 

Se você não sair dos livros e começar a praticar, não sairá do lugar. 😉

Falando em sair do lugar, o ITSM na Prática é a sua melhor opção para aprender tudo sobre Gerenciamento de Serviços em TI, incluindo o Gerenciamento de Incidentes! Confira nossa lista de treinamentos e faça a diferença na sua empresa e na sua carreira! Entre em contato agora mesmo e tire suas dúvidas.

Compartilhe:

8 Responses

  1. René, que conteúdo incrível. Por favor, faça um ABC do ITSM como adotar a pratica de habilitação de mudanças.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.

Abrir bate-papo
Olá,
Como podemos te ajudar?