5 templates especializadas

Kit gestão de incidentes

Tudo para gerir incidentes do início ao fim. 5 templates que cobrem desde o registo inicial até à revisão pós-incidente e comunicação de crise.

Descarregar kit completo (ZIP)

5 ficheiros Word e Excel, ~133 KB

A gestão de incidentes é o processo ITSM mais visível porque é onde os utilizadores interagem directamente com a TI. Quando um serviço falha, o que importa é a rapidez com que é restaurado. O ITIL 4 define um ciclo de vida com 7 fases: detecção, registo, categorização, priorização, investigação e diagnóstico, resolução e encerramento. Este kit cobre cada uma destas fases com templates práticas e prontas a usar.

A diferença entre uma equipa reactiva e uma equipa profissional está na consistência. Registar incidentes de forma padronizada, com a mesma matriz de prioridade e os mesmos campos, permite identificar padrões recorrentes, medir tempos reais de resolução (MTTR) e justificar investimentos em automação ou pessoal com dados concretos. Sem registo consistente, é impossível provar se o serviço está a melhorar ou a piorar.

As equipas de alto desempenho focam-se em 7 métricas core: MTTR (tempo médio de resolução), MTTA (tempo até ao primeiro reconhecimento), MTTD (tempo até à detecção), MTBF (tempo entre falhas), volume de incidentes por severidade, taxa de resolução no primeiro contacto e cumprimento de SLA. Os benchmarks variam com a dimensão da organização: equipas pequenas visam um MTTR de 2-4 horas para incidentes críticos, enquanto grandes empresas conseguem menos de 1 hora. O objectivo realista é uma melhoria de 20% por trimestre em relação ao baseline actual da sua equipa.

Templates incluídas neste kit

Registo de incidentes

Word

Formulário Word com campos para descrição do incidente, utilizador afectado, serviço impactado, classificação por impacto (alto: organização inteira ou processos críticos de negócio; médio: departamento ou serviço importante; baixo: utilizador individual) e urgência (alta: resolver em 2-4 horas; média: no mesmo dia; baixa: 2-3 dias úteis). A combinação gera a prioridade P1 a P4 segundo a matriz incluída. Secções de acompanhamento cronológico com timestamps, workaround aplicado e resolução final com causa identificada.

Descarregar .docx

Registo de major incidente

Word

Template dedicada para incidentes P1 com secções que não existem no registo normal: timeline detalhada com hora de detecção, comunicação inicial, contenção e resolução; lista de serviços e utilizadores afectados com estimativa de impacto financeiro; equipa de resposta com 4 papéis definidos segundo o modelo Google SRE (incident commander que coordena e mantém a visão global, ops lead que executa alterações técnicas, communications lead que informa stakeholders a intervalos regulares, planning lead que gere logística e handoffs de turno); acções de mitigação em curso e decisões tomadas durante a crise. Inclui secção de war room (físico ou virtual) com regras de comunicação. Obrigatória para qualquer incidente que afecte serviços críticos de negócio.

Descarregar .docx

Relatório de tendências de incidentes

Excel

Dashboard Excel com tabelas dinâmicas pré-configuradas para analisar incidentes por categoria, prioridade, equipa de resolução e período. Calcula automaticamente o MTTR (tempo médio de resolução) por prioridade, a taxa de resolução no primeiro contacto (first contact resolution) e a percentagem de reaberturas. Gráficos de tendência mensal que mostram se o volume está a subir ou a descer e se os tempos estão a melhorar. O benchmark da indústria para MTTR de P1 é inferior a 4 horas.

Descarregar .xlsx

Checklist de revisão pós-major

Excel

Lista de verificação em Excel com 25+ itens organizados em 5 fases: preparação da revisão (recolher dados, convocar participantes), reconstrução da timeline (o que aconteceu, quando e porquê), análise de causa-raiz usando a técnica dos 5 Porquês, identificação de acções preventivas com responsável e prazo, e seguimento da implementação dessas acções. Cada item tem campo de estado (feito/pendente/não aplicável) e responsável. A revisão deve acontecer nos 5 dias úteis seguintes ao encerramento do incidente.

Descarregar .xlsx

Comunicação de incidente major

Word

Três modelos de comunicação em Word para diferentes fases: notificação inicial (a enviar nos primeiros 15 minutos, mesmo sem causa identificada), actualização de progresso (a enviar a cada 60 minutos ou quando houver alteração de estado) e relatório final pós-resolução (a enviar nas 24 horas seguintes ao encerramento). Cada modelo tem campos para preencher e texto sugerido adaptável. Inclui lista de distribuição recomendada por tipo de stakeholder: gestão de topo (resumo executivo), gestores operacionais (detalhe técnico) e utilizadores finais (impacto e previsão).

Descarregar .docx

Como usar este kit

  1. Comece pelo registo de incidentes e forme toda a equipa de service desk. O objectivo imediato é que 100% dos incidentes sejam registados com campos correctamente preenchidos, especialmente impacto e urgência. A consistência no preenchimento é mais importante do que a rapidez. Sem dados fiáveis, nenhum relatório ou SLA vai funcionar.

  2. Adapte a matriz de prioridade à realidade do seu negócio. A template inclui uma matriz padrão (P1 = impacto alto + urgência alta), mas a sua organização pode ter excepções. Um sistema de facturação em baixo pode ser sempre P1, mesmo que afecte poucos utilizadores, porque bloqueia receita. Documente essas excepções na própria matriz.

  3. Defina o processo de major incident antes de precisar dele. O Google SRE define 3 critérios para declarar um incidente: é preciso envolver uma segunda equipa, a falha é visível para clientes, ou o problema não está resolvido após 1 hora de análise concentrada. Determine quem pode declarar, quem assume cada papel (incident commander, ops lead, communications lead), com que frequência se enviam actualizações e quem as recebe. Treine a equipa com simulações regulares de incidentes já resolvidos.

  4. Agende a revisão pós-incidente (PIR) para todos os P1 nos 5 dias úteis após o encerramento. Use a checklist incluída e aplique os 5 Porquês para chegar à causa-raiz. A PIR deve focar-se em melhorar o processo e nunca em culpar pessoas. Convide todas as equipas envolvidas na resolução.

  5. Após 4-6 semanas de dados consistentes, comece a usar o relatório de tendências. Identifique as 3 categorias de incidentes mais frequentes e trabalhe com a gestão de problemas para eliminar as causas-raiz. Este é o passo que transforma a equipa de reactiva em proactiva e que gera a maior redução de volume a médio prazo.

Dicas práticas

Use a regra 15-60 para comunicação P1

Nos primeiros 15 minutos de um major incident, envie a notificação inicial mesmo que ainda não saiba a causa. Diga o que sabe: que serviço está afectado, desde quando e qual é o impacto estimado. Depois, actualize a cada 60 minutos ou quando houver mudança de estado. Os stakeholders toleram problemas; o que não toleram é silêncio.

Separe impacto de urgência na classificação

Impacto mede quantas pessoas ou processos de negócio são afectados. Urgência mede quão depressa a situação se degrada. Email em baixo para 500 pessoas é impacto alto. Se existe webmail como alternativa, a urgência pode ser média e a prioridade resultante é P2, não P1. Sem esta separação, tudo se torna P1 e a priorização perde significado.

Não feche sem confirmar com o utilizador

Um incidente só está resolvido quando o utilizador confirma que o serviço funciona. Resolução técnica e resolução de serviço são coisas diferentes: o servidor pode estar a funcionar, mas a aplicação do utilizador continua em erro. Configure um período de 48-72 horas entre resolução técnica e fecho automático, com notificação ao utilizador para confirmar.

Meça o MTTR por prioridade, não global

O tempo médio de resolução global mistura P1 (resolvidos em horas) com P4 (resolvidos em dias) e produz um número inútil. Meça MTTR por prioridade. Equipas de alto desempenho resolvem SEV-1 em menos de 1 hora, SEV-2 em menos de 4 horas e SEV-3 em menos de 24 horas. Se a sua equipa é mais pequena, um alvo de 2-4 horas para P1 é realista. Defina o baseline actual e vise 20% de melhoria por trimestre.

Precisa de mais templates ou quer explorar outros kits temáticos?