Procedimentos de Backup: Checklist Completo para Empresas
Ter software de backup instalado não é suficiente — sem procedimentos documentados e executados, a empresa está tão exposta quanto sem backup. Conheça o checklist completo de rotinas diárias, semanais e mensais que garantem que a proteção funciona quando você precisa.
Pontos-Chave deste Artigo
- Procedimentos ≠ política: política define regras; procedimentos são as ações operacionais do dia a dia
- O checklist cobre 3 frequências: rotinas diárias, semanais e mensais/trimestrais
- Teste de restauração é obrigatório — backup que não restaura é inútil
- Automação elimina 80% dos procedimentos manuais, mas não elimina a necessidade de verificação humana
Por Que Procedimentos de Backup São Essenciais
Ter um software de backup instalado e configurado não significa que a empresa está protegida. Sem procedimentos operacionais documentados e executados, o backup pode estar falhando silenciosamente — e a equipe só descobre quando precisa restaurar dados e percebe que não há nada para restaurar.
Segundo pesquisas do setor, 37% dos backups falham durante a restauração — não porque o software é ruim, mas porque ninguém verificou, testou ou manteve os backups ao longo do tempo. Procedimentos eliminam essa lacuna.
Procedimentos vs Política: A Diferença
| Aspecto | Política de Backup | Procedimentos de Backup |
|---|---|---|
| O que é | Documento estratégico | Instruções operacionais |
| Define | O QUE proteger, por quanto tempo, quem é responsável | COMO executar, verificar, testar e resolver problemas |
| Audiência | Diretoria, compliance, auditores | Equipe de TI (quem opera no dia a dia) |
| Revisão | Anual | Contínua (atualiza a cada mudança de infraestrutura) |
| Exemplo | "Backups devem ser retidos por 90 dias com cópia offsite" | "Todo dia às 8h, abrir o dashboard e verificar se os 5 jobs completaram. Se houver falha, seguir o fluxo de escalação" |
Ambos são necessários. A política sem procedimentos é um documento na gaveta. Os procedimentos sem política são ações sem direção. A LGPD e a ISO 27001 exigem ambos.
Checklist de Procedimentos Diários
Executar todo dia útil, preferencialmente pela manhã (para verificar backups da noite anterior):
| # | Procedimento | O Que Verificar | Ação se Falhar |
|---|---|---|---|
| 1 | Verificar status dos jobs | Todos os backups agendados completaram com sucesso (status "OK" ou "Success") | Investigar erro, corrigir causa, re-executar manualmente |
| 2 | Verificar volume de dados | O volume do backup de hoje é consistente com os dias anteriores (variação < 20%) | Variação >50% pode indicar ransomware criptografando (volume sobe) ou exclusão massiva (volume cai) |
| 3 | Verificar replicação offsite | A cópia para nuvem ou data center remoto completou | Verificar conectividade, largura de banda, credenciais |
| 4 | Verificar espaço de storage | Storage do repositório de backup tem > 20% livre | Revisar retenção, limpar backups expirados, expandir storage |
| 5 | Verificar alertas e notificações | Não há alertas pendentes no sistema de monitoramento | Resolver cada alerta antes do próximo ciclo de backup |
| 6 | Registrar no log | Documentar status, incidências e ações tomadas | Manter registro para compliance e auditoria |
Tempo estimado: 10-15 minutos por dia com ferramenta automatizada (dashboard). 30-60 minutos se for manual (acessar cada servidor individualmente).
Checklist de Procedimentos Semanais
| # | Procedimento | Detalhes |
|---|---|---|
| 1 | Teste de restauração de arquivos | Selecionar aleatoriamente 3-5 arquivos de diferentes servidores e restaurar em local temporário. Verificar integridade (abrir, comparar tamanho/hash) |
| 2 | Revisão de erros recorrentes | Analisar logs da semana. Se o mesmo erro aparece mais de 2x, é um problema estrutural — resolver a causa raiz |
| 3 | Verificação de novos sistemas | Algum servidor, VM, banco de dados ou SaaS novo foi adicionado na semana? Se sim, incluir na política de backup |
| 4 | Relatório semanal | Consolidar: total de backups OK/falhos, volume total protegido, incidências resolvidas. Enviar ao gestor de TI |
Tempo estimado: 30-60 minutos por semana. O teste de restauração é o item mais importante — nunca pule.
Checklist de Procedimentos Mensais e Trimestrais
Mensal
| # | Procedimento | Detalhes |
|---|---|---|
| 1 | Teste de restauração de banco de dados | Restaurar backup de banco de dados completo em ambiente de teste. Verificar integridade com queries de validação |
| 2 | Revisão de capacidade | Projetar crescimento de storage para os próximos 3 meses. Se o uso ultrapassar 70%, planejar expansão |
| 3 | Revisão de retenção | Verificar se a política de retenção está adequada. Dados sendo retidos mais ou menos do que o necessário? |
| 4 | Atualização de software | Verificar se há atualizações do agente de backup. Aplicar em ambiente de teste antes de produção |
| 5 | Relatório mensal | Métricas: taxa de sucesso de backup (meta: >99%), volume total protegido, RPO/RTO real vs meta, incidentes |
Trimestral
| # | Procedimento | Detalhes |
|---|---|---|
| 1 | Teste de bare-metal recovery | Restaurar 1 servidor completo (SO + apps + dados) em hardware de teste ou VM. Validar que o servidor inicia e funciona normalmente |
| 2 | Teste de disaster recovery | Se a empresa tem DRaaS, executar failover de teste para validar que o ambiente na nuvem funciona |
| 3 | Revisão de política | A política reflete a realidade atual? Novos sistemas, novos regulamentos, mudanças de negócio? |
| 4 | Auditoria de acesso | Quem tem acesso ao sistema de backup? Remover usuários inativos. Garantir MFA habilitado para administradores |
| 5 | Teste de segurança | Verificar criptografia ativa, imutabilidade configurada, acessos segregados |
O Procedimento Mais Importante: Teste de Restauração
De todos os procedimentos listados acima, o teste de restauração (Restore Drill) é o mais crítico e o mais negligenciado. Backup que não restaura é lixo digital ocupando espaço.
Tipos de Teste de Restauração
| Tipo | Frequência | O Que Testar | Tempo Estimado |
|---|---|---|---|
| Arquivo individual | Semanal | Restaurar 3-5 arquivos aleatórios. Verificar conteúdo | 15-30 minutos |
| Banco de dados | Mensal | Restaurar banco completo em ambiente de teste. Rodar queries de validação | 1-4 horas |
| Bare-metal | Trimestral | Restaurar servidor inteiro (SO + apps + dados). Verificar boot e funcionamento | 2-6 horas |
| Disaster recovery | Semestral | Failover completo para ambiente de DR. Testar todas as aplicações | 4-8 horas |
Como Documentar o Teste
Cada teste de restauração deve registrar:
- Data e hora do teste
- Sistema restaurado (servidor, banco de dados, tipo de backup)
- Ponto de restauração usado (data do backup)
- Tempo de restauração real (comparar com RTO definido na política)
- Resultado: sucesso, sucesso parcial ou falha
- Problemas encontrados e ações corretivas
- Responsável pelo teste
Esses registros são evidência para auditorias de LGPD, ISO 27001 e BACEN.
Fluxo de Escalação: O Que Fazer Quando o Backup Falha
Uma falha de backup precisa de resposta imediata. O fluxo de escalação define quem resolve e em quanto tempo:
- Nível 1 (0-30 min): Operador de TI verifica logs, identifica causa, tenta resolver (reiniciar serviço, liberar espaço, corrigir configuração). Se resolver, re-executa o backup e documenta
- Nível 2 (30 min — 2h): Se não resolver, escalar ao administrador de backup. Análise mais profunda — problemas de rede, compatibilidade, corrupção
- Nível 3 (2h+): Se persistir, acionar suporte do fornecedor de backup. Para clientes DataBackup, o suporte responde em até 30 minutos em horário comercial
- Gestão (4h+): Se a falha não for resolvida em 4 horas, notificar o gestor de TI. Se afetar RPO, notificar a área de negócio afetada
Regra de ouro: nunca deixe uma falha de backup sem resolução por mais de 24 horas. Se o backup de ontem falhou e o de hoje também falhar, a empresa está com 48h de dados desprotegidos.
Automação de Procedimentos
A automação elimina a maioria dos procedimentos manuais, mas não elimina a necessidade de verificação humana. Uma ferramenta de backup profissional automatiza:
- Execução de jobs: agendamento automático (diário, a cada 4h, contínuo)
- Verificação de integridade: checksum automático após cada backup
- Replicação offsite: envio automático para nuvem
- Alertas de falha: e-mail/SMS/webhook quando um backup falha
- Relatórios: dashboards com taxa de sucesso, volume e tendências
- Gestão de retenção: expiração automática de backups antigos
O que ainda precisa de humano:
- Teste de restauração: verificar que os dados restaurados estão íntegros e utilizáveis
- Revisão de novos sistemas: garantir que novos servidores/bancos foram incluídos no backup
- Decisões de negócio: ajustar retenção, priorizar sistemas, aprovar mudanças
- Investigação de anomalias: volumes anormais podem indicar ransomware ou exclusão massiva
Modelo de Registro Operacional
Mantenha um registro (log) de todas as operações de backup. Pode ser planilha, sistema de tickets ou funcionalidade do próprio software de backup. Informações mínimas por registro:
| Campo | Exemplo |
|---|---|
| Data | 2026-04-22 |
| Operador | Carlos Silva |
| Tipo de verificação | Checklist diário |
| Status geral | 5/5 jobs OK, 1 alerta de espaço (resolvido) |
| Incidências | Storage repository em 78%. Limpeza de backups expirados liberou 200 GB |
| Ações tomadas | Executada rotina de garbage collection. Agendada expansão para 05/2026 |
| Próxima ação | Monitorar crescimento; se atingir 85%, antecipar expansão |
Checklist Consolidado: Diário, Semanal e Mensal em uma Visão
Para facilitar a implementação, aqui está o checklist consolidado com todas as rotinas organizadas por frequência. Imprima ou salve como template para sua equipe de TI.
| Frequência | # | Procedimento | Tempo Estimado | Responsável | Evidência Gerada |
|---|---|---|---|---|---|
| Diário | D1 | Verificar status de todos os jobs de backup | 5 min | Operador de TI | Log diário no dashboard |
| D2 | Verificar volume de dados (anomalias >20%) | 2 min | Operador de TI | Registro de volume | |
| D3 | Confirmar replicação offsite completada | 2 min | Operador de TI | Status de replicação | |
| D4 | Verificar espaço de storage (>20% livre) | 1 min | Operador de TI | Relatório de capacidade | |
| D5 | Resolver alertas pendentes | 5-15 min | Operador de TI | Registro de resolução | |
| D6 | Registrar status no log operacional | 2 min | Operador de TI | Log operacional | |
| Semanal | S1 | Teste de restauração de 3-5 arquivos aleatórios | 15-30 min | Operador de TI | Relatório de restore drill |
| S2 | Revisão de erros recorrentes da semana | 10 min | Administrador de backup | Análise de tendências | |
| S3 | Verificar inclusão de novos sistemas no backup | 5 min | Administrador de backup | Inventário atualizado | |
| S4 | Enviar relatório semanal ao gestor de TI | 10 min | Operador de TI | Relatório consolidado | |
| Mensal | M1 | Teste de restauração de banco de dados completo | 1-4h | DBA + Operador | Relatório de restore drill |
| M2 | Revisão de capacidade (projeção 3 meses) | 30 min | Administrador de backup | Projeção de crescimento | |
| M3 | Revisão de retenção (adequação à política) | 15 min | Administrador de backup | Relatório de retenção | |
| M4 | Verificar atualizações de software de backup | 30 min | Administrador de backup | Registro de versões | |
| M5 | Relatório mensal com KPIs | 30 min | Gestor de TI | Dashboard de KPIs | |
| Trimestral | T1 | Teste de bare-metal recovery | 2-6h | Administrador de backup | Relatório de restore drill |
| T2 | Teste de disaster recovery (failover DRaaS) | 4-8h | Equipe de DR | Relatório de failover | |
| T3 | Revisão da política de backup | 1-2h | Gestor de TI + Compliance | Política revisada | |
| T4 | Auditoria de acesso (MFA, usuários inativos) | 30 min | Segurança | Relatório de auditoria | |
| T5 | Verificar criptografia e imutabilidade | 30 min | Segurança | Relatório de compliance |
Tempo total estimado: ~20 min/dia + 1h/semana + 6h/mês + 12h/trimestre. Para uma empresa com ferramenta automatizada como a DataBackup, o tempo diário cai para menos de 5 minutos graças ao dashboard centralizado com alertas proativos.
Template de Documentação de Procedimentos
Cada procedimento de backup precisa estar documentado de forma que qualquer membro da equipe de TI consiga executá-lo — mesmo que nunca tenha feito antes. Use o modelo abaixo como base.
Modelo de Ficha de Procedimento
| Campo | Descrição | Exemplo |
|---|---|---|
| Nome do procedimento | Título descritivo e único | PRD-D01: Verificação Diária de Jobs de Backup |
| Código / ID | Identificador para referência rápida | PRD-D01 |
| Frequência | Quando deve ser executado | Diário, às 08:00 (dias úteis) |
| Responsável titular | Quem executa normalmente | Carlos Silva (Operador de TI) |
| Responsável substituto | Quem executa na ausência do titular | Maria Santos (Analista de Suporte) |
| Pré-requisitos | O que é necessário antes de iniciar | Acesso ao dashboard de backup, VPN ativa (se remoto) |
| Passos detalhados | Instruções passo a passo | 1. Acessar dashboard em backup.empresa.com.br; 2. Verificar painel "Status dos Jobs"... |
| Critério de sucesso | Como saber se o procedimento foi concluído com sucesso | Todos os jobs com status "OK"; volume dentro da faixa esperada |
| Critério de falha | O que constitui falha e requer escalação | Qualquer job com status "Falha" ou "Incompleto"; volume com variação >50% |
| Escalação | Para quem escalar em caso de falha | Nível 1: Administrador de backup (30 min); Nível 2: Suporte DataBackup (2h) |
| Tempo estimado | Duração normal do procedimento | 10-15 minutos |
| Última revisão | Data da última atualização do procedimento | 2026-04-24 |
Dica: mantenha a documentação em local acessível a toda a equipe de TI — wiki interna, SharePoint, ou pasta compartilhada. Evite documentar apenas em papel ou em arquivo local do operador. Se o operador estiver indisponível, a documentação precisa ser acessível por outra pessoa.
Exemplo Completo: Procedimento de Verificação Diária
PRD-D01: Verificação Diária de Jobs de Backup
- Acessar o dashboard de backup às 08:00
- No painel "Status dos Jobs", verificar se todos os jobs agendados para a noite anterior completaram com status "OK" ou "Success"
- Para cada job com status "Falha":
- Abrir o log detalhado do job
- Identificar a causa (espaço insuficiente, timeout, servidor offline, erro de rede)
- Corrigir a causa raiz
- Re-executar o job manualmente
- Verificar se o job re-executado completou com sucesso
- Se não resolver em 30 minutos, escalar ao administrador de backup
- No painel "Volume de Dados", comparar o volume do backup de hoje com a média dos últimos 7 dias. Variação acima de 50% é alerta crítico — pode indicar ransomware (volume sobe abruptamente) ou exclusão massiva (volume cai)
- Verificar painel de replicação offsite — confirmar que a cópia para nuvem completou
- Verificar espaço de storage — se abaixo de 20% livre, abrir chamado para expansão
- Registrar o status no log operacional: data, operador, status geral, incidências, ações tomadas
Matriz de Escalação para Falhas de Backup
Quando um backup falha, a resposta precisa ser rápida e estruturada. A matriz abaixo define quem é acionado, quando e com que expectativa de resolução.
| Nível | Tempo | Responsável | Ações | Critério de Escalação |
|---|---|---|---|---|
| Nível 0 (Automático) | Imediato | Sistema de monitoramento | Enviar alerta via e-mail/SMS ao operador de plantão | Qualquer job com falha detectada |
| Nível 1 | 0-30 min | Operador de TI | Analisar log, identificar causa, tentar correção (reiniciar serviço, liberar espaço, reconectar agente) | Se não resolver em 30 min, escalar |
| Nível 2 | 30 min — 2h | Administrador de backup | Análise profunda: problemas de rede, compatibilidade, corrupção de repositório, conflito de agentes | Se não resolver em 2h, escalar |
| Nível 3 | 2h — 4h | Suporte do fornecedor | Diagnóstico avançado com acesso remoto. Para clientes DataBackup: resposta em até 30 min, suporte em horário comercial | Se não resolver em 4h, escalar para gestão |
| Gestão | 4h+ | Gestor de TI / CISO | Avaliar impacto no RPO, notificar área de negócio afetada, definir plano de contingência | Se afetar compliance ou continuidade de negócios |
| Diretoria | 8h+ | C-level | Decidir sobre medidas extraordinárias, comunicação a clientes, ativação de plano de DR | Risco de perda de dados ou violação regulatória |
Regras de Ouro para Escalação
- Nunca ignore uma falha de backup por mais de 24h. Se o backup de ontem falhou e o de hoje também falhar, a empresa tem 48h de dados desprotegidos
- Falha em sistema crítico (Tier 0/1) = escalação imediata para Nível 2. Não espere 30 minutos — sistemas críticos não podem ficar desprotegidos
- Falha recorrente (3+ vezes na semana) = problema estrutural. Escalar ao administrador com análise de tendência, não apenas o log do último erro
- Qualquer falha de replicação offsite = alerta alto. Sem cópia offsite, a empresa está vulnerável a desastres físicos e ransomware
- Volume anômalo (>50% variação) = investigação de segurança. Antes de tratar como problema de backup, descarte a possibilidade de ransomware
SLAs Internos para Operações de Backup
Definir SLAs (Service Level Agreements) internos para operações de backup transforma o backup de "tarefa técnica" em "serviço gerenciado" com métricas mensuráveis. Isso facilita o reporte à diretoria, justifica investimentos e garante compliance.
| Métrica / SLA | Meta Recomendada | Métrica Crítica | Como Medir |
|---|---|---|---|
| Taxa de sucesso de jobs | ≥ 99% por mês | < 95% = alerta crítico | (jobs OK / total de jobs) x 100 |
| Tempo de resolução de falhas (sistemas críticos) | ≤ 4 horas | > 8h = violação de SLA | Tempo entre alerta e resolução confirmada |
| Tempo de resolução de falhas (demais sistemas) | ≤ 24 horas | > 48h = violação de SLA | Tempo entre alerta e resolução confirmada |
| Frequência de teste de restauração | Semanal (arquivos), mensal (BD), trimestral (bare-metal) | Atraso > 1 semana = violação | Registro de testes no log operacional |
| Sucesso de restauração em teste | 100% | < 100% = ação corretiva imediata | Dados restaurados com integridade verificada |
| RPO real vs RPO declarado | RPO real ≤ RPO declarado | RPO real > 2x declarado = alerta | Diferença entre último backup OK e horário do incidente |
| RTO real vs RTO declarado | RTO real ≤ RTO declarado | RTO real > 2x declarado = alerta | Medido durante restore drill |
| Disponibilidade do sistema de backup | ≥ 99,9% | < 99,5% = revisão de infraestrutura | Uptime do servidor/serviço de backup |
| Cobertura de inventário | 100% dos sistemas no backup | Qualquer sistema descoberto = risco | Inventário de TI vs jobs de backup configurados |
| Conformidade com retenção | 100% aderente à política | Qualquer violação = ação corretiva | Relatório de retenção vs política definida |
Como Reportar SLAs à Diretoria
Um relatório mensal de SLAs de backup deve conter:
- Resumo executivo: "Em abril/2026, a taxa de sucesso de backup foi de 99,7%. Foram realizados 4 testes de restauração com 100% de sucesso. O RPO real médio é de 2,3 horas (meta: 4 horas)"
- Indicadores em formato visual: verde (dentro do SLA), amarelo (próximo do limite), vermelho (violação)
- Incidentes relevantes: falhas que precisaram de escalação, tempo de resolução, causa raiz
- Tendências: crescimento de volume, projeção de capacidade, variação de taxa de sucesso
- Ações pendentes: expansão de storage, atualização de agente, inclusão de novos sistemas
Este tipo de reporte transforma backup em governança de TI — essencial para demonstrar compliance com LGPD, ISO 27001 e regulamentações setoriais.
A DataBackup inclui dashboard centralizado com histórico de todos os backups, alertas automáticos via e-mail e relatórios exportáveis para auditoria — reduzindo o tempo de verificação diária para menos de 5 minutos. Com backup imutável, criptografia AES-256 e suporte técnico dedicado, a operação de backup da sua empresa fica profissional e auditável. Teste grátis 14 dias.
Com a DataBackup, verificação diária leva menos de 5 minutos. Dashboard centralizado, alertas automáticos, relatórios de auditoria e monitoramento 24/7 inclusos em todos os planos. Teste 14 dias grátis.
Testar 14 Dias Grátis Falar com Especialista