Failover: O Que É, Tipos e Como Funciona na Prática
Quando um servidor crítico falha, cada minuto conta. Failover é o mecanismo que transfere automaticamente a operação para um sistema de backup — sem intervenção manual e, idealmente, sem que os usuários percebam. Entenda os tipos, como funciona e como implementar.
Pontos-Chave deste Artigo
- Failover transfere a operação para um sistema de backup quando o principal falha
- Tipos: automático (cluster, 30s-5min), DNS (5-30min), manual (15-60min), DRaaS (15-30min)
- Failover ≠ Disaster Recovery — failover é um mecanismo; DR é a estratégia completa
- Justifica-se quando o custo do downtime supera o investimento em redundância
O Que é Failover
Failover é o mecanismo que transfere automaticamente a operação de um sistema que falhou para um sistema redundante. Quando o servidor principal de e-mail cai, o servidor de failover assume. Quando o banco de dados primário para, a réplica assume. Os usuários podem nem perceber que houve uma troca.
O termo vem do inglês: "fail" (falhar) + "over" (passar para). Literalmente: "quando falhar, passar para outro".
Failover vs Failback
| Conceito | Definição | Quando Acontece |
|---|---|---|
| Failover | Transferir operação do primário para o secundário | Quando o sistema principal falha |
| Failback | Transferir operação de volta para o primário | Quando o sistema principal é reparado |
O failback é tão importante quanto o failover. Sem failback planejado, a empresa fica rodando indefinidamente no sistema secundário — que pode ter limitações de performance, capacidade ou localização.
Tipos de Failover
1. Failover Automático (Cluster)
O tipo mais rápido. Dois ou mais servidores formam um cluster de alta disponibilidade. Um mecanismo de heartbeat monitora constantemente se o nó primário está respondendo. Se detectar falha, o cluster promove automaticamente o nó secundário — sem intervenção humana.
Tecnologias:
- Windows Server Failover Cluster (WSFC): para SQL Server, Hyper-V, File Server, Exchange
- VMware vSphere HA: reinicia VMs em outro host se o host original falhar
- Proxmox HA: similar ao VMware HA para ambiente open source
- Linux Pacemaker/Corosync: cluster HA para serviços Linux (PostgreSQL, MySQL, Apache)
Tempo de failover: 30 segundos a 5 minutos
Custo: Alto (hardware duplicado + licenças cluster)
Quando usar: Servidores críticos com RTO < 5 minutos
2. Failover DNS
O DNS que aponta para o servidor principal é atualizado para apontar para o servidor de backup. Pode ser automático (DNS health check) ou manual (alterar registro). O tempo de propagação depende do TTL (Time to Live) configurado no DNS.
Tempo de failover: 5 a 30 minutos (depende do TTL)
Custo: Baixo (não requer cluster, apenas DNS e servidor de backup)
Quando usar: Sites, APIs, serviços web com RTO de 15-30 minutos
3. Failover Manual
Um técnico identifica a falha, toma a decisão e executa o procedimento de troca manualmente. Mais lento, mas às vezes necessário quando a decisão de failover requer análise humana (ex: falha intermitente que pode se resolver sozinha).
Tempo de failover: 15 a 60+ minutos
Custo: Baixo (operacional)
Quando usar: Sistemas com RTO tolerante (4-8h), quando failover automático não justifica o custo
4. Failover na Nuvem (DRaaS)
O servidor de backup fica na nuvem, mantido como réplica ou backup. Quando o servidor on-premise falha, a réplica na nuvem é ativada. Com tecnologia Run Direct, a VM pode ser iniciada diretamente a partir do backup — sem esperar restauração completa.
Tempo de failover: 15 a 30 minutos (Run Direct)
Custo: Moderado (assinatura DRaaS)
Quando usar: PMEs que precisam de failover mas não podem duplicar hardware on-premise
Comparativo dos Tipos de Failover
| Tipo | Tempo de Troca | Automático? | Custo | Complexidade | Ideal Para |
|---|---|---|---|---|---|
| Cluster HA | 30s — 5 min | Sim | Alto | Alta | Bancos de dados, ERP, e-mail (enterprise) |
| DNS failover | 5 — 30 min | Semi | Baixo | Média | Sites, APIs, serviços web |
| Manual | 15 — 60 min | Não | Baixo | Baixa | Sistemas não-críticos, contingência |
| DRaaS (Run Direct) | 15 — 30 min | Semi | Moderado | Baixa | PMEs, servidores on-premise sem redundância |
Failover vs Disaster Recovery vs Backup
Esses três conceitos são frequentemente confundidos. Cada um resolve um problema diferente:
| Conceito | Resolve | Tempo de Recuperação | Exemplo |
|---|---|---|---|
| Failover | Manter serviço disponível durante falha | Segundos a minutos | Servidor de BD cai → réplica assume |
| Disaster Recovery | Recuperar operação após desastre | Minutos a horas | Data center inundado → ativar DR na nuvem |
| Backup | Recuperar dados perdidos ou corrompidos | Horas a dias | Ransomware criptografou → restaurar do backup |
Failover é um mecanismo técnico. Disaster Recovery é uma estratégia que pode incluir failover. Backup é a proteção de dados que sustenta ambos. A proteção completa precisa dos três.
Quando Failover se Justifica
Failover requer investimento: hardware redundante, licenças, configuração e manutenção. Para justificar, calcule:
Se (custo do downtime/hora × horas de RTO sem failover) > custo anual do failover → compensa.
| Cenário | Custo Downtime/Hora | RTO sem Failover | Prejuízo por Incidente | Failover Justifica? |
|---|---|---|---|---|
| E-commerce | R$ 50.000 | 4-8h (restore) | R$ 200.000-400.000 | Sim |
| Fintech | R$ 100.000+ | 4-8h | R$ 400.000+ | Sim |
| ERP (indústria) | R$ 30.000 | 8-24h | R$ 240.000-720.000 | Sim |
| File server (escritório) | R$ 5.000 | 4-8h | R$ 20.000-40.000 | Depende da frequência |
| Sistema interno não-crítico | R$ 1.000 | 24h | R$ 24.000 | Provavelmente não |
Como a DataBackup Implementa Failover
Para PMEs que precisam de failover sem o custo e complexidade de clusters on-premise, a DataBackup oferece DRaaS (Disaster Recovery as a Service):
- Run Direct: inicia a VM diretamente a partir do backup na nuvem em 15-30 minutos — sem esperar restauração completa
- Live VM Migration: após o Run Direct, a VM migra para o ambiente definitivo enquanto continua operando
- Failback automatizado: quando o servidor on-premise é reparado, os dados são sincronizados de volta e a operação retorna
- Backup imutável: garante que o backup usado no failover está íntegro — ransomware não pode corromper
- Teste de failover sem impacto: teste o DR em ambiente isolado, sem afetar produção
Tudo isso integrado ao backup corporativo — não precisa de produto separado. O mesmo agente que faz backup diário mantém os dados prontos para failover. A partir de R$ 159,90/mês. Teste grátis 14 dias.