Como implementar circuit breaker em microservices

O desenvolvimento de software é cada vez mais complexo, pois envolve a integração de múltiplas partes e sistemas em ambientes distribuídos. Essa complexidade pode levar a problemas de desempenho e disponibilidade, como falhas cascadas e sobrecarga de serviços. Um dos conceitos utilizados para mitigar esses problemas é o circuit breaker, um padrão de projeto que ajuda a prevenir danos causados por falhas em microserviços.

A implementação do circuit breaker em microservices permite identificar rapidamente as falhas e evitar a propagação delas para outros serviços. Além disso, ele pode ajudar na detecção de problemas recorrentes, permitindo que os administradores de sistema tomem medidas corretivas antes que se tornem críticas.

Neste artigo, você aprenderá sobre as principais características do circuit breaker e como implementá-lo em suas aplicações de microserviços. Você também entenderá como configurar as políticas de falha e reconstrução, além de explorar exemplos práticos e suas implicações. Ao final deste conteúdo, você estará capacitado a aplicar o circuit breaker no desenvolvimento de seus projetos de software.

O que ele é e o que resolve

O circuit breaker é um padrão de projeto inspirado na mecânica, projetado para proteger os microserviços contra falhas em cascata (cascading failures) e sobrecarga de serviços. Ele funciona como uma "interruptor" automático, que detecta quando um serviço está apresentando problemas e desativa-o por um período determinado, evitando assim que outros serviços sejam afetados pela falha.

O circuit breaker resolve dois principais problemas:

Falhas em cascata: Quando um microserviço falhar, pode levar a uma série de falhas subsequentes em outros serviços que dependem dele, causando um efeito dominó. O circuit breaker ajuda a identificar rapidamente as falhas e evitar a propagação delas para outros serviços.
Sobrecarga de serviços: Em casos de alta demanda, os microserviços podem ser sobrecarregados, levando a mais falhas e complicações. O circuit breaker pode ajudar a detectar quando um serviço está sobrecarregado e tomar medidas para reduzir a carga.

Com o circuit breaker, é possível:

Identificar rapidamente as falhas: O circuit breaker permite identificar problemas em serviços individuais, antes que eles afetem outros serviços.
Evitar a propagação de falhas: Desativando os serviços problemáticos por um período determinado, o circuit breaker evita que outras partes do sistema sejam afetadas pela falha.
Reduzir a sobrecarga de serviços: Ao detectar quando um serviço está sobrecarregado, o circuit breaker pode ajudar a reduzir a carga e evitar mais falhas.

O circuit breaker é uma solução eficaz para melhorar a disponibilidade e resiliência dos microserviços em ambientes distribuídos.

Como é seu funcionamento

O circuit breaker é composto por três estados principais: efeito de abertura, efeito de fechamento e efeito de temporário.

Efeito de Abertura (Open)

Quando o circuito está aberto, os clientes não podem acessar o serviço correspondente. Isso ocorre quando uma determinada taxa de falhas é alcançada em um período determinado.

Taxa de falha: O circuit breaker configura uma taxa de falha que deve ser alcançada dentro de um período de tempo para que o estado de abertura seja ativado.
Período de tempo: Esse período define a janela durante a qual as falhas devem ocorrer para que o estado de abertura seja ativado.

Efeito de Fechamento (Close)

Quando o circuito está fechado, os clientes podem acessar novamente o serviço correspondente. Isso ocorre após um determinado período, configurado pelo usuário, após o último erro em uma operação.

Período de tempo: Esse período define a janela durante a qual o serviço é considerado seguro para uso.
Tempo de espera: O circuit breaker aguarda esse período para garantir que as falhas não continuem a ocorrer.

Efeito Temporário (Temporary)

Quando uma operação individual falha, o circuit breaker entra no estado temporário por um determinado tempo configurado. Se mais operações falharem nesse período, o estado de abertura é ativado.

Período de tempo: Esse período define a janela durante a qual o circuito é considerado temporariamente indisponível.
Número de tentativas falhas: Se o número de tentativas falhas for alcançado, o estado de abertura é ativado.

A configuração e o uso do circuit breaker permitem uma gestão mais eficaz dos erros em ambientes distribuídos.

Um simples exemplo

Um exemplo simples usando Java Spring Boot, que implementa um circuit breaker para uma API REST.

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.cloud.circuitbreaker.CircuitBreaker;
import org.springframework.cloud.circuitbreaker.HystrixCommand;
import org.springframework.http.ResponseEntity;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;

@RestController
public class ServiceController {

    private final CircuitBreaker circuitBreaker;

    @Autowired
    public ServiceController(CircuitBreaker circuitBreaker) {
        this.circuitBreaker = circuitBreaker;
    }

    @GetMapping("/check-service")
    public ResponseEntity<String> checkService() {
        // Executa a operação com o circuit breaker configurado
        return circuitBreaker.run(() -> {
            // Simulando uma operação que pode falhar, como um HTTP request ao serviço B
            // Em casos de sucesso, retornamos "Serviço está disponível"
            if (Math.random() < 0.7) { // 70% de chance de sucesso
                return ResponseEntity.ok("Serviço está disponível");
            } else {
                // Simulando uma falha e ativando o circuit breaker
                throw new RuntimeException("Erro ao acessar serviço B");
            }
        });
    }
}

Nesse exemplo, quando a operação falhar mais de 20% das vezes em um período de tempo de 1 minuto, o estado de abertura é ativado. No entanto, você pode ajustar esses valores configurando as opções do circuit breaker.

public class HystrixCommandFactory implements FactoryBean<HystrixCommand> {

    @Override
    public HystrixCommand getObject() throws Exception {
        // Configuração do circuit breaker: taxa de falhas (20%), período de tempo (1 minuto)
        return new HystrixCommand(null, this) {
            @Override
            protected com.netflix.hystrix.HystrixCommand<com.netflix.hystrix.HystrixRequestCache> construct(com.netflix.hystrix.HystrixCommandGroupKey commandGroupKey,
                                                                                                                com.netflix.hystrix.HystrixCommandProperties defaultProperties) {
                return new HystrixCommand(commandGroupKey, defaultProperties) {
                    @Override
                    protected void run() throws Exception {

                        // Operação que pode falhar e simular o erro
                        if (Math.random() < 0.2) { // 20% de chance de falha
                            throw new RuntimeException("Erro");
                        } else {
                            System.out.println("Serviço está disponível");
                        }
                    }

                    @Override
                    protected void getFallback() {

                        // Fallback ao serviço caso o circuito esteja fechado e haja falhas em operações subsequentes
                        System.out.println("Fim do fallback");

                    }
                };
            }
        };
    }

    @Override
    public Class<?> getObjectType() {
        return HystrixCommand.class;
    }

    @Override
    public boolean isSingleton() {
        return true;
    }
}

Esse exemplo simples mostra como implementar um circuit breaker para uma API REST. No entanto, é importante notar que você pode ajustar as configurações do circuit breaker para atender às necessidades específicas de sua aplicação.

Ações práticas

Monitoramento e diagnóstico

Implemente métricas e logs para monitorar a performance do circuit breaker, incluindo o número de falhas, tempo de resposta e quantidade de requisições bloqueadas.
Utilize ferramentas de análise para diagnosticar problemas e identificar áreas para melhoria.

Configuração adequada

Defina um padrão de configuração para os circuit breakers em todo o sistema, garantindo consistência e facilitando a manutenção.
Ajuste as configurações do circuit breaker de acordo com as necessidades específicas da aplicação, como tempo de resposta esperado e tolerância a falhas.

Manutenção e atualização

Desenvolva procedimentos para atualizar e manter os circuit breakers em todo o sistema, garantindo que eles continuem eficazes e não causam problemas.
Implemente testes automatizados para garantir que os circuit breakers funcionem corretamente e não interrompem funcionalidades importantes.

Sobrecarga de servidores

Não sobrecarregar os servidores ao habilitar o fallback, pois isso pode causar problemas adicionais se os serviços estiverem indisponíveis.
Implemente limites de taxa e cache para evitar sobrecargas indesejadas.

Falhas silenciosas

Evite falhas silenciosas ao implementar o fallback, pois isso pode mascarar problemas reais e dificultar a identificação dos motivos subjacentes.
Garanta que os logs e métricas sejam registrados corretamente para permitir diagnósticos eficazes.

Concluindo e se aprofundando

A implementação eficaz de circuit breakers em microservices requer uma abordagem cuidadosa e holística, considerando fatores como monitoramento, configuração, manutenção e diagnóstico. Ao seguir as boas práticas apresentadas e evitar armadilhas comuns, é possível criar um sistema resiliente que minimiza o impacto de falhas em serviços críticos.

Para aprofundar ainda mais no tema, é recomendável explorar áreas relacionadas, como:

Desenvolvimento de ferramentas de monitoramento personalizadas para atender às necessidades específicas da aplicação.
Implementação de estratégias de carga balanceamento para melhor distribuir o tráfego entre os serviços.
Análise e otimização dos padrões de comunicação entre os microservices para reduzir latência e aumentar a escalabilidade.

Referências

Fowler, M. Circuit Breakers. Disponível em: https://martinfowler.com/bliki/CircuitBreaker.html. Acesso: 2024.
Netflix. Hystrix. Disponível em: https://github.com/Netflix/Hystrix/wiki/What-is-Hystrix. Acesso: 2024.
Alur, M. Distributed Systems: Concepts and Design. Disponível em: https://www.oreilly.com/library/view/distributed-systems/9781449376459/. Acesso: 2024.
Resilience4j. Circuit Breaker Pattern. Disponível em: https://resilience4j.readme.io/docs/circuit-breaker-pattern. Acesso: 2024.
O'Reilly Media, Inc. Distributed Systems: Concepts and Design. Disponível em: https://learning.oreilly.com/library/view/distributed-systems/9781449376459/. Acesso: 2024.