Pular para o conteúdo principal
O Flowker coleta automaticamente dados de telemetria em todas as execuções de workflows. Este guia explica o que você pode monitorar, como interpretar o que vê e quando envolver sua equipe de engenharia.

O que o Flowker monitora automaticamente


Nenhuma instrumentação manual é necessária. Assim que o Flowker está em execução, ele rastreia:
  • Execuções de workflows — cada execução, do acionamento à conclusão
  • Progresso passo a passo — quais nós foram processados e em que ordem
  • Resultados das execuções — concluídas ou com falha
  • Saúde do serviço — se o Flowker e seu banco de dados estão disponíveis e aceitando tráfego
  • Volume de requisições e tempos de resposta — quantas chamadas de API estão sendo feitas e quão rápido são concluídas
Esses dados fluem automaticamente para sua stack de observabilidade (Grafana), onde podem ser consultados, visualizados e configurados com alertas.

Como verificar se o Flowker está saudável


O Flowker informa seu próprio estado por meio de endpoints de saúde dedicados. Em vez de adivinhar se o serviço está ativo, você pode consultá-lo diretamente e obter uma resposta clara — ele está rodando, está pronto pra aceitar tráfego e todas as dependências estão saudáveis? Existem três níveis de verificação de saúde, do mais simples ao mais detalhado.

O processo está em execução?

A verificação de liveness confirma que o processo do Flowker está ativo e respondendo. O Kubernetes usa essa checagem continuamente — se o serviço parar de responder, o pod é reiniciado automaticamente.
GET /health/live
Retorna um objeto JSON com status healthy quando o processo está rodando.
Consulte o endpoint Verificar liveness para detalhes completos.

O Flowker está aceitando tráfego?

A verificação de readiness vai um passo além — confirma que o Flowker e seu banco de dados estão saudáveis. Se o banco estiver inacessível, o tráfego deixa de ser roteado para essa instância até a conexão se recuperar.
GET /health/ready
Retorna um objeto JSON com status healthy quando o Flowker e seu banco de dados estão ambos operacionais, ou unhealthy quando a conexão com o banco está fora.
Consulte o endpoint Verificar readiness para detalhes completos.

Qual é o status completo?

A verificação completa dá o panorama total — versão do serviço, tempo de atividade e o status de cada dependência. Esse é o endpoint pra usar quando você está diagnosticando problemas ou verificando um deploy.
GET /health
Retorna versão, uptime e o status de cada dependência.
Consulte o endpoint Verificar saúde do serviço para detalhes completos.
Exemplo — tudo saudável:
{
  "status": "healthy",
  "version": "1.0.0",
  "uptime": "4h32m15s",
  "checks": {
    "database": { "status": "healthy" }
  }
}
Exemplo — problema no banco de dados (HTTP 503):
{
  "status": "unhealthy",
  "checks": {
    "database": {
      "status": "unhealthy",
      "message": "database ping failed: connection refused"
    }
  }
}
Uma resposta 503 de /health ou /health/ready significa que o Flowker está em execução, mas não pode processar requisições com segurança. Isso geralmente indica um problema de conectividade com o banco de dados — entre em contato com sua equipe de engenharia imediatamente.

O que você verá no Grafana


Os dashboards pré-configurados da Lerian oferecem uma visão em nível de negócio do comportamento do Flowker em tempo real.

Throughput de requisições

Quantas chamadas de API o Flowker está recebendo por segundo, divididas por rota (por exemplo, execução de workflow, listagem de workflows, saúde). Útil para identificar picos de tráfego ou quedas inesperadas na atividade.

Tempo de resposta (latência P95)

O tempo que o Flowker leva para responder a 95% das requisições. Um P95 crescente pode indicar que as execuções estão demorando mais do que o esperado — útil como alerta antecipado antes de uma degradação completa.

Taxa de erros

A proporção de requisições que retornaram um erro de servidor (HTTP 5xx). Uma taxa de erros diferente de zero significa que algo está falhando dentro do Flowker. Picos aqui justificam investigação imediata.

Execuções ativas

Quantos workflows estão sendo executados no momento. Útil para entender padrões de carga e se as execuções estão sendo concluídas conforme esperado.

Como interpretar o status das execuções


Cada execução de workflow no Flowker possui um status que indica em que ponto ela se encontra.
StatusSignificadoO que fazer
pendingA execução está na fila aguardando para iniciarNormal — será movida para running em breve
runningA execução está em andamentoNormal — monitore até a conclusão
completedTodos os passos foram concluídos com sucessoNenhuma ação necessária
failedPelo menos um passo falhouVerifique os detalhes da execução para a mensagem de erro
Se você observar um número significativo de execuções failed em um curto período, verifique o dashboard de taxa de erros e sinalize para a engenharia. Uma única falha geralmente é esperada; um padrão é um sinal.

Quando envolver a engenharia


Você pode resolver a maioria das verificações de status por conta própria usando os endpoints de saúde e o Grafana. Escale para a engenharia quando:
  • /health ou /health/ready retornar 503 (serviço indisponível)
  • O dashboard de taxa de erros mostrar um pico sustentado (não pontual)
  • A latência P95 estiver consistentemente acima da linha de base dos seus workflows
  • Um grande número de execuções estiver failed sem um gatilho claro
  • O Flowker não estiver processando novas execuções apesar de estar marcado como healthy
Nesses casos, compartilhe o link do dashboard do Grafana ou uma captura de tela com a equipe de engenharia junto com o período — isso acelera significativamente o diagnóstico.