Observabilidade no Flowker

O Flowker coleta automaticamente dados de telemetria em todas as execuções de workflows. Este guia explica o que você pode monitorar, como interpretar o que vê e quando envolver sua equipe de engenharia.

O que o Flowker monitora automaticamente

Nenhuma instrumentação manual é necessária. Assim que o Flowker está em execução, ele rastreia:

Execuções de workflows — cada execução, do acionamento à conclusão
Progresso passo a passo — quais nós foram processados e em que ordem
Resultados das execuções — concluídas ou com falha
Saúde do serviço — se o Flowker e seu banco de dados estão disponíveis e aceitando tráfego
Volume de requisições e tempos de resposta — quantas chamadas de API estão sendo feitas e quão rápido são concluídas

Esses dados fluem automaticamente para sua stack de observabilidade (Grafana), onde podem ser consultados, visualizados e configurados com alertas.

Como verificar se o Flowker está saudável

O Flowker expõe probes de liveness e readiness compatíveis com Kubernetes que a plataforma utiliza para acompanhar a disponibilidade do serviço. Normalmente você não precisa consultá-los diretamente — a degradação aparece nos dashboards e alertas do Grafana. Se o Flowker estiver em execução mas incapaz de processar requisições, geralmente é um problema de conectividade com o banco de dados; entre em contato com sua equipe de engenharia.

O que você verá no Grafana

Os dashboards pré-configurados da Lerian oferecem uma visão em nível de negócio do comportamento do Flowker em tempo real.

Throughput de requisições

Quantas chamadas de API o Flowker está recebendo por segundo, divididas por rota (por exemplo, execução de workflow, listagem de workflows, saúde). Útil para identificar picos de tráfego ou quedas inesperadas na atividade.

Tempo de resposta (latência P95)

O tempo que o Flowker leva para responder a 95% das requisições. Um P95 crescente pode indicar que as execuções estão demorando mais do que o esperado — útil como alerta antecipado antes de uma degradação completa.

Taxa de erros

A proporção de requisições que retornaram um erro de servidor (HTTP 5xx). Uma taxa de erros diferente de zero significa que algo está falhando dentro do Flowker. Picos aqui justificam investigação imediata.

Execuções ativas

Quantos workflows estão sendo executados no momento. Útil para entender padrões de carga e se as execuções estão sendo concluídas conforme esperado.

Como interpretar o status das execuções

Cada execução de workflow no Flowker possui um status que indica em que ponto ela se encontra.

Status	Significado	O que fazer
`pending`	A execução está na fila aguardando para iniciar	Normal — será movida para running em breve
`running`	A execução está em andamento	Normal — monitore até a conclusão
`completed`	Todos os passos foram concluídos com sucesso	Nenhuma ação necessária
`failed`	Pelo menos um passo falhou	Verifique os detalhes da execução para a mensagem de erro

Se você observar um número significativo de execuções failed em um curto período, verifique o dashboard de taxa de erros e sinalize para a engenharia. Uma única falha geralmente é esperada; um padrão é um sinal.

Quando envolver a engenharia

Você pode resolver a maioria das verificações de status por conta própria pelo Grafana. Escale para a engenharia quando:

O Flowker estiver marcado como indisponível na visão de saúde da plataforma (tipicamente um problema de conectividade com o banco de dados)
O dashboard de taxa de erros mostrar um pico sustentado (não pontual)
A latência P95 estiver consistentemente acima da linha de base dos seus workflows
Um grande número de execuções estiver failed sem um gatilho claro
O Flowker não estiver processando novas execuções apesar de estar marcado como healthy

Nesses casos, compartilhe o link do dashboard do Grafana ou uma captura de tela com a equipe de engenharia junto com o período — isso acelera significativamente o diagnóstico.

Visão geral

Guias

Console

Operações

Observabilidade no Flowker

O que o Flowker monitora automaticamente

Como verificar se o Flowker está saudável

O que você verá no Grafana

Throughput de requisições

Tempo de resposta (latência P95)

Taxa de erros

Execuções ativas

Como interpretar o status das execuções

Quando envolver a engenharia

​O que o Flowker monitora automaticamente

​Como verificar se o Flowker está saudável

​O que você verá no Grafana

​Throughput de requisições

​Tempo de resposta (latência P95)

​Taxa de erros

​Execuções ativas

​Como interpretar o status das execuções

​Quando envolver a engenharia

O que o Flowker monitora automaticamente

Como verificar se o Flowker está saudável

O que você verá no Grafana

Throughput de requisições

Tempo de resposta (latência P95)

Taxa de erros

Execuções ativas

Como interpretar o status das execuções

Quando envolver a engenharia