Observabilidad en Flowker

Flowker recopila automáticamente datos de telemetría en todas las ejecuciones de workflows. Esta guía explica qué puedes monitorear, cómo interpretar lo que ves y cuándo involucrar a tu equipo de ingeniería.

Qué monitorea Flowker automáticamente

No se necesita instrumentación manual. Tan pronto como Flowker está en ejecución, rastrea:

Ejecuciones de workflows — cada ejecución, desde el disparo hasta la finalización
Progreso paso a paso — qué nodos fueron procesados y en qué orden
Resultados de ejecución — completados o fallidos
Estado del servicio — si Flowker y su base de datos están disponibles y aceptando tráfico
Volumen de solicitudes y tiempos de respuesta — cuántas llamadas a la API se están realizando y qué tan rápido se completan

Estos datos fluyen automáticamente a tu stack de observabilidad (Grafana), donde pueden ser consultados, visualizados y configurados con alertas.

Cómo verificar si Flowker está saludable

Flowker expone sondas de liveness y readiness compatibles con Kubernetes que la plataforma utiliza para rastrear la disponibilidad del servicio. Normalmente no necesitas consultarlas directamente — la degradación se refleja en los dashboards y alertas de Grafana. Si Flowker está en ejecución pero no puede procesar solicitudes, generalmente es un problema de conectividad con la base de datos; contacta a tu equipo de ingeniería.

Qué verás en Grafana

Los dashboards preconfigurados de Lerian te dan una vista a nivel de negocio del comportamiento de Flowker en tiempo real.

Volumen de solicitudes

Cuántas llamadas a la API está recibiendo Flowker por segundo, desglosadas por ruta (por ejemplo, ejecución de workflow, lista de workflows, salud). Útil para detectar picos de tráfico o caídas inesperadas en la actividad.

Tiempo de respuesta (latencia P95)

El tiempo que Flowker tarda en responder al 95% de las solicitudes. Un P95 en aumento puede indicar que las ejecuciones están tardando más de lo esperado — útil como alerta temprana antes de una degradación completa.

Tasa de errores

La proporción de solicitudes que devolvieron un error del servidor (HTTP 5xx). Una tasa de errores distinta de cero significa que algo está fallando dentro de Flowker. Los picos aquí justifican una investigación inmediata.

Ejecuciones activas

Cuántos workflows se están ejecutando actualmente. Útil para entender patrones de carga y si las ejecuciones se están completando como se espera.

Cómo interpretar el estado de ejecución

Cada ejecución de workflow en Flowker tiene un estado que te indica en qué punto se encuentra.

Estado	Significado	Qué hacer
`pending`	La ejecución está en cola esperando para iniciar	Normal — pasará a running en breve
`running`	La ejecución está en progreso	Normal — monitorear hasta que se complete
`completed`	Todos los pasos finalizaron exitosamente	No se requiere acción
`failed`	Al menos un paso falló	Revisar los detalles de ejecución para ver el mensaje de error

Si ves una cantidad significativa de ejecuciones failed en un período corto, revisa el dashboard de tasa de errores y notifícalo a ingeniería. Una falla individual es a menudo esperada; un patrón es una señal.

Cuándo involucrar a ingeniería

Puedes resolver la mayoría de las verificaciones de estado por tu cuenta a través de Grafana. Escala a ingeniería cuando:

Flowker aparece como no disponible en la vista de salud de la plataforma (típicamente un problema de conectividad con la base de datos)
El dashboard de tasa de errores muestra un pico sostenido (no un evento aislado)
La latencia P95 está consistentemente por encima de la línea base de tus workflows
Una gran cantidad de ejecuciones están en estado failed sin un disparador claro
Flowker no está procesando nuevas ejecuciones a pesar de estar marcado como healthy

En estos casos, comparte el enlace del dashboard de Grafana o una captura de pantalla con el equipo de ingeniería junto con el período de tiempo — esto acelera significativamente el diagnóstico.

Resumen

Guías

Console

Operaciones

Observabilidad en Flowker

Qué monitorea Flowker automáticamente

Cómo verificar si Flowker está saludable

Qué verás en Grafana

Volumen de solicitudes

Tiempo de respuesta (latencia P95)

Tasa de errores

Ejecuciones activas

Cómo interpretar el estado de ejecución

Cuándo involucrar a ingeniería

​Qué monitorea Flowker automáticamente

​Cómo verificar si Flowker está saludable

​Qué verás en Grafana

​Volumen de solicitudes

​Tiempo de respuesta (latencia P95)

​Tasa de errores

​Ejecuciones activas

​Cómo interpretar el estado de ejecución

​Cuándo involucrar a ingeniería

Qué monitorea Flowker automáticamente

Cómo verificar si Flowker está saludable

Qué verás en Grafana

Volumen de solicitudes

Tiempo de respuesta (latencia P95)

Tasa de errores

Ejecuciones activas

Cómo interpretar el estado de ejecución

Cuándo involucrar a ingeniería