Saltar al contenido principal
Flowker recopila automáticamente datos de telemetría en todas las ejecuciones de workflows. Esta guía explica qué puedes monitorear, cómo interpretar lo que ves y cuándo involucrar a tu equipo de ingeniería.

Qué monitorea Flowker automáticamente


No se necesita instrumentación manual. Tan pronto como Flowker está en ejecución, rastrea:
  • Ejecuciones de workflows — cada ejecución, desde el disparo hasta la finalización
  • Progreso paso a paso — qué nodos fueron procesados y en qué orden
  • Resultados de ejecución — completados o fallidos
  • Estado del servicio — si Flowker y su base de datos están disponibles y aceptando tráfico
  • Volumen de solicitudes y tiempos de respuesta — cuántas llamadas a la API se están realizando y qué tan rápido se completan
Estos datos fluyen automáticamente a tu stack de observabilidad (Grafana), donde pueden ser consultados, visualizados y configurados con alertas.

Cómo verificar si Flowker está saludable


Flowker informa su propio estado a través de endpoints de salud dedicados. En lugar de adivinar si el servicio está activo, puedes consultarlo directamente y obtener una respuesta clara — ¿está ejecutándose, está listo para aceptar tráfico y están todas sus dependencias saludables? Hay tres niveles de verificación de salud, del más simple al más detallado.

¿Está el proceso en ejecución?

La verificación de liveness confirma que el proceso de Flowker está activo y respondiendo. Kubernetes la utiliza continuamente — si el servicio deja de responder, el pod se reinicia automáticamente.
GET /health/live
Retorna un objeto JSON con status healthy cuando el proceso está en ejecución.
Consulta el endpoint Check liveness para más detalles.

¿Está Flowker aceptando tráfico?

La verificación de readiness va un paso más allá — verifica que Flowker y su base de datos estén saludables. Si la base de datos no es accesible, el tráfico deja de enrutarse a esa instancia hasta que la conexión se recupere.
GET /health/ready
Retorna un objeto JSON con status healthy cuando Flowker y su base de datos están ambos operativos, o unhealthy cuando la conexión a la base de datos está caída.
Consulta el endpoint Check readiness para más detalles.

¿Cuál es el estado completo?

La verificación completa te da el panorama total — versión del servicio, tiempo de actividad y el estado de cada dependencia. Este es el endpoint a usar cuando estás diagnosticando problemas o verificando un despliegue.
GET /health
Retorna versión, uptime y el estado de cada dependencia.
Consulta el endpoint Check service health para más detalles.
Ejemplo — todo saludable:
{
  "status": "healthy",
  "version": "1.0.0",
  "uptime": "4h32m15s",
  "checks": {
    "database": { "status": "healthy" }
  }
}
Ejemplo — problema con la base de datos (HTTP 503):
{
  "status": "unhealthy",
  "checks": {
    "database": {
      "status": "unhealthy",
      "message": "database ping failed: connection refused"
    }
  }
}
Una respuesta 503 de /health o /health/ready significa que Flowker está en ejecución pero no puede procesar solicitudes de forma segura. Esto generalmente indica un problema de conectividad con la base de datos — contacta a tu equipo de ingeniería inmediatamente.

Qué verás en Grafana


Los dashboards preconfigurados de Lerian te dan una vista a nivel de negocio del comportamiento de Flowker en tiempo real.

Volumen de solicitudes

Cuántas llamadas a la API está recibiendo Flowker por segundo, desglosadas por ruta (por ejemplo, ejecución de workflow, lista de workflows, salud). Útil para detectar picos de tráfico o caídas inesperadas en la actividad.

Tiempo de respuesta (latencia P95)

El tiempo que Flowker tarda en responder al 95% de las solicitudes. Un P95 en aumento puede indicar que las ejecuciones están tardando más de lo esperado — útil como alerta temprana antes de una degradación completa.

Tasa de errores

La proporción de solicitudes que devolvieron un error del servidor (HTTP 5xx). Una tasa de errores distinta de cero significa que algo está fallando dentro de Flowker. Los picos aquí justifican una investigación inmediata.

Ejecuciones activas

Cuántos workflows se están ejecutando actualmente. Útil para entender patrones de carga y si las ejecuciones se están completando como se espera.

Cómo interpretar el estado de ejecución


Cada ejecución de workflow en Flowker tiene un estado que te indica en qué punto se encuentra.
EstadoSignificadoQué hacer
pendingLa ejecución está en cola esperando para iniciarNormal — pasará a running en breve
runningLa ejecución está en progresoNormal — monitorear hasta que se complete
completedTodos los pasos finalizaron exitosamenteNo se requiere acción
failedAl menos un paso fallóRevisar los detalles de ejecución para ver el mensaje de error
Si ves una cantidad significativa de ejecuciones failed en un período corto, revisa el dashboard de tasa de errores y notifícalo a ingeniería. Una falla individual es a menudo esperada; un patrón es una señal.

Cuándo involucrar a ingeniería


Puedes resolver la mayoría de las verificaciones de estado por tu cuenta a través de los endpoints de salud y Grafana. Escala a ingeniería cuando:
  • /health o /health/ready retorna 503 (servicio no disponible)
  • El dashboard de tasa de errores muestra un pico sostenido (no un evento aislado)
  • La latencia P95 está consistentemente por encima de la línea base de tus workflows
  • Una gran cantidad de ejecuciones están en estado failed sin un disparador claro
  • Flowker no está procesando nuevas ejecuciones a pesar de estar marcado como healthy
En estos casos, comparte el enlace del dashboard de Grafana o una captura de pantalla con el equipo de ingeniería junto con el período de tiempo — esto acelera significativamente el diagnóstico.