Gestión Inteligente de Eventos IT: Mejorando la Eficiencia para un Servicio al Ciudadano de Calidad
El proyecto «Gestión Inteligente de Eventos IT: Mejorando la Eficiencia para un Servicio al Ciudadano de Calidad» en Madrid Digital fue finalista en la XVI edición de los premios @aslan en la Categoría Impulso de la digitalización y productividad.
Antecedentes
El mayor reto de cualquier organización es generar una gestión de demanda inequívoca de los eventos de observabilidad para que estos se gestionen eficazmente sin generar una sobre información o ausencia de la misma.
En el origen del proyecto, el principal objetivo era consolidar el conocimiento adquirido sobre nuestra observabilidad anterior e ir adhiriendo como ciclo continuo de esa demanda cambiante todas las nuevas métricas necesarias de tecnología o servicio.
Cualquier gobierno de TI con una dimensión a gran escala y variada, tiene un ciclo de vida muy cambiante en sus tecnologías, lo que requiere de un continuo ajuste y/o evolución en la calidad de las métricas. De hecho, en la mayoría de las organizaciones, la percepción de monitorización/observabilidad es muy diferente dependiendo de la necesidad y/o expectativa de cada departamento.
Retos
El reto es ofrecer como ciclo de observabilidad, el conocimiento ya adquirido de la organización y una explotación para la nueva demanda continua y dinámica existente que surge por parte de las tecnología, clientes IT o servicio. Y en función de esos requisitos, cada métrica individual, desde su demanda hasta su consumo final, puede ser ofrecida por diferentes medios escogidos (WorkFlow propietario, Teléfono, Mensajería, mail, Visual, Otra integración...), haciendo homogéneo el modo ordenado de gestión de cada organización con independencia de la herramienta generadora de eventos, automatizando, además, todo el ciclo de este proceso de detección u otras fases integradas.
Fases
-Evaluación de métricas en plataformas anteriores. Identificación de nuevas métricas para mejorar la gestión de eventos IT.
-Incorporación iterativa de métricas en línea con el ciclo de vida del evento IT. Enfoque en transacciones sintéticas para la detección automática temprana de fallos de servicio. Atención a áreas estratégicas de consejerías de Sanidad, Educación, Familia, etc.
-Implementación de transacciones sintéticas para la detección automática de fallos de servicio. Ausencia de intervención humana en la detección y generación de workflows o llamadas a grupos de soporte. Incorporación de métricas tecnológicas en capas diversas para una correlación más efectiva.
-Inclusión de métricas adicionales como Sistemas BBDD, Serv Aplicaciones, Serv Web, Serv Ficheros, Productos comerciales, cadenas log bajo demanda, Informes automáticos SLA, Electrónica de red, Sensores y medidorRRHH: 3-4 especializados.RRMM: Infraestructura escalable de Pandora FMS.
Nuevos Servicios
Las mediciones internas en tiempos de gestión ante incidencias anteriores a 2017 vs actuales arrojaron datos de reducción de tiempos medios de un 200% en la gestión de incidencias y departamentos que utilizaban las automatizaciones o mediciones de la plataforma.
Los RRHH y presupuestos dedicados al departamento anterior que se encargaba manualmente de gestionar eventos de transacciones sintéticas, fueron sustituidos por procesos automatizados e integrados en la plataforma.
Beneficio indirecto, el ciudadano. La explotación/ajuste de nuevas métricas y su ciclo de vida es continuo e infinito, existen mediciones desde las más comunes a cualquier sistema (o roles que adquiere ese sistema) hasta mediciones tipo IOT en sensores u otras capas menos conocidas, pasando por otras integraciones en el proceso del evento que enriquecen y automatizan el proceso; Correlación con la gestión de cambios, correcciones automáticas, cuadros de mando, informes, integración con WS/REST específicos, etc.
Conclusiones
Madrid Digital, con un coste sostenible ha implantado un modelo de explotación continua alrededor de la observabilidad que le aporta los siguientes beneficios internos y que redunda en la estabilidad de los SSII:
-Reducción de tiempos de diagnóstico.
-La automatización del diagnóstico minimiza el tiempo de actuación en el soporte.
-Menor tiempo de indisponibilidad.
-Tanto por intervención manual como por la automatizada reactiva/proactiva se reducen los tiempos de interrupción en los servicios.
-Consolidación de conocimiento Validación de los mecanismos de detección y de la calidad de las métricas.
-Capacidad de decisión.
-La información, evolución o tendencia de los datos presentados permite tomar decisiones acertadas.
Todo esto permite anticiparse a posibles problemas predecibles o reducir al máximo los tiempos de indisponibilidad en el soporte que se puedan producir en todos y cada uno de los servicios al ciudadano que las consejerías de la comunidad de madrid ofrecen.