La observabilidad de la IA se está volviendo imperativa a medida que las empresas de todos los sectores están introduciendo enfoques novedosos para innovar con IA generativa en sus dominios. Las aplicaciones avanzadas de IA que utilizan los servicios de OpenAI no solo reenvían las entradas del usuario a los modelos de OpenAI; También requieren un procesamiento previo y posterior del lado del cliente. Un patrón de diseño típico es el uso de una búsqueda semántica en una base de conocimiento específica del dominio, como la documentación interna, para proporcionar el contexto requerido en la solicitud. Esto se logra mediante el uso de los servicios de OpenAI para calcular representaciones numéricas de datos de texto que facilitan el cálculo de la similitud del texto, llamadas «incrustaciones», tanto para los documentos como para la entrada del usuario.
Además, herramientas como LangChain aprovechan los grandes modelos de lenguaje (LLM) como uno de sus bloques de construcción básicos para crear agentes de IA (piense en los agentes de IA como API que realizan una serie de interacciones de chat que apuntan a un resultado deseado) que realizan consultas complejas y potencialmente grandes contra un LLM como GPT-4. A continuación, se conectan a servicios de terceros, como calculadoras en línea, búsqueda web o información sobre el estado de los vuelos, para combinar la información en tiempo real con la potencia de un LLM.
Uno de los factores de éxito cruciales para ofrecer servicios de agentes de IA rentables y de alta calidad siguiendo el enfoque descrito anteriormente es el uso de la observabilidad de la IA para observar de cerca su costo, latencia y confiabilidad.
Dynatrace permite a las empresas recopilar, visualizar y alertar automáticamente sobre el consumo de solicitudes de la API de OpenAI, la latencia y la información de estabilidad en combinación con todos los demás servicios que se utilizan para crear aplicaciones de IA. Esto incluye OpenAI, así como los servicios de Azure OpenAI, como GPT-3, Codex, DALL-E o ChatGPT.
Ejemplo de observabilidad de IA: consumo de tokens de OpenAI
Nuestro panel de control de ejemplo a continuación visualiza el consumo de tokens de OpenAI. Muestra los SLO críticos para la latencia y la disponibilidad, así como las métricas más importantes del servicio de IA generativa de OpenAI, como el tiempo de respuesta, el recuento de errores y el número total de solicitudes.
Dynatrace OneAgent® descubre, observa y protege el acceso a OpenAI automáticamente, sin configuración manual, revelando el contexto completo de las tecnologías utilizadas, la topología de interacción del servicio, el análisis de vulnerabilidades de seguridad y la observabilidad de todas las métricas, seguimientos, registros y eventos comerciales en tiempo real.
Cómo Dynatrace rastrea las solicitudes de modelos de OpenAI
Usemos un servicio de ejemplo simple de NodeJS para mostrar cómo Dynatrace OneAgent rastrea automáticamente las solicitudes de modelos de OpenAI. OpenAI ofrece un enlace de lenguaje oficial de NodeJS que permite la integración directa de una solicitud de modelo agregando las siguientes líneas de código a su propia aplicación de IA de NodeJS.
Una vez que la aplicación de IA se inicia en un servidor monitoreado por OneAgent, la aplicación se detecta automáticamente y se recopilan los seguimientos y las métricas de todas las solicitudes salientes. La inyección automática de OneAgent de código de monitoreo y rastreo funciona no solo para el enlace de lenguaje NodeJS, sino también cuando se usa la solicitud HTTPS sin procesar en NodeJS. Si bien OpenAI ofrece enlaces de lenguaje oficiales solo para Python y NodeJS, hay una larga lista de enlaces de lenguaje proporcionados por la comunidad.
OneAgent puede monitorear automáticamente todos los enlaces de C#, .NET, Java, Go y NodeJS. Sin embargo, se recomienda seguir el enfoque de OpenTelemetry para supervisar Python con Dynatrace.
La siguiente captura de pantalla muestra los seguimientos que recopila OneAgent, junto con todas las mediciones de latencia y confiabilidad para cada una de las solicitudes de modelo GPT salientes.
Dynatrace refina aún más las llamadas de OpenAI dividiendo automáticamente servicios específicos para el dominio de OpenAI.
Una vez hecho esto, el flujo de servicio de Dynatrace muestra el flujo de sus solicitudes, comenzando con su servicio NodeJS y llamando al modelo OpenAI.
Dynatrace OneAgent recopila automáticamente toda la información relacionada con la latencia y la confiabilidad junto con todos los seguimientos que muestran cómo sus solicitudes de OpenAI atraviesan su gráfico de servicio.
El seguimiento continuo de las solicitudes de modelos de OpenAI permite a los operadores identificar patrones de comportamiento dentro de su panorama de servicios de IA y comprender la situación de carga típica de su infraestructura.
Este conocimiento de la observabilidad de la IA es esencial para optimizar aún más el rendimiento y el coste de los servicios.
Al agregar algunas líneas de instrumentación manual a un servicio de NodeJS, OneAgent también recoge las mediciones relacionadas con los costos, recopilando la cantidad de tokens conversacionales de OpenAI utilizados.
Observar el costo de las solicitudes de OpenAI
Cada solicitud a un modelo de OpenAI, como text-davinci-003, gpt-3.5-turbo o GPT-4, informa cuántos tokens se utilizaron para la solicitud (la longitud de la pregunta de texto) y cuántos tokens generó el modelo como respuesta.
A los clientes de OpenAI se les factura en función del número total de tokens consumidos por todas las solicitudes que realizan. Al extraer estas mediciones de tokens de la carga útil devuelta e informarlas a través de Dynatrace OneAgent, los usuarios pueden observar el consumo de tokens en todos los servicios mejorados con OpenAI en su entorno de monitoreo.
Esta es la instrumentación utilizada para extraer el recuento de tokens de la respuesta de OpenAI y para informar de las tres mediciones al OneAgent local.
Después de agregar estas líneas a su servicio NodeJS, hay tres nuevas métricas de consumo de tokens OpenAI disponibles en Dynatrace.
La IA de Davis detecta automáticamente ChatGPT como causa raíz
Una de las excelentes características de Dynatrace es Davis® AI, que aprende automáticamente el comportamiento típico de los servicios monitoreados. Una vez que se detecta una ralentización anormal o un aumento de errores, Davis AI activa el análisis de la causa raíz para identificar la causa.
Nuestro sencillo ejemplo de un servicio NodeJS depende totalmente de la respuesta del modelo de ChatGPT. Por lo tanto, cada vez que la latencia de la respuesta del modelo se degrada o la solicitud del modelo devuelve un error, Davis AI lo detecta automáticamente.
En el siguiente ejemplo, Davis AI informó automáticamente de una ralentización del servicio de avisos de NodeJS y detectó correctamente el servicio generativo de OpenAI como causa raíz de la ralentización.
La página de detalles del problema de Davis muestra todos los servicios afectados para los que el servicio generativo OpenAI fue la causa principal de la desaceleración, junto con los efectos dominó de la desaceleración.
Los detalles del problema también enumeran todos los objetivos de nivel de servicio que se vieron afectados negativamente por la desaceleración.
La observabilidad de la IA con Dynatrace aporta tranquilidad al utilizar modelos de OpenAI
La enorme popularidad de los servicios en la nube de IA generativa, como el modelo GPT-4 de OpenAI, está obligando a las empresas a replantearse y rediseñar sus entornos de servicios existentes. La integración de la IA generativa en los entornos de servicios tradicionales conlleva todo tipo de incertidumbres. El uso de la observabilidad de la IA de Dynatrace para observar los servicios en la nube de OpenAI le ayuda a obtener transparencia de costes y a garantizar el estado operativo de sus servicios mejorados con IA.
Además, la total transparencia y observabilidad de los servicios de IA desempeñará un papel importante en las próximas regulaciones de IA a nivel nacional y para las evaluaciones de riesgos dentro de su propia empresa.