Artículo
27 enero 2025

IA, entrenamiento, inferencia y RAG: un nuevo amanecer para la IA

El 30 de noviembre de 2022 fue un día trascendental. Ese fue el día en que OpenAI lanzó ChatGPT al mundo, el resto es historia; literalmente. Han pasado dos años desde entonces y hemos asistido a un aumento vertiginoso del interés por la IA. Esto ha provocado un aumento de casi 10 veces en la capitalización de mercado de Nvidia, el fabricante líder de GPUs, y predicciones descabelladas sobre la posible inversión total de las empresas en IA, así como el impacto que tendrá en la sociedad.

La situación es muy distinta a los anteriores amaneceres de la IA que hemos presenciado en los últimos 70 años, desde el Test de Turing y las derrotas de los grandes maestros del ajedrez, hasta la conducción autónoma y ahora la explosión de la IA generativa. El juego ha cambiado mucho, pero sigue basándose en ciertos conceptos fundamentales. Durante muchos años, los avances de la IA se han construido sobre tres pilares clave: 1) recursos informáticos más potentes (en forma de GPUs); 2) algoritmos o modelos mejorados (en el caso de la IA generativa, la arquitectura Transformer y los modelos extensos de lenguaje (LLM)) y, finalmente, 3) acceso a cantidades masivas de datos. A gran escala, las fases de un proyecto de IA incluyen la recopilación y preparación de datos, el desarrollo y entrenamiento del modelo y la implementación del mismo, también conocida como inferencia.

Todo depende de los datos

La recopilación y preparación de datos no se pueden pasar por alto: datos de buena calidad, relevantes e imparciales son clave para un proyecto de IA exitoso. A menudo se afirma que las organizaciones se enfrentan al reto de comprender sus datos, identificar la propiedad de los mismos y romper los silos para poder utilizarlos eficazmente. Sin acceso a datos de alta calidad es poco probable que una iniciativa tenga éxito. Cada vez más, las organizaciones utilizan datos multimodales, no solo texto, sino también audio, imágenes e incluso vídeo en sus proyectos de IA. La cantidad de datos y, por tanto, los requisitos de almacenamiento subyacentes, son considerables.

Entrenar el modelo

La fase de formación suele abordarse de dos maneras. Entrenamiento de modelos fundacionales, que implica aprovechar una enorme cantidad de datos, construir un modelo de IA desde cero y entrenarlo iterativamente para producir un modelo general de uso. Suelen hacerlo grandes empresas tecnológicas con muchos recursos; Meta habló recientemente sobre el entrenamiento de su modelo de código abierto Llama 3.1 de 405 mil millones de parámetros con más de 15 billones de tokens; se comunicó que esto tomó alrededor de 40 millones de horas de GPU en 16.000 GPUs. Este largo tiempo de entrenamiento del modelo resalta un aspecto clave para el entrenamiento de modelos de gran tamaño: los puntos de control frecuentes para permitir la recuperación ante fallas. Con modelos de gran tamaño, es esencial que el almacenamiento utilizado para los puntos de control tenga una capacidad y un rendimiento de escritura muy elevados.

El segundo enfoque de entrenamiento es el ajuste fino del modelo. Esto implica tomar un modelo existente, en el que otra organización ha hecho el trabajo pesado, y aplicar datos específicos del dominio a ese modelo a través de un entrenamiento adicional. De este modo, una organización se beneficia de su propio modelo personalizado, pero no necesita entrenar desde cero.

Sea cual sea el enfoque, el entrenamiento requiere un procesamiento masivamente paralelo con GPUs, lo que demanda un alto rendimiento y velocidades de acceso elevadas para manejar grandes conjuntos de datos de manera eficiente. Por lo tanto, el almacenamiento de datos para el entrenamiento de IA debe ofrecer un rendimiento muy alto, no solo para garantizar que las GPUs reciban datos de manera continua, sino también escalabilidad para gestionar grandes conjuntos de datos de entrenamiento y fiabilidad, dado lo crucial y costoso que resulta entrenar modelos.

En producción

Una vez que se ha entrenado un modelo y su rendimiento cumple con los requisitos, se pone en producción. Esto ocurre cuando el modelo utiliza datos que no ha visto antes para sacar conclusiones o proporcionar información. Esto se conoce como inferencia y es cuando se obtiene valor de una iniciativa de IA. El uso de recursos y los costes asociados con la inferencia eclipsan los del entrenamiento porque la inferencia exige recursos informáticos y de almacenamiento de forma constante y potencialmente a gran escala; pensemos en millones de usuarios que acceden a un chatbot de atención al cliente.

El almacenamiento subyacente para la inferencia debe ofrecer un alto rendimiento, ya que esto es clave para proporcionar resultados oportunos, así como una fácil escalabilidad para satisfacer los requisitos de almacenamiento de los datos que se alimentan en el modelo para el registro y para proporcionar datos de reentrenamiento. La calidad de los resultados de la inferencia está directamente relacionada con la calidad del modelo entrenado y el conjunto de datos de entrenamiento. La IA Generativa ha aportado una variación en la precisión de la inferencia, ya que la naturaleza de la IA Generativa significa que las imprecisiones son altamente probables, conocidas como alucinaciones. Estas imprecisiones han causado problemas que con frecuencia han llegado a los titulares.

Mejorando la precisión

Los usuarios de ChatGPT se darán cuenta de la importancia de la consulta introducida en el modelo. Una consulta completa y bien estructurada puede generar una respuesta mucho más precisa que una pregunta breve. Esto ha dado lugar al concepto de ‘ingeniería de prompts’, en el que se proporciona un conjunto de datos bien elaborados como consulta al modelo para obtener el resultado óptimo.

Un enfoque alternativo que está ganando cada vez más relevancia es la generación aumentada por recuperación, o RAG. La RAG amplía la consulta con los datos propios de una organización, incorporando contexto específico de un caso de uso que proviene directamente de una base de datos vectorial, como Chroma o Milvus. En comparación con la ingeniería de prompts, la RAG produce resultados mejorados y reduce significativamente la posibilidad de errores. Igualmente importante es el hecho de que permite utilizar datos actuales y oportunos con el modelo, en lugar de limitarse a una fecha límite histórica

La RAG depende de la vectorización de los datos de una organización, lo que facilita su integración en la arquitectura general. Las bases de datos vectoriales a menudo experimentan un crecimiento significativo en el tamaño del conjunto de datos en comparación con la fuente, llegando a ser hasta 10 veces más grandes, y son muy sensibles al rendimiento, dado que la experiencia del usuario está directamente relacionada con el tiempo de respuesta de la consulta de la base de datos vectorial. Por lo tanto, el almacenamiento subyacente, en términos de rendimiento y escalabilidad, juega un papel crucial en la implementación exitosa de la RAG.

El enigma energético de la IA 

En los últimos años, el coste de la electricidad ha aumentado de manera significativa en todo el mundo y no parece que vaya a disminuir. Además, el auge de la IA Generativa ha multiplicado las necesidades energéticas de los centros de datos. De hecho, la IEA estima que el consumo energético de la IA, los centros de datos y las criptomonedas representó casi el 2 % de la demanda mundial de energía en 2022, y que estas demandas energéticas podrían duplicarse en 2026. Esto se debe, en parte, a las elevadas demandas de energía de las GPUs, que ponen a prueba los centros de datos, ya que requieren entre 40 y 50 kilovatios por rack, una capacidad muy superior a la de muchos centros de datos.

Impulsar la eficiencia en todo el centro de datos es esencial, lo que significa que la infraestructura, como el almacenamiento de datos all-flash, es crucial para gestionar la energía y el espacio, ya que cada vatio ahorrado en almacenamiento puede ayudar a alimentar más GPUs. Con algunas tecnologías de almacenamiento all-flash, es posible lograr una reducción de hasta el 85 % en el consumo de energía y hasta un 95 % menos de espacio de rack en comparación con las ofertas de la competencia, proporcionando un valor significativo como parte clave del ecosistema de IA.

El almacenamiento de datos es parte del rompecabezas de la IA

El potencial de la IA es casi inimaginable. Sin embargo, para que los modelos de IA den resultados, es necesario un enfoque cuidadoso en todo el proceso de entrenamiento, ya sea fundacional o de ajuste, para obtener una inferencia precisa y escalable. La adopción de la RAG se puede aprovechar para mejorar aún más la calidad de los resultados.

Está claro que, en todas las etapas, los datos son un componente clave; el almacenamiento flash es esencial para generar el impacto transformador de la IA en los negocios y la sociedad, ofreciendo un rendimiento, una escalabilidad y una fiabilidad inigualables. El almacenamiento flash respalda la necesidad de la IA de tener acceso en tiempo real a datos no estructurados, lo que facilita tanto el entrenamiento como la inferencia, al tiempo que reduce el consumo de energía y las emisiones de carbono, lo que lo convierte en un componente vital para una infraestructura de IA eficiente y sostenible.

¿Te ha parecido útil este contenido?