Artículo
29 agosto 2025

Scality para flujos de datos de IA

El mayor riesgo de la IA no es la alucinación, sino la pérdida o corrupción de los datos.

El éxito de la inteligencia artificial (IA) no solo depende del rendimiento de los modelos, sino de la solidez de la cadena de datos que los alimenta. Esta cadena incluye la ingesta, preparación, entrenamiento, ajuste y servicio de los datos. Si bien la industria parece focalizarse en las unidades de procesamiento gráfico (GPU) y las métricas de rendimiento, la base de almacenamiento a menudo se descuida, lo que deja a los sistemas incapaces de manejar la gran cantidad y variedad de las cargas de trabajo de IA. Esta falta de seguridad convierte los datos valiosos, como los usados para el entrenamiento y las bases de conocimiento, en objetivos de ataques. Para Scality, el mayor riesgo de la IA no es la alucinación, sino la pérdida o corrupción de los datos.

La solución de Scality aborda este problema de seguridad al ofrecer un almacenamiento ciber-resistente para toda la cadena de datos de IA, desde la ingesta hasta la inferencia. Su software de almacenamiento es escalable, seguro y flexible. Ofrece soporte para protocolos de archivos y objetos, una arquitectura escalable a nivel de exabytes y protección de datos incorporada.

Los desafíos de la infraestructura de IA

La infraestructura de almacenamiento de IA debe superar seis desafíos clave:

  • Métodos de acceso fragmentados: Las aplicaciones de IA utilizan protocolos de acceso como POSIX, NFS y SMB, así como el API S3 para almacenamiento de objetos. Un sistema de almacenamiento robusto debe soportarlos todos para asegurar la fluidez de la cadena de datos.
  • Diversidad extrema de E/S (el «efecto licuadora» de la IA): Las cargas de trabajo de IA ejercen una presión masiva sobre el almacenamiento con tareas paralelas como la agregación de datos a granel, la limpieza y el entrenamiento. Los sistemas deben manejar cientos de aplicaciones simultáneas, un rendimiento extremo para datos no estructurados y altas IOPS (operaciones de entrada/salida por segundo) para miles de millones de objetos pequeños.
  • Seguridad y aislamiento multi-tenant: Los datos de IA son propiedad intelectual valiosa. Es crucial proteger los conjuntos de entrenamiento y las cadenas de inferencia del ransomware, de las amenazas internas y del acceso entre tenants. Esto requiere una encriptación robusta, controles de acceso basados en roles, inmutabilidad y una seguridad multi-tenant sin sacrificar el rendimiento.
  • Escalado impredecible: El almacenamiento de IA necesita crecer rápidamente en volumen, número de objetos, IOPS, rendimiento y concurrencia. La infraestructura debe escalar de manera fluida en todas estas dimensiones sin necesidad de actualizaciones o re-arquitectura.
  • Complejidad del borde al núcleo: Las cadenas de datos de IA a menudo se inician en el “edge”, con fuentes distribuidas como video y sensores de IoT. La consistencia y la durabilidad de los datos son esenciales para evitar que la corrupción de datos en cualquier etapa contamine los modelos.
  • Costos operativos a escala: Administrar datos a escala de petabytes a exabytes en entornos diversos (edge, core y cloud) es costoso y requiere mucho trabajo. Se necesita visibilidad centralizada y equilibrio entre medios de almacenamiento (flash y disco) para evitar que los costos se descontrolen.

Soluciones de Scality para la IA

Scality ofrece dos soluciones complementarias basadas en su plataforma RING para satisfacer las demandas de las cargas de trabajo de IA:

  • Scality RING XP para almacenamiento de objetos: Esta solución, optimizada para la IA, es ideal para datalakes, bases de datos vectoriales y cargas de trabajo nativas de la nube. Es una edición totalmente flash que ofrece baja latencia para objetos pequeños.
  • WEKA + Scality RING para almacenamiento de archivos: En asociación con WEKA, Scality ofrece un sistema de archivos validado por NVIDIA para cargas de trabajo de IA intensivas en rendimiento que dependen de protocolos de archivos. Esta solución utiliza NVIDIA GPUDirect Storage (GDS) para una ruta directa entre la memoria de la GPU y el almacenamiento flash NVMe, minimizando la latencia. También permite una estratificación de datos de archivo a objeto optimizada.

Ambas soluciones incorporan el marco de ciber-resiliencia CORE5 de Scality, que protege los datos de IA contra amenazas como el ransomware, los insider threats (amenazas internas) y fallos del sistema. El sistema de Scality también incluye funciones como la arquitectura MultiScale para un escalado flexible, la estratificación de datos consciente del ciclo de vida y la preparación de datos inteligente.

Scality sostiene que el almacenamiento de IA es el cimiento para mover los proyectos de IA de la fase de experimentación a la producción, sin comprometer la seguridad o la escalabilidad. Una infraestructura de almacenamiento robusta es fundamental para ganar la carrera de la IA.

¿Te ha parecido útil este contenido?

 

Israel Serrano Barge
Scality
Regional Manager South EMEA

Asociación @aslan
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.