Analítica y Big Data: por qué es necesario replantear las infraestructuras de almacenamiento

Esta transformación digital está moviendo a las organizaciones hacia modelos de negocio mucho más centrados en los datos.

Por tanto, la pregunta clave es: ¿Qué se puede hacer, desde el punto de vista de las infraestructuras de almacenamiento, para habilitar las data-driven companies, para llegar a esos modelos de negocio basados en los datos?

Cada día más, las empresas innovadoras están implementando aplicaciones de nueva generación para aprovechar sus datos e impulsar mejores decisiones con nuevos modelos de análisis basados en la inteligencia artificial (IA) y el machine learning (ML), aplicaciones críticas que tienen que ofrecer una altísima disponibilidad -a menudo en tiempo real (AlwaysOn)- y que necesitan más computación y más datos que nunca. Las infraestructuras tradicionales de almacenamiento están ante un reto histórico, y no sólo por tener que mantener los sistemas alimentados con datos y cumplir con los requerimientos en cuanto a tiempo de respuesta; a todo esto hay que sumar los requerimientos de computación propios de las cargas de trabajo impulsadas por AI y ML

En el pasado, se requerían sistemas separados para cumplir con todos los requisitos de capacidad y rendimiento masivo con rentabilidad, lo que llevaba a estrategias de ubicación de datos que utilizaban, por un lado, un tier de front-end más pequeño y de mayor rendimiento, y, por otro, un sistema de back-end mucho más grande, cuya estructura de costes estaba optimizada para una capacidad masiva, pero no para el rendimiento. Las tecnologías de ubicación de datos capturaban los datos activos utilizados en el tier de rendimiento, al tiempo que se mantenían los datos menos activos en un segundo nivel más escalable y con un coste de propiedad mucho más bajo.

Sin embargo, si bien este modelo ha sido válido mientras los procesos de analítica empresarial eran más bien operaciones tipo batch, las nuevas cargas de trabajo de Big Data necesitan un acceso rápido a un mayor volumen de datos, y esos datos se deben mantener en los tiers de rendimiento. Como es obvio, mover datos entre tiers alarga el tiempo necesario para los procesos.

Dicho todo esto: ¿Cómo diseñar una infraestructura de almacenamiento que cumpla todos estos requisitos? Si yo fuera un arquitecto de datos de una gran organización, en primer lugar, buscaría una arquitectura extremadamente resiliente que pudiera aportar recuperación transparente tanto para un solo sistema como a lo largo de múltiples configuraciones, incluyendo, por supuesto, recuperación ante desastres; también desearía un sistema que admita un completo ecosistema de interconexiones de alto rendimiento, tales como FC o NVMe over Fabrics, para no desperdiciar las capacidades de rendimiento por culpa de las altas latencias; y, por último, exigiría, de forma imprescindible, unos niveles de latencia consistentes, por debajo del milisegundo, tanto para las cargas de trabajo habituales como las de Business Intelligence impulsadas por IA/M. Y todo ello junto con una escalabilidad rápida y sencilla a escala petabyte.

En la práctica, la mayoría de las soluciones disponibles en la actualidad no cumplen con estas premisas, con lo que la empresa se ven obligada a operar con varios sistemas por separado para atender sus requisitos de rendimiento. Para cumplir con estas necesidades se requieren innovaciones clave: gestión de bloqueo, capacidad para acceder rápidamente a cualquier dato mediante estructuras trie y algoritmos de ubicación que se adaptan dinámicamente a los cambios en las carga de trabajo para mantenerse acelerados. Todo ello junto con un enfoque multi-tier y dentro de una única plataforma.

Asimismo, cumplir con estos requisitos de escalado masivo debe llevar no sólo a consideraciones de capacidad, sino a un modelo de acceso directo a todo el almacenamiento desde cualquiera de los controladores del sistema (que tendrá que ser redundante) sin tener que acceder a sistemas de almacenamiento externos. El soporte de este modelo multi–tier en la nube mejorará la propuesta de valor, pero la plataforma debe ser capaz de soportar de manera rentable varios Petabytes de datos, a fin de mantener accesible todo lo más importante.

Si la infraestructura de almacenamiento no cumple con estas características, es posible que lo más sensato sea permanecer en un modelo más tradicional, gestionando y manteniendo plataformas separadas. Pero es fácil entender que con estos nuevos modelos de consolidación de cargas de trabajo y Business Intelligence de nueva generación, no solo existe esa capacidad, sino que también ofrece un beneficio económico.

Desde Infinidat llevamos años optimizando nuestros sistemas en esta dirección, y actualmente ofrecemos una plataforma de almacenamiento de alto rendimiento, masivamente escalable y que supera en rendimiento a los sistemas flash. Incluyendo conectividad FC y NVMe sobre Fabrics, los arrays de almacenamiento primario infiniBox^® soportan más de 5 petabytes de capacidad efectiva en un solo rack, con latencia por debajo del milisegundo y garantía de disponibilidad del dato del 100%. Además, en las últimas semanas, Infinidat ha presentado dos innovaciones clave: por una parte, el nuevo InfiniBox SSA,, un array 100% basado en tecnología de estado sólido que, combinado con el software de Deep Learning y la tecnología de cache neuronal de Infinidat lleva a nuevos niveles de rendimiento; y, por otra, las nuevas capacidades InfiniGuard CyberRecovery, que protegen los entornos de backup frente al ransomware con la capacidad de generar snapshots WORM (Write Once Read Many) que no se pueden eliminar, cifrar ni modificar.

En definitiva, las nuevas arquitecturas de almacenamiento abren la oportunidad de replantear los enfoques tradicionales de análisis, especialmente si los tiers de «rendimiento» y «archivado» se pueden combinar de manera rentable en una sola plataforma. Las aplicaciones pueden acceder directamente a una cantidad mucho mayor de datos sin añadir latencias o complejidad del movimiento de datos entre sistemas de almacenamiento diferentes. Para muchas de las cargas de trabajo impulsadas por inteligencia artificial y machine learning, aprovechar más datos para el análisis genera un mayor conocimiento y mejores decisiones, y aquellas aplicaciones que tienen componentes en tiempo real se beneficiarán de un rápido acceso a los datos.