En este caso de éxito, realizado a través de nuestro partner SIE, hemos integrado switches Enterprise en un nuevo clúster computacional, instalado en la Universidad Rey Juan Carlos para ofrecer la máxima potencia de cálculo a la investigación biomédica, enfocada a desentrañar los mecanismos de envejecimiento y reprogramación celular en seres humanos.
El desafío
En esta investigación se utilizan técnicas de deep learning e inteligencia artificial, con algoritmos machine learning que requieren múltiples nodos de CPU (para hacer computación paralela), además de GPUs (para los modelos de simulación espacio temporales) y almacenamiento compartido de alto rendimiento. Por lo tanto, era necesario construir un nuevo clúster computacional capaz de hacer frente a la enorme potencia de cálculo aritmético y gráfico demandada por la investigación, que también ha participado en diversas acciones frente a la COVID-19, por lo que el proyecto del nuevo clúster computacional ha contado con financiación tanto de la Unión Europea como de la Comunidad de Madrid.
La solución
El desarrollo del nuevo clúster computacional, liderado por Sergio Muñoz, Doctor en machine learning y profesor de ingeniería biomédica en la Universidad Rey Juan Carlos, ha contado como proveedor de la infraestructura informática con SIE (Sistemas Informáticos Europeos), una empresa especializada en soluciones HPC (High Performance Computing). Ya ha instalado más de 60 clústeres computacionales en universidades y centros de investigación, tanto públicos como privados. SIE es partner oficial del Programa de Canal VIP+ de D-Link, y ha contado con los switches empresariales de D-Link tanto en este proyecto como en otros anteriores, como el clúster del Instituto de Química Teórica y Computacional de la Universitat de Barcelona.
El nuevo clúster computacional, denominado TALOS, ofrece 512 hilos de ejecución en CPU y 221.184 cores de GPUs. La potencia total supera los 20.000 Tflops, mientras que el almacenamiento alcanza los 576 TB. Se ha integrado con componentes de Gigabyte, nVidia y AMD, contando con D-Link para la parte de conmutación de red Ethernet LAN, necesaria para la gestión y acceso al clúster, así como las comunicaciones IPMI. Y todo ello administrado mediante el ecosistema HPC Ladon OS 8.
El clúster cuenta con una tarjeta con doble puerto para los servidores de gestión y almacenamiento, con un puerto que permite conectar a Infiniband y el otro conectado a uno de los puertos 100 Gigabit del switch D-Link DXS-3610-54T/SI Managed Enterprise, para quedar así integrado en una red 100 Gigabit conectada por fibra para el enlace ascendente a la red troncal de la Universidad Rey Juan Carlos para asegurar el máximo ancho de banda en el acceso desde ordenadores y estaciones de trabajo de los investigadores. También era
necesario crear una red para las comunicaciones de gestión IPMI y para ello se ha instalado un switch smart managed D-Link DGS-1210-52, con 48 puertos Gigabit y gestión de capa 2 completa y capa 3 con static routing.
La gama de conmutadores D-Link DXS-3610 es una familia de switches enterprise managed diseñada para entornos del máximo nivel para Top of the Rack, Campus y Data Center, así como distribución gracias a su apilado físico de hasta 12 unidades y amplia densidad de puertos 10 Gigabit, con modelos en cobre y fibra, así como seis puertos para uplinks de fibra a 40 y 100 Gigabit. Los DXS-3610 de D-Link alcanzan una capacidad de conmutación de hasta 2.16 Tbps.
En un esquema de red tan exigente como un clúster computacional era necesario contar con conmutadores de máximo nivel en cuanto a su capacidad de conmutación, que alcanza los 2.16 Tbps, así como redundancia para evitar cualquier caída de la red, lo que en los DXS-3610 se consigue tanto de forma física con ventiladores y fuentes de alimentación intercambiables en funcionamiento, como con el apilado físico de switches de respaldo adicionales, que entrarían en funcionamiento de forma instantánea con la administración de red mediante
topologías en anillo usando la funcionalidad ERPS.
Respecto al despliegue de la red IP con los DXS-3610, destacar la implementación de DHCP Server, Inter VLAN routing, así como routing dinámico en el propio switch, reduciendo así los cuellos de botella que podría generar el uso de un router convencional. Respecto a su gestión, cuentan con interfaz web y acceso por puerto consola para su gestión mediante el estándar de comandos CLI. Además, para una completa monitorización de la red en topologías de amplia densidad de dispositivos, D-Link dispone de D-View 8, un avanzado gestor de red basado en SNMP.
Resultado
El responsable del proyecto por parte de la Universidad, Sergio Muñoz, ha comentado “necesitábamos la máxima potencia de cálculo en el clúster, pero también agilidad en el acceso desde nuestros ordenadores, y la solución integrada ha cumplido con creces en ambos aspectos”. Por su parte, Raúl Díaz, fundador y jefe de proyectos en SIE, afirma “en un clúster computacional de esta magnitud no puedes descuidar la parte de conmutación IP LAN, y por ello confiamos en los switches de D-Link, que nos han demostrado su alto rendimiento y fiabilidad, indispensable en estos entornos tan exigentes y críticos” y añade Raúl “además, el asesoramiento directo desde el fabricante añade un valor extra cuando se afrontan proyectos de esta envergadura.”