Nvidia dice que la nueva GPU B200 ofrece hasta 20 petaflops de caballos de fuerza FP4 de sus 208 mil millones de transistores, y que un GB200 que combina dos de esas GPU con una sola CPU Grace puede ofrecer 30 veces el rendimiento para cargas de trabajo de inferencia LLM y al mismo tiempo ser potencialmente sustancialmente más eficiente. “Reduce el costo y el consumo de energía hasta 25 veces” en comparación con un H100, dice Nvidia.
En un punto de referencia GPT-3 LLM con 175 mil millones de parámetros, Nvidia dice que el GB200 tiene un rendimiento algo más modesto, 7 veces el de un H100, y Nvidia dice que ofrece 4 veces la velocidad de entrenamiento.
Nvidia dijo a los periodistas que una de las diferencias clave es un motor transformador de segunda generación que duplica la computación, el ancho de banda y el tamaño del modelo mediante el uso de cuatro bits para cada neurona en lugar de ocho (de ahí los 20 petaflops del FP4 que mencioné antes). La diferencia solo surge cuando se conecta una gran cantidad de estas GPU en un servidor: una solución de red NVLink de próxima generación que permite que 576 GPU se comuniquen entre sí, con 1,8 terabytes por segundo de ancho de banda bidireccional.
Anteriormente, dice Nvidia, un grupo de sólo 16 GPU dedicaba el 60 por ciento de su tiempo a comunicarse entre sí y sólo el 40 por ciento a la computación.
Nvidia cuenta con que las empresas compren grandes cantidades de estas GPU, por supuesto, y las está empaquetando en diseños más grandes listos para supercomputadoras, como el GB200 NVL72, que conecta 36 CPU y 72 GPU en un solo bastidor refrigerado por líquido para un total de 720 petaflops. del rendimiento del entrenamiento de IA o 1.440 petaflops (también conocido como 1,4 exaflops) de inferencia. Cada bandeja del bastidor contiene dos chips GB200 o dos conmutadores NVLink, con 18 de los primeros y 9 de los últimos por bastidor. En total, Nvidia dice que uno de estos bastidores puede admitir un modelo de 27 billones de parámetros. Se rumorea que GPT-4 tiene alrededor de un modelo de parámetros de 1,7 billones.
La compañía dice que Amazon, Google, Microsoft y Oracle ya están planeando ofrecer los racks NVL72 en sus ofertas de servicios en la nube, aunque no está claro cuántos están comprando.
Y, por supuesto, Nvidia también se complace en ofrecer a las empresas el resto de la solución. Aquí está el DGX Superpod para DGX GB200, que combina ocho sistemas en uno para un total de 288 CPU, 576 GPU, 240 TB de memoria y 11,5 exaflops de computación FP4.
Nvidia dice que sus sistemas pueden escalar a decenas de miles de superchips GB200, conectados con redes de 800 Gbps con su nuevo Quantum-X800 Infiniband (para hasta 144 conexiones) o Spectrum-X800 Ethernet (para hasta 64 conexiones).