NVIDIA presenta características mejoradas en NCCL 2.23 para mejorar la comunicación de GPU

D8E08E86F8EDBDDCD68414CF49BDD8B1401B11A69515DFF98E6B2B03EE9CF9D7.jpg

NVIDIA presenta características mejoradas en NCCL 2.23 para mejorar la comunicación de GPU

khalid
February 10, 2025
No Comments

El último lanzamiento de la Nvidia Collective Communications Library (NCCL) 2.23 presenta un conjunto de mejoras destinadas a optimizar la comunicación entre GPU y multinodo, esencial para la inteligencia artificial (IA) y las aplicaciones de computación de alto rendimiento (HPC). De acuerdo a Nvidiaestas mejoras están diseñadas para aumentar la eficiencia y la escalabilidad de la computación paralela.

Lanzamiento de los aspectos destacados y las características

La versión NCCL 2.23 está marcada por varias innovaciones clave:

Algoritmo de árboles agregados (PAT) paralelos: Un nuevo algoritmo para las operaciones ReduceCatter y AllGather que ofrecen escala logarítmica, que mejora el rendimiento de los tamaños de mensajes pequeños a medios.

Inicialización acelerada: Rendimiento mejorado con la capacidad de usar redes en banda para la comunicación de bootstrap, facilitado por el nuevo ncclCommInitRankScalable API.

Registro de búfer de usuario de Intranode: Ofrece ganancias de rendimiento al reducir la presión del subsistema de memoria y mejorar la superposición de la comunicación.

Nueva API de complemento de perfilador: Proporciona ganchos API para medir el rendimiento de NCCL de grano fino y mejorar las capacidades de diagnóstico.

Algoritmo PAT y mejoras de inicialización

El algoritmo PAT, inspirado en el algoritmo de Bruck, permite una comunicación eficiente en varios tamaños de red minimizando las necesidades de almacenamiento en búfer. Esta mejora es particularmente beneficiosa para la capacitación de modelos de lenguaje grande, donde el paralelismo de tuberías y tensores son críticos.

El ncclCommInitRankScalable La API facilita la inicialización escalable al permitir múltiples ID únicas, mitigando así el cuello de botella asociado con patrones de comunicación totalmente a uno en operaciones a gran escala.

Registro de búfer de usuario de Intranode

NCCL 2.23 admite el registro del búfer de usuario de Intranode, optimizando la transferencia de datos a través de NVLink y PCIE. Esta característica reduce la sobrecarga y mejora el rendimiento al aprovechar los búferes de usuarios registrados, que se registran automáticamente durante la captura del gráfico CUDA.

API de complemento de perfilador

La nueva API de complemento Profiler aborda la creciente necesidad de herramientas de monitoreo específicas de dominio en expansivos grupos de GPU. Al habilitar el perfil de eventos NCCL, esta API ayuda a detectar anomalías de rendimiento y optimizar la asignación de recursos.

Conclusión

Con la introducción de estas características avanzadas, el NCCL 2.23 de NVIDIA promete mejorar significativamente el rendimiento y la escalabilidad de las comunicaciones de GPU, reforzando su utilidad en los dominios AI y HPC. Para una comprensión más profunda de estas actualizaciones, visite el Blog oficial de Nvidia.

Fuente de la imagen: Shutterstock

Source link

NVIDIA presenta características mejoradas en NCCL 2.23 para mejorar la comunicación de GPU

Lanzamiento de los aspectos destacados y las características

Algoritmo PAT y mejoras de inicialización

Registro de búfer de usuario de Intranode

API de complemento de perfilador

Conclusión

Post Tags :

Tether informa $ 13 mil millones de ganancias y registro de Holdings del Tesoro de los Estados Unidos en 2024

ElevenLabs integra Deepseek R1 con IA conversacional para una interacción mejorada

Leave a Reply Cancel reply

OUR SERVICES

QUICK LINKS

INFORMATION