NVIDIA presenta características mejoradas en NCCL 2.23 para mejorar la comunicación de GPU
Ted Hisokawa
31 de enero de 2025 06:38
La versión NCCL 2.23 de NVIDIA presenta un nuevo algoritmo de escala, inicialización acelerada y una API de complemento Profiler, optimización de la comunicación entre GPU y multinodo para aplicaciones AI y HPC.
El último lanzamiento de la Nvidia Collective Communications Library (NCCL) 2.23 presenta un conjunto de mejoras destinadas a optimizar la comunicación entre GPU y multinodo, esencial para la inteligencia artificial (IA) y las aplicaciones de computación de alto rendimiento (HPC). De acuerdo a Nvidiaestas mejoras están diseñadas para aumentar la eficiencia y la escalabilidad de la computación paralela.
Lanzamiento de los aspectos destacados y las características
La versión NCCL 2.23 está marcada por varias innovaciones clave:
- Algoritmo de árboles agregados (PAT) paralelos: Un nuevo algoritmo para las operaciones ReduceCatter y AllGather que ofrecen escala logarítmica, que mejora el rendimiento de los tamaños de mensajes pequeños a medios.
- Inicialización acelerada: Rendimiento mejorado con la capacidad de usar redes en banda para la comunicación de bootstrap, facilitado por el nuevo
ncclCommInitRankScalable
API. - Registro de búfer de usuario de Intranode: Ofrece ganancias de rendimiento al reducir la presión del subsistema de memoria y mejorar la superposición de la comunicación.
- Nueva API de complemento de perfilador: Proporciona ganchos API para medir el rendimiento de NCCL de grano fino y mejorar las capacidades de diagnóstico.
Algoritmo PAT y mejoras de inicialización
El algoritmo PAT, inspirado en el algoritmo de Bruck, permite una comunicación eficiente en varios tamaños de red minimizando las necesidades de almacenamiento en búfer. Esta mejora es particularmente beneficiosa para la capacitación de modelos de lenguaje grande, donde el paralelismo de tuberías y tensores son críticos.
El ncclCommInitRankScalable
La API facilita la inicialización escalable al permitir múltiples ID únicas, mitigando así el cuello de botella asociado con patrones de comunicación totalmente a uno en operaciones a gran escala.
Registro de búfer de usuario de Intranode
NCCL 2.23 admite el registro del búfer de usuario de Intranode, optimizando la transferencia de datos a través de NVLink y PCIE. Esta característica reduce la sobrecarga y mejora el rendimiento al aprovechar los búferes de usuarios registrados, que se registran automáticamente durante la captura del gráfico CUDA.
API de complemento de perfilador
La nueva API de complemento Profiler aborda la creciente necesidad de herramientas de monitoreo específicas de dominio en expansivos grupos de GPU. Al habilitar el perfil de eventos NCCL, esta API ayuda a detectar anomalías de rendimiento y optimizar la asignación de recursos.
Conclusión
Con la introducción de estas características avanzadas, el NCCL 2.23 de NVIDIA promete mejorar significativamente el rendimiento y la escalabilidad de las comunicaciones de GPU, reforzando su utilidad en los dominios AI y HPC. Para una comprensión más profunda de estas actualizaciones, visite el Blog oficial de Nvidia.
Fuente de la imagen: Shutterstock