Nvidia presenta Deepseek-R1 con microservicio NIM mejorado
Peter Zhang
30 de enero de 2025 07:19
Nvidia lanza Deepseek-R1, un modelo de 671 mil millones de parámetros, como un microservicio NIM para ayudar a los desarrolladores a construir agentes especializados de IA con capacidades de razonamiento avanzado.
Nvidia ha presentado su último modelo de IA, Deepseek-R1, que cuenta con impresionantes 671 mil millones de parámetros. Este modelo de vanguardia ahora está disponible como una vista previa a través del microservicio NIM NIM, según un reciente Publicación de blog de Nvidia. Deepseek-R1 está diseñado para ayudar a los desarrolladores a crear agentes de IA especializados con capacidades de razonamiento de última generación.
Capacidades únicas de Deepseek-R1
Deepseek-R1 es un modelo abierto que aprovecha las técnicas de razonamiento avanzado para ofrecer respuestas precisas. A diferencia de los modelos tradicionales, realiza pases de inferencia múltiples sobre consultas, utilizando métodos como la cadena de pensamiento y el consenso para llegar a las mejores respuestas posibles. Este proceso, conocido como escala de tiempo de prueba, demuestra la importancia de la computación acelerada para la inferencia de IA de agente.
El diseño del modelo le permite 'pensar' iterativamente a través de problemas, generando más tokens de salida y ciclos de generación más largos. Esta escalabilidad es crucial para lograr respuestas de alta calidad y requiere importantes recursos informáticos de tiempo de prueba.
Mejoras de microservicio de NIM
El modelo Deepseek-R1 ahora es accesible como un microservicio en la plataforma de compilación de NVIDIA, ofreciendo a los desarrolladores la oportunidad de experimentar con sus capacidades. El microservicio puede procesar hasta 3,872 tokens por segundo en un solo sistema NVIDIA H200, que muestra su alta eficiencia y precisión de inferencia, particularmente para tareas que requieren inferencia lógica, razonamiento y comprensión del lenguaje.
Para facilitar la implementación, el microservicio NIM admite API estándar de la industria, lo que permite a las empresas maximizar la seguridad y la privacidad de los datos al ejecutarla en su infraestructura preferida. Además, el software NVIDIA AI Foundry y NVIDIA NEMO permiten a las empresas crear microservices NIM profundos de DeepSeek-R1 personalizados para aplicaciones especializadas de IA.
Especificaciones técnicas y rendimiento
Deepseek-R1 es un modelo de mezcla de expertos (MOE), con 256 expertos por capa, con cada token enrutado a ocho expertos separados en paralelo para la evaluación. El rendimiento en tiempo real del modelo requiere una gran cantidad de GPU con capacidades de cómputo sustanciales, conectadas a través de sistemas de comunicación de alta latencia de alto ancho y baja latencia para enrutar eficazmente los tokens de inmediato.
El motor del transformador FP8 de la arquitectura Nvidia Hopper y el ancho de banda NVLink juegan un papel fundamental en el logro del alto rendimiento del modelo. Esta configuración permite que un solo servidor con ocho GPU H200 ejecute el modelo completo de manera eficiente, ofreciendo un rendimiento computacional significativo.
Perspectivas futuras
La próxima arquitectura Nvidia Blackwell está configurada para mejorar la escala de tiempo de prueba para modelos de razonamiento como Deepseek-R1. Promete traer mejoras sustanciales en el rendimiento con sus núcleos de tensor de quinta generación, capaces de entregar hasta 20 petaflops del rendimiento máximo de cálculo de FP4, optimizando aún más las tareas de inferencia.
Los desarrolladores interesados en explorar las capacidades del microservicio NIM Deepseek-R1 pueden hacerlo en la plataforma de construcción de Nvidia, allanando el camino para soluciones de IA innovadora en varios sectores.
Fuente de la imagen: Shutterstock