...

Chainwizz

4535012436EAA292C1BF9F56896B89FB79C06A2CF3E57F22F0C60AD08C28AD78.jpg

NEXA AI mejora el rendimiento de destilación de Deepseek R1 con Nexaquant en plataformas AMD


Lawrence Jengar
20 de febrero de 2025 10:55

NEXA AI presenta tecnología Nexaquant para destilaciones Deepseek R1, optimizando el rendimiento en las plataformas AMD con capacidades de inferencia mejoradas y una huella de memoria reducida.



NEXA AI mejora el rendimiento de destilación de Deepseek R1 con Nexaquant en plataformas AMD

Nexa AI ha anunciado el lanzamiento de Nexaquant Technology para sus modelos Distill Deepseek R1, QWEN 1.5B y LLAMA 8B, destinado a mejorar las capacidades de rendimiento e inferencias en plataformas AMD. Esta iniciativa aprovecha las técnicas de cuantización avanzada para optimizar la eficiencia de los modelos de idiomas grandes, según Comunidad AMD.

Técnicas de cuantificación avanzadas

La tecnología nexaquant aplica un método de cuantización patentado que permite a los modelos mantener un alto rendimiento mientras operan en un nivel de cuantización reducido de 4 bits. Este enfoque permite una reducción significativa en el uso de la memoria sin comprometer las capacidades de razonamiento de los modelos, que son esenciales para aplicaciones que utilizan la cadena de trazas de pensamiento.

Los métodos de cuantización tradicionales, como los basados ​​en LLAMA.CPP Q4 KM, a menudo dan como resultado una menor pérdida de perplejidad para modelos densos, pero pueden afectar negativamente las habilidades de razonamiento. Nexa AI afirma que su tecnología nexaquant recupera estas pérdidas, ofreciendo un equilibrio entre precisión y rendimiento.

Rendimiento de referencia

Las pruebas de referencia proporcionadas por NEXA AI muestran que las destilaciones cuantificadas de Deepseek R1 cuantificados Q4 KM funcionan ligeramente más bajos en algunos puntos de referencia como GPQA y AIME24 en comparación con sus contrapartes completas de 16 bits. Sin embargo, se dice que el enfoque nexaquant mitiga estas discrepancias, proporcionando un rendimiento mejorado al tiempo que mantiene los beneficios de los requisitos de memoria más bajos.

Implementación en plataformas AMD

La integración de la tecnología nexaquant es particularmente ventajosa para los usuarios que operan en procesadores AMD Ryzen o tarjetas de gráficos Radeon. NEXA AI recomienda usar LM Studio para facilitar la implementación de estos modelos, asegurando el rendimiento óptimo a través de configuraciones específicas, como la configuración de las capas de descarga de GPU al máximo.

Los desarrolladores pueden acceder a estos modelos avanzados directamente desde plataformas como Hugging Face, con versiones nexaquant disponibles para descargar, incluido el Deepseek R1 Distill Qwen 1.5b y Llama 8B.

Conclusión

Al introducir la tecnología Nexaquant, Nexa AI tiene como objetivo mejorar el rendimiento y la eficiencia de los modelos de idiomas grandes, haciéndolos más accesibles y efectivos para una gama más amplia de aplicaciones en plataformas AMD. Este desarrollo subraya la evolución y optimización continuas de los modelos de IA en respuesta a las crecientes demandas computacionales.

Fuente de la imagen: Shutterstock


Source link

Leave a Reply

Your email address will not be published. Required fields are marked *

Seraphinite AcceleratorOptimized by Seraphinite Accelerator
Turns on site high speed to be attractive for people and search engines.