...

Chainwizz

8A6D364E10667B70266C559AAAD3793038EA7B225A572DDB5616E316563F53D8.jpg

Juns AI expande la implementación de Deepseek-R1 con API sin servidor mejoradas y grupos de razonamiento


Felix Pinkston
13 de febrero de 2025 11:11

La IA juntas mejora la implementación de Deepseek-R1 con nuevas API sin servidor y grupos de razonamiento, ofreciendo soluciones de alta velocidad y escalables para aplicaciones de modelos de razonamiento a gran escala.



Juns AI expande la implementación de Deepseek-R1 con API sin servidor mejoradas y grupos de razonamiento

JUNSA AI ha anunciado avances significativos en la implementación de su modelo de razonamiento Deepseek-R1, introduciendo API sin servidor mejoradas y grupos de razonamiento dedicados. Este movimiento tiene como objetivo apoyar la creciente demanda de empresas que integran modelos de razonamiento sofisticados en sus aplicaciones de producción.

API sin servidor mejoradas

Según los informes, la nueva API sin servidor juntas para Deepseek-R1 es dos veces más rápido que cualquier otra API actualmente disponible en el mercado, lo que permite una inferencia de baja latencia y calidad de producción con una escalabilidad perfecta. Esta API está diseñada para ofrecer a las empresas experiencias de usuario rápidas y receptivas y flujos de trabajo eficientes de varios pasos, cruciales para aplicaciones modernas que dependen de los modelos de razonamiento.

Las características clave de la API sin servidor incluyen escalabilidad instantánea sin gestión de infraestructura, precios flexibles de pago por uso y seguridad mejorada con los centros de datos de alojamiento de IA juntos. Las API compatibles con OpenAI facilitan aún más la fácil integración en las aplicaciones existentes, ofreciendo límites de alta tasa de hasta 9000 solicitudes por minuto en el nivel de escala.

Introducción de grupos de razonamiento juntos

Para complementar la solución sin servidor, AI juntas se ha lanzado juntos grupos de razonamiento, que proporcionan infraestructura de GPU dedicada optimizada para una inferencia de alto rendimiento y baja latencia. Estos grupos son particularmente adecuados para manejar cargas de trabajo de razonamiento variable y pesado ficha, logrando velocidades de decodificación de hasta 110 tokens por segundo.

Los clústeres aprovechan el motor de inferencia de propietario, que se informa que es 2.5 veces más rápido que los motores de código abierto como Sglang. Esta eficiencia permite el mismo rendimiento con significativamente menos GPU, reduciendo los costos de infraestructura al tiempo que mantiene un alto rendimiento.

Escalabilidad y eficiencia rentable

JUNTS AI ofrece una gama de tamaños de clúster para que coincida con diferentes demandas de carga de trabajo, con modelos de precios basados ​​en contratos que garantizan costos predecibles. Esta configuración es particularmente beneficiosa para las empresas con cargas de trabajo de alto volumen, proporcionando una alternativa rentable a los precios basados ​​en token.

Además, la infraestructura dedicada garantiza entornos seguros y aislados dentro de los centros de datos de América del Norte, cumpliendo con los requisitos de privacidad y cumplimiento. Con el soporte empresarial y los acuerdos de nivel de servicio que garantizan un tiempo de actividad del 99.9%, juntos AI garantiza un rendimiento confiable para las aplicaciones críticas de la misión.

Para más información, visite Juntos ai.

Fuente de la imagen: Shutterstock


Source link

Leave a Reply

Your email address will not be published. Required fields are marked *

Seraphinite AcceleratorOptimized by Seraphinite Accelerator
Turns on site high speed to be attractive for people and search engines.