Juns AI expande la implementación de Deepseek-R1 con API sin servidor mejoradas y grupos de razonamiento
Felix Pinkston
13 de febrero de 2025 11:11
La IA juntas mejora la implementación de Deepseek-R1 con nuevas API sin servidor y grupos de razonamiento, ofreciendo soluciones de alta velocidad y escalables para aplicaciones de modelos de razonamiento a gran escala.
JUNSA AI ha anunciado avances significativos en la implementación de su modelo de razonamiento Deepseek-R1, introduciendo API sin servidor mejoradas y grupos de razonamiento dedicados. Este movimiento tiene como objetivo apoyar la creciente demanda de empresas que integran modelos de razonamiento sofisticados en sus aplicaciones de producción.
API sin servidor mejoradas
Según los informes, la nueva API sin servidor juntas para Deepseek-R1 es dos veces más rápido que cualquier otra API actualmente disponible en el mercado, lo que permite una inferencia de baja latencia y calidad de producción con una escalabilidad perfecta. Esta API está diseñada para ofrecer a las empresas experiencias de usuario rápidas y receptivas y flujos de trabajo eficientes de varios pasos, cruciales para aplicaciones modernas que dependen de los modelos de razonamiento.
Las características clave de la API sin servidor incluyen escalabilidad instantánea sin gestión de infraestructura, precios flexibles de pago por uso y seguridad mejorada con los centros de datos de alojamiento de IA juntos. Las API compatibles con OpenAI facilitan aún más la fácil integración en las aplicaciones existentes, ofreciendo límites de alta tasa de hasta 9000 solicitudes por minuto en el nivel de escala.
Introducción de grupos de razonamiento juntos
Para complementar la solución sin servidor, AI juntas se ha lanzado juntos grupos de razonamiento, que proporcionan infraestructura de GPU dedicada optimizada para una inferencia de alto rendimiento y baja latencia. Estos grupos son particularmente adecuados para manejar cargas de trabajo de razonamiento variable y pesado ficha, logrando velocidades de decodificación de hasta 110 tokens por segundo.
Los clústeres aprovechan el motor de inferencia de propietario, que se informa que es 2.5 veces más rápido que los motores de código abierto como Sglang. Esta eficiencia permite el mismo rendimiento con significativamente menos GPU, reduciendo los costos de infraestructura al tiempo que mantiene un alto rendimiento.
Escalabilidad y eficiencia rentable
JUNTS AI ofrece una gama de tamaños de clúster para que coincida con diferentes demandas de carga de trabajo, con modelos de precios basados en contratos que garantizan costos predecibles. Esta configuración es particularmente beneficiosa para las empresas con cargas de trabajo de alto volumen, proporcionando una alternativa rentable a los precios basados en token.
Además, la infraestructura dedicada garantiza entornos seguros y aislados dentro de los centros de datos de América del Norte, cumpliendo con los requisitos de privacidad y cumplimiento. Con el soporte empresarial y los acuerdos de nivel de servicio que garantizan un tiempo de actividad del 99.9%, juntos AI garantiza un rendimiento confiable para las aplicaciones críticas de la misión.
Para más información, visite Juntos ai.
Fuente de la imagen: Shutterstock