IA Mistral acaba de lanzar dos modelos de código abierto

La startup francesa de IA Mistral acaba de lanzar Voxtral Small y Mini, dos modelos de código abierto diseñados para transcribir y resumir voz, así como para traducir audio a varios idiomas.

Con 24 000 millones de parámetros, Small es ideal para aplicaciones a escala de producción, mientras que su hermano de 3000 millones es lo suficientemente eficiente como para funcionar a nivel local. Ambos igualan o superan a modelos comparables de ElevenLabs y OpenAI, y cuestan la mitad.

Con versiones para producción masiva y uso local, Voxtral democratiza el acceso a interfaces de voz de alto rendimiento, según informó la empresa en su sitio web.

Contenido

¿Qué hace único a Voxtral?

Transcripción de vanguardia: Supera a Whisper large-v3 y ElevenLabs Scribe.
Comprensión semántica integrada: Responde preguntas y genera resúmenes directamente desde el audio.
Multilingüe nativo: Rendimiento excepcional en español, inglés, francés, alemán, hindi y más.
Contexto extendido: Maneja audios de hasta 40 minutos con 32k tokens.
Activación por voz: Convierte intenciones habladas en comandos sin pasos intermedios.
Capacidad textual heredada: Conserva el poder de Mistral Small 3.1.

Voxtral ha sido evaluado en benchmarks como LibriSpeech, Common Voice y FLEURS, superando consistentemente a modelos líderes en tareas de transcripción y comprensión de audio.

En todos los idiomas evaluados, Voxtral Small ofrece resultados de élite.

¿Cómo empezar?

Descarga local: Disponible en Hugging Face.
API accesible: Desde $0.001 por minuto.
Modo voz en Le Chat: Prueba grabando o subiendo audios desde web o móvil.

Mistral ofrece despliegues privados, ajuste por dominio (legal, médico, atención al cliente) y funciones avanzadas como identificación de hablantes y detección emocional.

El 6 de agosto, Mistral realizará un webinar junto a Inworld para mostrar cómo construir agentes de voz de extremo a extremo. Además, se anuncian mejoras como segmentación de hablantes, reconocimiento de audio no verbal y marcas temporales por palabra.

Ver fuente