IA Mistral acaba de lanzar dos modelos de código abierto
La startup francesa de IA Mistral acaba de lanzar Voxtral Small y Mini, dos modelos de código abierto diseñados para transcribir y resumir voz, así como para traducir audio a varios idiomas.
Con 24 000 millones de parámetros, Small es ideal para aplicaciones a escala de producción, mientras que su hermano de 3000 millones es lo suficientemente eficiente como para funcionar a nivel local. Ambos igualan o superan a modelos comparables de ElevenLabs y OpenAI, y cuestan la mitad.
Con versiones para producción masiva y uso local, Voxtral democratiza el acceso a interfaces de voz de alto rendimiento, según informó la empresa en su sitio web.
Contenido
¿Qué hace único a Voxtral?
- Transcripción de vanguardia: Supera a Whisper large-v3 y ElevenLabs Scribe.
- Comprensión semántica integrada: Responde preguntas y genera resúmenes directamente desde el audio.
- Multilingüe nativo: Rendimiento excepcional en español, inglés, francés, alemán, hindi y más.
- Contexto extendido: Maneja audios de hasta 40 minutos con 32k tokens.
- Activación por voz: Convierte intenciones habladas en comandos sin pasos intermedios.
- Capacidad textual heredada: Conserva el poder de Mistral Small 3.1.
Voxtral ha sido evaluado en benchmarks como LibriSpeech, Common Voice y FLEURS, superando consistentemente a modelos líderes en tareas de transcripción y comprensión de audio.
En todos los idiomas evaluados, Voxtral Small ofrece resultados de élite.
¿Cómo empezar?
- Descarga local: Disponible en Hugging Face.
- API accesible: Desde $0.001 por minuto.
- Modo voz en Le Chat: Prueba grabando o subiendo audios desde web o móvil.
Mistral ofrece despliegues privados, ajuste por dominio (legal, médico, atención al cliente) y funciones avanzadas como identificación de hablantes y detección emocional.
El 6 de agosto, Mistral realizará un webinar junto a Inworld para mostrar cómo construir agentes de voz de extremo a extremo. Además, se anuncian mejoras como segmentación de hablantes, reconocimiento de audio no verbal y marcas temporales por palabra.
