10 diciembre, 2025

IA Mistral acaba de lanzar dos modelos de código abierto

IA Mistral acaba de lanzar dos modelos de código abierto

La startup francesa de IA Mistral acaba de lanzar Voxtral Small y Mini, dos modelos de código abierto diseñados para transcribir y resumir voz, así como para traducir audio a varios idiomas.

Con 24 000 millones de parámetros, Small es ideal para aplicaciones a escala de producción, mientras que su hermano de 3000 millones es lo suficientemente eficiente como para funcionar a nivel local. Ambos igualan o superan a modelos comparables de ElevenLabs y OpenAI, y cuestan la mitad.

Con versiones para producción masiva y uso local, Voxtral democratiza el acceso a interfaces de voz de alto rendimiento, según informó la empresa en su sitio web.

Contenido

¿Qué hace único a Voxtral?

  • Transcripción de vanguardia: Supera a Whisper large-v3 y ElevenLabs Scribe.
  • Comprensión semántica integrada: Responde preguntas y genera resúmenes directamente desde el audio.
  • Multilingüe nativo: Rendimiento excepcional en español, inglés, francés, alemán, hindi y más.
  • Contexto extendido: Maneja audios de hasta 40 minutos con 32k tokens.
  • Activación por voz: Convierte intenciones habladas en comandos sin pasos intermedios.
  • Capacidad textual heredada: Conserva el poder de Mistral Small 3.1.

Voxtral ha sido evaluado en benchmarks como LibriSpeech, Common Voice y FLEURS, superando consistentemente a modelos líderes en tareas de transcripción y comprensión de audio.

En todos los idiomas evaluados, Voxtral Small ofrece resultados de élite.

¿Cómo empezar?

  • Descarga local: Disponible en Hugging Face.
  • API accesible: Desde $0.001 por minuto.
  • Modo voz en Le Chat: Prueba grabando o subiendo audios desde web o móvil.

Mistral ofrece despliegues privados, ajuste por dominio (legal, médico, atención al cliente) y funciones avanzadas como identificación de hablantes y detección emocional.

El 6 de agosto, Mistral realizará un webinar junto a Inworld para mostrar cómo construir agentes de voz de extremo a extremo. Además, se anuncian mejoras como segmentación de hablantes, reconocimiento de audio no verbal y marcas temporales por palabra.

Ver fuente