qwen3-omni

Qwen3-Omni: ¿una nueva era para los modelos de IA multimodales? – Noticias de IA

Alibaba ha presentado Qwen3-Omni, un revolucionario modelo de inteligencia artificial de código abierto que procesa simultáneamente texto, imágenes, audio y video, respondiendo en tiempo real tanto con texto como con voz natural. A diferencia de muchas soluciones híbridas, Qwen3-Omni logra un rendimiento de vanguardia en tareas audiovisuales sin comprometer sus capacidades de análisis de texto, desafiando directamente a los modelos de código cerrado de Google y OpenAI.

Durante mucho tiempo, la IA funcionó como una colección de herramientas aisladas: una para texto, otra para audio, otra para imágenes. Integrarlas en un solo sistema coherente requería trabajo adicional y conocimientos especializados. Alibaba desafía este enfoque al presentar Qwen3-Omni: un modelo abierto diseñado desde cero para manejar simultáneamente texto, imagen, audio y video. Es un paso hacia un futuro donde la interacción con las máquinas se asemeje a una conversación natural y no a la introducción de comandos.

¿Qué es exactamente Qwen3-Omni?

Qwen3-Omni es un modelo nativamente multimodal y multilingüe del tipo “omni”. Esto significa que puede procesar de manera fluida distintos tipos de datos de entrada (leer, escuchar, observar) y responder tanto con texto como con voz natural en tiempo real. Lo más importante es que logra esto sin perder rendimiento en ninguna de las modalidades que maneja, algo que solía ser un problema en modelos híbridos anteriores.

Características clave y capacidades de Qwen3-Omni

El modelo desarrollado por Alibaba se distingue de la competencia por varias características que definen su potencial.

Un solo modelo, múltiples formatos

La principal fortaleza de Qwen3-Omni radica en su versatilidad.

  • Entrada: acepta texto, imágenes, audio e incluso clips de video.
  • Salida: las respuestas se generan no solo en formato textual, sino también como voz fluida y natural.

Ejemplo: puedes enviar un breve video con la pregunta “¿Qué está pasando aquí?” y el modelo responderá con una explicación hablada y un resumen textual.

Verdadero multilingüismo

Qwen3-Omni fue creado pensando en un uso global.

  • Procesa texto en 119 idiomas.
  • Comprende voz en 19 idiomas.
  • Genera voz en 10 idiomas.

De esta forma, se convierte en una herramienta accesible para usuarios de todo el mundo — desde desarrolladores en India hasta profesores en Brasil.

Rendimiento sin compromisos

Muchos modelos multimodales pierden calidad en tareas textuales al ser entrenados con datos de audio o video. Qwen3-Omni evita esta trampa.

  • Mantiene un alto rendimiento en pruebas de texto e imagen.
  • Alcanza el nivel SOTA (State of the Art) en 32 de 36 benchmarks de audio y audiovisuales, superando a modelos cerrados como Gemini-2.5-Pro y GPT-4o-Transcribe.

Arquitectura innovadora: “el pensador y el hablante”

La rapidez y naturalidad de sus respuestas provienen de una estructura única.

  • Thinker (pensador): esta parte del modelo se encarga del razonamiento, análisis y generación de texto.
  • Talker (hablante): recibe la información procesada del “Pensador” y la convierte rápidamente en tokens de voz transmitidos en tiempo real.

Esta arquitectura, respaldada por el mecanismo MoE (Mixture of Experts), reduce significativamente la latencia, permitiendo una interacción en tiempo real con retrasos de solo 211 ms (solo audio) y 507 ms (audio-video).

Aplicaciones prácticas que tienen sentido

Esta tecnología abre la puerta a nuevas aplicaciones en distintos campos:

  • Educación: un profesor puede grabar una clase, y el modelo genera resúmenes y puntos clave en varios idiomas.
  • Accesibilidad: las personas con discapacidad auditiva pueden obtener transcripciones precisas en tiempo real de materiales de audio o video.
  • Negocios: una grabación de reunión puede convertirse rápidamente en una lista de tareas, un resumen o servir para consultas sobre los temas tratados.
  • Uso cotidiano: al mostrar al modelo un video de cocina, en lugar de responder “Es pasta”, puede ofrecer una receta paso a paso.

Información para desarrolladores

Alibaba pone Qwen3-Omni a disposición bajo la licencia Apache 2.0, lo que permite su uso gratuito, incluso con fines comerciales.

  • Requisitos: el modelo es intensivo en recursos. Ejecutarlo localmente requiere potentes tarjetas gráficas (hasta 144 GB de VRAM).
  • Disponibilidad: el modelo está disponible a través de Hugging Face (con Transformers), vLLM (para mayor rendimiento) y la API de DashScope. También hay una imagen Docker lista para usar.

¿Marca Qwen3-Omni una nueva era de interacción?

Qwen3-Omni probablemente representa una vista previa de cómo nos comunicaremos con la tecnología en los próximos años. Los chatbots basados únicamente en texto están quedando atrás. El futuro pertenece a los modelos capaces de ver, oír y hablar al mismo tiempo, de forma fluida y natural. Si desarrollas aplicaciones de nueva generación o simplemente te interesa el rumbo de la inteligencia artificial, Qwen3-Omni es un proyecto que definitivamente merece tu atención. Nosotros también seguiremos de cerca estos avances tecnológicos, así que mantente al tanto y suscríbete al boletín de Delante.

Fuente de la información sobre Qwen3-Omni: https://qwen.ai/blog?id=65f766fc2dcba7905c1cb69cc4cab90e94126bf4&from=research.latest-advancements-list

Maciej Jakubiec

SEO Specialist

Maciej Jakubiec

SEO Specialist

Licenciado en Marketing con especialización en comercio electrónico por la Universidad de Economía de Cracovia, forma parte del equipo de SEO de Delante desde 2022. Firme creyente en la importancia de un contenido bien elaborado, además de ser especialista en SEO, es un apasionado productor musical que crea sonidos desde su adolescencia.

¿Listo para potenciar tus resultados?
Contacta con nuestro equipo.

Completa el formulario y nos pondremos en contacto contigo en un plazo de 24 horas.

¿Te gustaría colaborar con nosotros?

Responderemos en menos de 24 horas: ¡empecemos hoy mismo!

Por favor, activa JavaScript en tu navegador para completar este formulario.
Consentimiento de marketing