Google DeepMind ha presentado Genie 3, un innovador modelo de IA capaz de generar mundos tridimensionales totalmente interactivos a partir de texto. La nueva tecnología permite a los usuarios explorar espacios virtuales en tiempo real —desde paisajes realistas hasta fantasías surrealistas— que la IA crea sobre la marcha a 720p y 24 fotogramas por segundo. Genie 3 no es solo una revolución para las industrias del videojuego y los medios de comunicación; es un paso crucial en la investigación hacia la Inteligencia Artificial General (IAG) al proporcionar entornos infinitos y dinámicos para entrenar agentes de IA avanzados.
Imagina que pudieras describir cualquier mundo que se te ocurra —desde los concurridos canales de Venecia hasta un reino surrealista con montañas voladoras— y luego… simplemente entrar en él. Moverte, explorarlo e incluso cambiar sus reglas sobre la marcha. ¿Suena como una promesa de la frontera entre los videojuegos y la ciencia ficción? Google DeepMind acaba de abrir la puerta a ese futuro al presentar Genie 3, un modelo de IA que genera mundos interactivos y jugables a partir de una simple descripción de texto. Y no como una imagen o un vídeo estático, sino como una simulación dinámica que responde a nuestras acciones en tiempo real.
Este es el momento en que la inteligencia artificial generativa deja de ser solo una creadora de contenido pasiva y se convierte en la arquitecta de experiencias completas. Echemos un vistazo más de cerca a lo que esté nuevo «genio» puede hacer y por qué podría ser uno de los lanzamientos de IA más importantes del año.
¿Qué es exactamente Genie 3?
En los términos más sencillos, Genie 3 es lo que se conoce como un «modelo de mundo». No es simplemente otro generador de vídeo como Veo o Sora. Su objetivo principal no es crear un clip cinematográfico perfecto, sino generar un entorno coherente en el que el usuario pueda moverse. Piénsalo como un motor de juego que se crea en directo, ante tus propios ojos, a partir de unas pocas frases de un prompt.
Google afirma que Genie 3 puede generar mundos dinámicos con una resolución de 720p a 24 fotogramas por segundo, manteniendo la coherencia durante varios minutos de interacción. Esto significa un movimiento fluido por el espacio creado, que «recuerda» qué hay en cada lugar, incluso si desaparece brevemente de la vista.
De las simulaciones de juegos a la AGI: una breve historia de las ambiciones de Google
Genie 3 no ha salido de la nada. Es la culminación de más de una década de investigación de Google DeepMind en entornos simulados. Empezaron entrenando agentes de IA para dominar juegos de estrategia y más tarde se expandieron al desarrollo de mundos virtuales para la robótica y la investigación de aprendizaje automático abierto.
Los modelos de mundo como Genie se consideran un paso clave hacia la creación de la inteligencia artificial general (AGI). ¿Por qué? Porque ofrecen a los agentes de IA un currículum casi infinito. En lugar de limitarse a los datos del mundo real, la IA puede aprender a través de millones de escenarios diversos y simulados, probando las consecuencias de sus acciones en un entorno seguro. Genie 3 es un sucesor directo de los modelos Genie 1 y Genie 2, pero introduce una novedad fundamental: la interacción en tiempo real combinada con un nivel mucho más alto de realismo y coherencia.
¿Qué puede hacer Genie 3? Un repaso a sus capacidades
Los ejemplos publicados por Google demuestran mejor la versatilidad de Genie 3. No es una herramienta limitada a un solo estilo o tema. Es un verdadero camaleón.
Una física que (casi) nunca miente
Uno de los aspectos más impresionantes es la capacidad del modelo para simular leyes físicas básicas y fenómenos naturales. En las demostraciones, vemos la perspectiva de un vehículo rover superando un terreno volcánico, donde los neumáticos se hunden en la tierra ennegrecida mientras el humo se eleva a lo lejos y la lava fluye. Otro ejemplo es montar en una moto acuática durante un festival de luces o caminar por la costa de Florida durante un huracán, donde olas masivas inundan la carretera y las palmeras se doblan con el viento. El agua, la iluminación y las interacciones del entorno parecen sorprendentemente naturales.
Ecosistemas vibrantes bajo demanda
Genie 3 puede crear no solo naturaleza estática, sino ecosistemas vibrantes enteros. Desde correr por el borde de un lago glaciar, pasando junto a animales salvajes por el camino, hasta sumergirse en las profundidades del océano entre bancos de medusas, o un jardín zen japonés diseñado con precisión. El modelo entiende cómo los elementos individuales —vegetación, animales, agua, luz— deben interactuar para formar un todo creíble.
Fantasía sin límites: del origami al surrealismo
Aquí es donde Genie 3 realmente saca las garras. El modelo no se limita al realismo. ¿Quieres convertirte en un lagarto en un mundo hecho de origami? Aquí lo tienes. ¿O tal vez prefieres volar como una luciérnaga a través de un bosque mágico con casas en los árboles? No hay problema. Uno de los ejemplos más extraordinarios es un paisaje de colinas irlandesas que de repente se resquebraja, con fragmentos flotando hacia el cielo para formar una arquitectura surrealista y brutalista con cascadas que caen desde lagos suspendidos. Esto demuestra que la única limitación es la imaginación.
Máquina del tiempo y teletransporte virtuales
¿Quieres ver cómo era el palacio de Cnosos en Creta en su apogeo? ¿O dar un paseo en un tranvía acuático por los canales de Venecia, observando edificios antiguos y otros barcos? Genie 3 permite cruzar fronteras geográficas y temporales, ofreciendo oportunidades únicas para explorar lugares históricos y rincones lejanos del mundo.
La magia bajo el capó: cómo funciona Genie 3
Alcanzar un nivel tan alto de control e interactividad en tiempo real ha requerido avances técnicos significativos.
La coherencia del mundo, el mayor desafío
Generar un entorno coherente fotograma a fotograma es más difícil que generar un vídeo finalizado. En los vídeos, los errores son estáticos. En las simulaciones interactivas, las imprecisiones pueden acumularse, llevando a la ruptura de la ilusión. Genie 3 genera cada nuevo fotograma considerando toda la trayectoria del movimiento del usuario hasta el momento. Si después de un minuto vuelves al mismo lugar, el modelo debe «recordar» cómo era. Curiosamente, esta coherencia es una habilidad emergente: no proviene de la creación de una representación 3D explícita (como NeRF o Gaussian Splatting), sino del propio proceso de generación. Esto hace que los mundos sean mucho más dinámicos y ricos.
«¡Hágase la luz!»: eventos controlados por prompts
Esta es una de las características más interesantes. Además de moverse por el mundo, Genie 3 permite modificarlo con comandos de texto. Esto se llama «eventos del mundo controlados por prompts». Por ejemplo, puedes cambiar el tiempo, añadir nuevos objetos o personajes. Esta función amplía enormemente las posibilidades de exploración y es inestimable para entrenar agentes de IA, permitiendo probar escenarios de «qué pasaría si…».
Más que un juguete: Genie 3 al servicio de la AGI
Para probar la utilidad de sus mundos, Google «soltó» a uno de sus agentes de IA —SIMA— en ellos. El agente recibió objetivos específicos (p. ej., «acércate al árbol rojo») y envió de forma independiente comandos de navegación a Genie 3 para lograrlos. Gracias a la coherencia de los entornos generados, SIMA pudo realizar secuencias de acciones más largas y complejas. Estas simulaciones están destinadas a acelerar el desarrollo de agentes que en el futuro podrán operar no solo en el mundo virtual, sino también en el real.
Limitaciones y responsabilidades de Genie 3. Google modera el entusiasmo
A pesar de su enorme potencial, Genie 3 tiene sus limitaciones. El rango de acciones que un agente puede realizar es todavía limitado. Al modelo le cuesta simular interacciones entre muchos agentes independientes y las localizaciones generadas no tienen una precisión geográfica perfecta. La renderización de texto legible sigue siendo un desafío. Actualmente, la interacción es posible durante varios minutos, no durante muchas horas.
Google también subraya su compromiso con el desarrollo responsable. Los modelos abiertos e interactivos conllevan nuevos retos de seguridad. Por lo tanto, Genie 3 está actualmente disponible solo dentro de un programa de investigación limitado para un grupo selecto de científicos y creadores. Este enfoque permite recoger opiniones y comprender mejor los riesgos potenciales.
¿Qué es lo siguiente? El futuro de los mundos interactivos de IA
Genie 3 es un hito. Marca el momento en que los modelos de mundo comienzan a salir de los laboratorios de investigación y a llamar a las puertas de creadores, educadores e ingenieros. Las aplicaciones potenciales son enormes: desde herramientas revolucionarias para crear juegos y películas, pasando por simuladores para entrenar a cirujanos o pilotos, hasta plataformas avanzadas para probar vehículos autónomos y robots.
Estamos asistiendo al nacimiento de una nueva forma de medio de comunicación: los medios interactivos creados bajo demanda. Todavía queda un largo camino por recorrer antes de que cada uno de nosotros pueda crear su propio mundo fotorrealista y totalmente interactivo para muchas horas de diversión. Pero el genio ha salido de la botella y no se le puede volver a meter. Y lo que nos ha mostrado es solo el principio. Si quieres seguir su progreso con nosotros, ¡suscríbete a la newsletter de Delante!