OpenAI tiene a los famosísimos ChatGPT y DALL·E: ahora ha presentado a Sora, un sorprendente modelo de texto a vídeo

admin15 febrero, 2024

63 3 minutos de lectura

La carrera por liderar el desarrollo de la inteligencia artificial se está poniendo más que interesante. Pocas horas después de que Google anunciara Gemini 1.5, una nueva versión de su modelo multimodal destinada a competir en mejores condiciones con GPT-4, OpenAI ha revelado su primer modelo de generación de vídeos.

Estamos hablando de Sora, una herramienta que en su actual versión experimental permite generar vídeos de hasta 60 segundos. La compañía liderada por Sam Altman asegura que el modelo es capaz de generar escenas realistas, adhiriéndose a las indicaciones de los usuarios. Todo esto, manteniendo la calidad de los fotogramas.

La IA generativa de OpenAI ahora también hace vídeos

Si nos detenemos un instante a pensar en cómo la IA generativa está avanzando, podríamos concluir en que lo está haciendo a velocidad de vértigo. En 2021 nos sorprendíamos con la primera versión de DALL·E y “habilidad” para crear un aguacate-silla. Y en este momento vivimos en un presente donde los generadores de vídeo son una realidad.

Sora funciona esencialmente con la misma mecánica que los generadores de texto a imagen. Utilizamos un prompt (indicación textual) para describir lo que queremos que el modelo genere. Aquí, ciertamente, entra en juego la habilidad del usuario para generar prompt precisos para el modelo en cuestión. Veamos el prompt del vídeo superior generado por Sora.

“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about”.

Como podemos ver, se ha conseguido una sorprendente escena de vídeo, incluso con cambios de plano, pero gracias a indicaciones muy precisas. Se describe minuciosamente la apariencia de la mujer que camina en las calles de Tokio, y se brindan detalles sobre todo lo que le rodea. Desde las luces de neón brillantes hasta la humedad reflectante del suelo.

Sora Openai Demo

El modelo, explican, es capaz de generar escenas complejas con múltiples personajes. Pero hay más, también se puede especificar el tipo de movimiento del sujeto y detalles precisos del entorno. “El modelo entiende no solo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico”, dice la compañía.

OpenAI añade que todos los vídeos publicados en la publicación de blog del anuncio de este nuevo modelo no han sido editados. Si tenemos en cuenta lo que la compañía asegura, estamos realmente ante una herramienta prometedora, aunque tendremos que probarla directamente para sacar conclusiones sobre sus capacidades.

La compañía sí advierte que, como cualquier modelo de IA, Sora también tiene sus propias limitaciones e inconvenientes. Dice que “puede tener dificultades para simular con precisión la física de una escena compleja y puede no comprender instancias específicas de causa y efecto”. Ahora bien, tendremos que esperar para poder utilizar este nuevo modelo.

En Xataka La polémica de Estopa y su portada apunta hacia un debate mayor: cuánta IA vamos a permitir en las ilustraciones

En este momento se encuentra disponible únicamente para los investigadores de OpenAI, es decir, su funcionamiento está limitado a pruebas de laboratorio. No obstante, señalan que estará disponible en el catálogo de productos de OpenAI, pero no antes de que se tomen varias medidas para garantizar la seguridad de los usuarios.

Imágenes: OpenAI

En Xataka: Sam Altman habló de invertir siete billones de dólares en chips. Es una barbaridad, pero ha explicado mejor la cifra

–
La noticia OpenAI tiene a los famosísimos ChatGPT y DALL·E: ahora ha presentado a Sora, un sorprendente modelo de texto a vídeo fue publicada originalmente en Xataka por Javier Marquez .

admin15 febrero, 2024

63 3 minutos de lectura

La IA generativa de OpenAI ahora también hace vídeos

admin

Publicaciones relacionadas

Descodificadores y receptores de TDT: ¿cuál es mejor comprar? Consejos y recomendaciones

La campaña publicitaria más loca (y no oficial) de ‘Star Wars’ mostró a los personajes de las películas bebiendo cerveza

Hemos ganado una gran batalla contra la vigilancia policial: romper el cifrado de los mensajes va contra los derechos humanos

El Snapdragon X Plus es la versión «lite» del X Elite para portátiles, pero no en IA: ahí la apuesta es igual de fuerte

El peligroso malware bancario Vultur vuelve a la carga: una pesadilla para Android que comienza con un SMS fraudulento