Google Revoluciona la Generación de Imágenes con Gemini 2.0 Flash

La inteligencia artificial ha alcanzado un nivel impresionante en la generación de imágenes, con productos maduros que ofrecen una calidad extraordinaria. Sin embargo, Google ha dado un paso más allá con el lanzamiento de Gemini 2.0 Flash, una nueva versión de su modelo que introduce una capacidad revolucionaria: la generación de imágenes de forma nativa. A diferencia de otros modelos como Imagen 3 de la propia Google, esta nueva versión no solo se centra en la calidad de las imágenes generadas, sino en su versatilidad y capacidad de edición avanzada.

La Importancia de la Generación Nativa de Imágenes

El concepto de modelos multimodales nativos no es nuevo. OpenAI presentó en 2024 GPT-4o, un modelo capaz de recibir y generar texto, imágenes y audio de forma integrada. Sin embargo, aunque OpenAI promocionó estas capacidades, nunca llegaron a estar disponibles para el público. Google ha aprovechado esta oportunidad para adelantarse con Gemini 2.0 Flash, que no solo recibe imágenes como entrada, sino que genera imágenes directamente en base a instrucciones textuales. Esto desbloquea múltiples funcionalidades innovadoras para la edición y manipulación de imágenes con solo un prompt.

Cómo Probar Gemini 2.0 Flash de Forma Gratuita

Este nuevo modelo está disponible en Google AI Studio, la plataforma de Google que permite probar sus tecnologías de IA de manera gratuita. Para acceder a estas capacidades, hay que:

Entrar en Google AI Studio.
Seleccionar el modelo Gemini 2.0 Flash Image Generation Experimental.

Probando el modelo

Para evaluar el rendimiento de este nuevo modelo, he llevado a cabo una serie de pruebas para identificar sus fortalezas y áreas de mejora.

Alterar imagenes

Para comenzar, decidí probar cómo el modelo altera una imagen. Para ello, le pedí que, a partir de una imagen de la ciudad de Tokio, modificara el color de la Torre de Tokio a morado.

Lo primero que destaca al ver este resutlado es que a diferencia de otros generadores de imágenes, Gemini 2.0 Flash no creó una imagen diferente, sino que editó la imagen original respetando su estructura.

prueba gemini 2.0 flash de cambio de color

En segundo lugar, la imagen tiene una calidad muy baja. Aunque en la captura no se aprecia del todo, se nota que está bastante pixelada. Además, aunque el resultado es técnicamente correcto, a simple vista no lo parece, ya que no solo ha modificado la torre, sino también la luz que la rodea. Esto era de esperar, dado que ambos comparten el mismo color.

detalle de la prueba gemini 2.0 flash de cambio de color

No puedo considerar este resultado completamente erróneo, ya que, en esencia, es correcto. Quizás afinando un poco más el prompt se podría mejorar, así que decidí cambiar la imagen. Por ello, seleccioné una imagen de un Mustang rojo y solicité que cambiara su color a azul.

¡Y WOW! El resultado fue perfecto: cambió el color sin alterar nada más que la carrocería del coche, ¡y además mantuvo los reflejos de la luz!

segunda prueba gemini 2.0 flash de cambio de color con un coche

Sustitución de elementos

Muy contento con los resultados fui un paso más alla sustuir un elmento por otro por ello volví a usar la imagen de la ciudad de tokio par sustiuir su famosa torre por el Empire State Building.

Y una vez más el resultado es impresionante no solo comprendio y sustituyo las edificaciones en el sitio correcto sino que se dio cuenta de que la iamgen de tokio era al atardecer y ajusto la iluminación:

prueba gemini flash 2.0 sustitución de la torre de tokio por el empire state building

Outpainting

Al observar los resultados tan positivos, solo me queda probar si es capaz de escalar la imagen y cómo lo hace, es decir, ampliarla. Para ello, he seleccionado una imagen de un osito de peluche sentado en una silla y le he pedido que muestre la silla completa.

En este punto, hay varias cosas que comentar. En primer lugar, el primer outpainting está bien, pero ya empiezo a notar algunos detalles, como la alteración de la posición de las piernas y la transformación, además de un cambio en la silla.

El cambio no me pareció drástico, así le pedí que se mostraran por completo las patas de la silla. Fue entonces cuando la imagen se desvirtuó aún más: el oso cambió de textura de cuello para abajo y comenzó a flotar, lo que dio un resultado completamente erróneo:

Gemini 2.0 flash prueba de outpainting 2

Conclusiones

Por lo que respecta el nivel de calidad de imágen todavia es un modelo en fase experimental porque lo que aún debe pulirse y siempre se puede usar algun upscaler, consiguiendo un resultado más nítido, por lo que no considero que sea un error grave.

El resultado del resto de las pruebas es muy positivo. Aunque hay detalles por pulir, como ocurre con todos los modelos, considero que los avances de este en particular son muy interesantes.

Sinceramente Google ha dado un gran paso adelante con Gemini 2.0 Flash, ofreciendo una nueva forma de editar imágenes con solo texto. Aunque la calidad de las imágenes generadas no es la mejor, su capacidad para realizar ediciones avanzadas de manera nativa es revolucionaria. Este modelo permite realizar prototipos rápidos, pruebas de concepto y modificaciones sin necesidad de herramientas complejas.

El futuro de la edición de imágenes ya no depende únicamente de software tradicional como Photoshop. Con modelos de IA como este, cualquier persona podrá realizar ediciones avanzadas con solo describir lo que quiere. Sin duda, estamos ante una nueva era de la generación y manipulación de imágenes.