Ha pasado ya más de un año desde que la IA generativa lo puso todo patas arriba. Desde la llegada de Dall-E, Midjourney y Stable Difussion, no hay una sola semana en la que no tengamos novedades sobre este mundillo que abre todo un universo para los que nos dedicamos a crear contenido.
A finales de septiembre, OpenAI volvió a sorprendernos con DALL-E 3, una nueva versión de su inteligencia artificial para generar imágenes. La versión anterior fue, precisamente, la chispa que lo encendió todo. Sin embargo, los de Sam Altman tardaron mucho en abrir el software al gran público. De ahí que, cuando por fin salió, era más cara, más difícil de utilizar y peor que sus principales competidores.
La cosa cambió radicalmente con esta nueva tercera versión. OpenAI nos dijo que se integraría en Bing Images y también en ChatGPT, añadiendo mayor multimodalidad a una inteligencia artificial que no para de sorprendernos. A la hora de utilizar el programa, DALL-E se siente literalmente como dar instrucciones a un diseñador de verdad. Podemos utilizar el lenguaje natural exactamente igual que como lo hacemos con el chat desde hace casi un año.
Cómo hacer que DALL-E 3 funcione como Midjourney

A pesar de esto, DALL-E sobre ChatGPT no es perfecto. No solo porque no hay inpainting, sino porque, al centrarse únicamente en ser un producto sencillo de usar, DALL-E 3 esconde herramientas básicas como la generación de variantes, la semilla (seed) utilizada para cada generación o incluso la posibilidad de decirle directamente el prompt que queremos para nuestras imágenes —en ChatGPT, la IA siempre generará variantes sobre el propio prompt que introduzcamos—.
Por suerte, al interactuar con un modelo de lenguaje, podemos darle coba a ChatGPT para que DALL-E 3 genere lo que nosotros queramos. Durante estas dos semanas desde que me activaron esta nueva función, he estado probando instrucciones y líneas con un poco de ingeniería social para que esta IA haga justo lo que yo pido.
Por suerte, hay gente que ha profundizado todavía más en este campo. Ayer por la noche di con un fantástico hilo del usuario AshutoshShrivastava en Twitter —sí, Twitter— en el que explica cómo podemos utilizar un poco de JSON integrado en las Custom Instructions de ChatGPT para que la IA generativa de imágenes nos permita operar e iterar las imágenes a nuestro gusto.
Conseguir el seed y un título para cada imagen de DALL-E 3 sobre ChatGPT

Según nos explicaba AshutoshShrivastava en su hilo, podemos tomar un control increíble sobre la herramienta si utilizamos instrucciones personalizadas. El usuario ha creado dos modos distintos:
- Default: es una versión mejorada del comportamiento estándar de DALL-E cuando funciona embebido en ChatGPT. Genera 4 imágenes por cada instrucción (aunque OpenAI puede limitar a 2-3 imágenes si sus servers están sobrecargados). Junto a cada imagen, ChatGPT imprimirá un título único para poder reconocer la imagen y la seed utilizada para generar esa imagen.
- DMP: ChatGPT no podrá transformar nuestro prompt, sino que tendrá que utilizar única y exclusivamente las palabras que hayamos introducido en la caja de diálogo. Si añadimos el seed, lo utilizará para generar una única imagen.
Tras probarlo durante un par de horas, las posibilidades de esta sencilla implementación son casi infinitas. Lo ideal es comenzar en modo Default, hasta conseguir una imagen similar a lo que buscamos. Luego, como el que bloquea el enfoque detrás de una cámara digital, le diremos a «Gepeto» que pasamos a modo DMP. Ahora, solo tendremos que variar unas cuantas palabras (manteniendo la misma seed), para tener un control exhaustivo de lo que estamos generando.

El código que tenéis que usar es este que os dejo en la caja. Hay que añadirlo al «Custom Instructions» de ChatGPT. Obviamente, solo te funcionará si pagas ChatGPT Plus:
{
"KeyName1": {
"Instruction": "Your Instructions",
"Activation Command": "/activate KeyName1"
},
"KeyName2": {
"Instruction": "Your Instructions",
"Activation Command": "/activate KeyName2"
},
"KeyNameN": {
"Instruction": "Your Instructions",
"Activation Command": "/activate KeyNameN"
}
}
// My Custom instructions based on above structure :
{
"Default": {
"Instruction": "DALL-E can modify and update prompts to create 4 variations of a new prompt. Based on these different variations, it should always generate 4 images. Always use a wide aspect ratio by default, and you must provide the seed number details for each image after it's rendered.",
"Activation Command": "/activate Default"
},
"DMP": {
"Instruction": "Do not modify my prompt under any circumstances. Please create an image using this exact prompt. Always use a wide aspect ratio by default. When you generate an image, you must always provide the seed number details for that image after it's rendered",
"Activation Command": "/activate DMP"
}
}
Un JSON lleno de posibilidades
Como todo lo que rodea a la IA, este JSON de AshutoshShrivastava puede ser solamente un pequeño punto de partida. Puedes crear nuevos modos, con instrucciones personalizadas. Si no sabes programar y no tienes ni idea de JSON, puedes pegarle al propio ChatGPT el fragmento que he dejado arriba y pedirle que te amplíe el código con nuevos modos y las instrucciones que te apetezcan.