Debo reconocer que hace unos meses, mi visión sobre la inteligencia artificial aplicada a texto e imágenes era bastante pesimista. Viendo el avance que OpenAI sacaba sobre sus competidores y los precios que están alcanzando todas las herramientas que usan su API, me puse en el peor escenario. Al fin y al cabo, no sería la primera vez que surge una tecnología disruptiva, pero que acaba siendo privatizada y utilizada únicamente por gente privilegiada para conseguir más dinero y ponérselo mucho más complicado a los de abajo. No porque te vayan a quitar el trabajo como tal, sino por el hecho de añadir más barreras y que mucha gente no pueda tener acceso a dicha tecnología a un precio que no sea astronómico.
La cosa cambió hace unos cuantos días, aunque la tendencia ha ido suavizándose durante estos últimos dos meses. En el terreno del texto, han sido unas pocas empresas las que han mostrado al mundo sus cartas contra GPT-3. Y en el terreno visual, la llegada de Midjourney y Stable Diffusion lo cambian todo.
Midjourney, la Inteligencia Artificial hecha artista
Midjourney es un auténtico caballo de batalla que puede ponerle las cosas bastante complicadas a Dall-E. Es el proyecto que necesitábamos para bajarle los humos a la compañía fundada por Elon Musk. Su potencia es absolutamente increíble, y cada día que pasa, nos sorprendemos más de la capacidad de esta IA.
A diferencia de Dall-E 2.0, Midjourney está en una fase beta abierta. Se puede acceder al bot mediante Discord —un poco más adelante en este mismo post os contaré paso por paso cómo acceder a esta y a la otra IA—. La versión gratuita tiene límites y tendrás que compartir todo lo que haces en un caótico grupo lleno de gente que está también generando imágenes. Pero es más que suficiente para poder ver las capacidades de esta inteligencia artificial. Midjourney tiene también en su web distintas imágenes finales que han sido generadas con su IA. Se puede ver el resultado junto al usuario que generó cada una y el prompt que se utilizó.
El mecanismo de generación de imágenes de Midjourney es realmente interesante. En lugar de buscar directamente una imagen final, Midjourney te muestra cuatro imágenes pequeñas por cada prompt que introduzcas. Conocer la terminología que maneja el bot es crucial para obtener buenos resultados. Además, existen otros comandos que se pueden usar para conseguir resultados más precisos. Tanto, que hay un GitHub que se ha dedicado a hacer pruebas variando un prompt y manteniendo la misma seed. Os dejo el enlace al repositorio, porque es realmente espectacular lo que puede hacer esta IA. Es más, os voy a dejar también el enlace de este YouTuber que hace un tour por todo lo que ya sabemos sobre Midjourney —que probablemente, sea muy poco—.
La idea de Midjourney es que montes tu imagen como si fueras Gregor Mendel. Generas ideas, te quedas con la imagen que más te gusta, vuelves a generar en base a ella, perfeccionas el texto… vuelves a obtener una base que te gusta y la vuelves a iterar. Cuando ya tienes un resultado bueno, será el turno de escalar mediante sus propios comandos. Trabajar con Midjourney es tan orgánico que da la impresión de no estar trabajando con una inteligencia artificial. Es lo mismo que hace un agricultor que quiere obtener el chile más picante del mundo. Se tarda en pillar la coplilla y puede que Discord no sea el lugar perfecto para trabajar imágenes, pero el workflow que presenta es una genialidad.
Stable Diffusion, la solución gratuita que estábamos esperando
Por otro lado, no puedo ignorar la existencia de Stable Diffusion. Stable Diffusion es nuestro Luke Skywalker. El proyecto que puede ponerlo todo patas arriba. No es tan potente como Dall-E ni es un alumno aventajado como Midjourney. Pero es una iniciativa de código abierto, lo que lo convierte en el Firefox de las inteligencias artificiales de generación de imágenes.
Durante esta última semana le he dedicado muchísimas horas a Stable Diffusion. Probé primero en la herramienta en línea que facilitó la organización. Luego, puse la Nvidia Tegra T4 de Google Colab a echar humo generando mis prompts. Y por último, probé a instalarlo en mi propio ordenador.
Cómo acceder a Midjourney
Midjourney está ahora mismo en una fase beta que puedes probar si te apetece:
- Ve a la web de Midjourney
- Entra en ‘Join the Beta‘
- Enlaza tu cuenta de Discord
- Accede a una de las salas públicas e inicia tu primera petición con el comando /imagine
Ojo, la cuenta es limitada. Puedes ir creando variaciones y escalando imágenes hasta un límite. Una vez agotes tu prueba, tendrás que pasar por caja para continuar.
La membresía más económica vale unos 10 dólares, y da para crear unas 200 imágenes. Permite crear las imágenes en un chat separado del resto, aunque por lo general, nadie la recomienda. El motivo es que la agotarás en tiempo récord. Por unos 30 dólares mensuales, puedes subir a la versión ilimitada. En este caso, puedes acceder a un modo lento que te creará las imágenes más lento, pero no tendrás limitaciones. Es caro, pero seguro que en el futuro nos parecerá barato. Sobre el papel, todo lo que generes te pertenece como autor.
Cómo acceder a Stable Diffusion
Afortunadamente, ya hay un montón de formas de acceder a Stable Diffusion. La forma más fácil es mediante Stability AI, que es la plataforma oficial con interfaz gráfica. Eso si, también hay que pasar por caja después de hacer varios intentos.
Pero os he dicho que es una herramienta gratuita. Y de hecho, lo es. Llegados a este punto, puedes probar los múltiples Google Colab que hay disponibles. Solo hay que ejecutar los comandos de Python uno a uno y poner una API Key que debes conseguir tras registrarte en Hugging Face. ¿Se puede hacer mas fácil? Sí. Se puede.
Instalar Stable Diffusion en tu ordenador con Windows
He probado ya diferentes formas de instalar Stable Diffusion en un ordenador con Windows. Antes de que sigas leyendo, debo advertirte que solo podrás hacerlo funcionar si tu máquina tiene una tarjeta gráfica Nvidia, pues Stable Diffusion funciona a través de Cuda. Si no es tu caso y quieres generar imágenes sin muchas limitaciones, este Google Colab es tu mejor opción.
El proceso oficial para hacer funcionar Stable Diffusion en un ordenador con Windows es a través de WSL (Windows Subsystem for Linux). Seguí varios tutoriales y acabé tirándome de los pelos por la cantidad de dependencias que requiere la instalación. Por suerte, encontré una GUI que no es una maravilla, pero se puede ejecutar directamente en Windows 10 y Windows 11.
El programa se llama Stable Diffusion GRisk GUI 0.1. Yo mismo he probado esta versión durante una buena cantidad de horas y, aunque no es el programa más estable del mundo, no está nada mal para ser una versión 0.1 beta. El único requisito que hay que cumplir es tener en el ordenador una tarjeta gráfica Nvidia, como decía al principio del epígrafe. En mi caso, la GeForce 1080Ti configurada con un driver gráfico normal de gaming me rinde a unos 1,2it/s, prácticamente un 33% del rendimiento que da el Colab de Google a cada usuario. Lo bueno es que, pese a ser más lento, lo tengo a golpe de click, y puedo encolar distintas tareas y ver los resultados más tarde.
Si quieres hacer una cola de tareas, lo ideal es que copies y pegues el mismo prompt en la lista varias veces. No dejes renglones vacíos, o a la IA se le irá la olla y te generará imágenes rarísimas.