Oggi, siamo di fronte ad uno slancio tecnologico notevole, infatti, è diventato possibile far creare immagini ad una macchina, semplicemente fornendole delle minime indicazioni testuali; il passaggio da testo ad immagine è ancora più strabiliante perché rende più evidente la magia della creazione e ci interroga sull'origine della creatività, sul significato di arte e di autore.
I generatori di immagini sono basati su reti generative avversarie o GAN (Generative Adversarial Networks). Si tratta di architetture nelle quali due reti neurali si sfidano in una sorta di gioco a somma zero. La rete detta Generatore, partendo da numeri casuali, ha il compito di elaborare immagini realistiche, provando ad ingannare il Discriminatore.
La rete Discriminatore viene addestrata a riconoscere immagini preesistenti, attraverso l'analisi di milioni di esempi etichettati appropriatamente, con l'obiettivo di capire se quelle prodotte dal Generatore sono reali o artificiali. Pian piano, di tentativo in tentativo, il Generatore impara a produrre immagini sintetiche che sembrano create da un umano.
I sistemi più evoluti di "text to image", come quelli di OpenAI e Imagen di Google, usano dei "diffusion model". Entrambi partono da un modello in grado di comprendere delle frasi complesse, non semplici parole chiave.
Nel sistema di OpenAI queste frasi vengono passate a dei calcolatori che usano un modello, detto "prior", che ha il compito di generare "CLIP image embeddings" ossia di "farsi un'idea" di quelle parole.
Poi queste "CLIP image embeddings" vengono passate ad un altra rete che sulla base di un "Decoder Diffusion model" (unCLIP) inizia a disegnare quell'idea per passi successivi (vedi video in basso).
Anche Imagen di Google usa un "diffusion model", mentre il nuovo Parti usa un modello specifico per trasformare le parole in immagini con un codificatore di testo che attinge a 20 miliardi di parametri.
La prima applicazione in assoluto a fare ciò è stata Dream di Wombo. La particolarità è che basta inserire delle parole chiave e scegliere uno stile pittorico da una lista di oltre venti modelli.
Il software restituisce un'immagine che si può scaricare, acquistare come poster o "coniare" come NFT. Negli ultimi mesi è stata aggiunta la possibilità di dare come input un'immagine da caricare, che la macchina reinterpreterà secondo lo stile scelto. Dream è una soluzione semplice, gratuita.