Cos'è DALL-E Mini: il trend dell'intelligenza artificiale genera immagini da testo

I risultati generati da DALL-E Mini per "Matteo Renzi e Matteo Salvini al Colosseo"

Dietro al tool che circola molto sui social network negli ultimi giorni c'è un'intelligenza artificiale complessa

di F. Marinelli (articolo) e Simona Laboccetta (video)

Aggiornato il 15 giugno 2022 17:25

Non perdere le ultime news

Clicca sull’argomento che ti interessa per seguirlo. Ti terremo aggiornato con le news da non perdere.

Curiosità

Video del Giorno: Fabio Volo, la voce di Kung Fu Panda: 'Ho trasformato limiti in forza'

DALL-E (nato dall'unione tra il cognome dell'artista simbolo del simbolo del surrealismo, Salvador Dalì, e il robot del cartone della Disney "Wall-E") nell'ultima settimana circola come trend sui social network, in particolare Twitter, dove opere d'arte create da DALL-E campeggiano su vari profili. Si va da improbabili foto di Gandalf de Il Signore degli Anelli steso sulla spiaggia a prendere il sole, fino a foto di leader politici come Boris Johnson e Barack Obama che si baciano.

Reti neurali dotate di 'attenzione'

Potrebbe sembrare un piccolo giocattolo con cui passare il tempo, quasi una burla.

Eppure dietro DALL-E c'è una delle intuizioni che hanno rivoluzionato il machine learning negli ultimi anni: si tratta del concetto di attenzione, nato originariamente per venire incontro alle esigenze della traduzione automatica su lunghi testi. Se infatti tradurre documenti lettera per lettera può portare a risultati non corretti per via del fatto che spesso si ci riferisce a concetti presenti nelle frasi precedenti, assegnare un peso ad ogni lettera può consentire alla rete neurale di esercitare attenzione sull'intero testo.

Questa capacità può essere usata anche in ambito generativo, e cioè far creare all'intelligenza artificiale qualsiasi tipo di dati in maniera coerente: si possono generare quindi non solo immagini ma anche articoli di giornale, musica e così via.

I risultati portentosi dei modelli più recenti, primo fra tutti GPT-3, hanno scosso il mondo del machine learning cambiandolo definitivamente: mentre in passato esistevano varie reti neurali, ognuna addestrata ad un particolare compito, tali nuovi modelli (in particolare i transformer) le hanno rimpiazzate tutte imponendosi come nuova tecnologia dominante.

Si pensi che recentemente perfino Tesla ha inserito un chip con GPT all'interno delle proprie autovetture, e tale chip sarà presente anche in Optimus, il Tesla Bot di Amazon in uscita a settembre come prototipo, il quale sarà quasi certamente più avanzato rispetto alla concezione di robot per come la conoscevamo.

DALL-E

Anche DALL-E usa l'attenzione per creare immagini (più o meno) realistiche che si adattino alle richieste testuali.

Per far ciò è stata allenata per settimane con oltre 300 milioni di coppie testo-immagine su oltre 500 potenti schede video A-100. Il risultato? È riuscita ad imparare a disegnare quello che gli utenti scrivono. Il tool è disponibile per tutti del tutto gratuitamente sul sito Hugging Face, attraverso un'interfaccia dove bisognerà solo scrivere ciò che si vuole e il resto lo fa l'intelligenza artificiale.

Non è il caso di essere timidi con DALL-E. Avendo visto centinaia di immagini conosce un po' di tutto e, di conseguenza, riesce a disegnare quasi qualsiasi cosa. È capace anche di unire concetti, personaggi, stili artistici. Si potrà per esempio chiedere un dipinto in stile impressionista di un personaggio politico (anche italiano, specialmente se più conosciuto come Matteo Salvini o Matteo Renzi).

Unica pecca è la qualità dell'immagine prodotta, che per il momento è di bassa qualità e spesso ricca di artefatti. Ma anche a questo c'è una spiegazione: i modelli dotati di attenzione sono estremamente dispendiosi in quanto a calcolo. Allenare il modello su mezzo migliaio di schede video consente "solo" di creare una sequenza lunga circa quattromila pixel. L'immagine prodotta di conseguenza ha una risoluzione di 64 x 64 pixel (si tratta quasi della stessa grandezza di un'icona del desktop) e successivamente viene ingrandita con varie tecniche, le quali tuttavia non conservano la qualità dell'immagine.

I timori

Lo strumento si chiama DALL-E Mini. Il suffisso "Mini" vuol dire che quella disponibile per il momento si tratta solo di una replica di una rete neurale ancora più grande chiamata solo DALL-E, senza nessun mini.

L'originale è stata rilasciata da OpenAI lo scorso anno, e successivamente è stata pubblicata una seconda versione il mese scorso capace di grande precisione. Tuttavia l'azienda statunitense, fondata da Elon Musk, ha preferito non rendere disponibile pubblicamente nessuna demo al fine di evitare che le capacità di DALL-E fossero usate in modo sbagliato, ad esempio per creare Fake News. C'era anche il timore, ufficialmente appena accennato ma da tutti ben compreso, che un'intelligenza artificiale che crea immagini potesse essere un problema per molti lavoratori nel campo delle arti e della grafica.

Content sponsored by Outbrain