Imagen, da testo ad immagine grazie a Google, risultati incredibili per il prototipo

Il nuovo progetto di Google è assurdo. Avete mai visto un software che crea delle immagini basandovi su quello che scrivete? Attenzione: non stiamo parlando di ricerca, bensì di realizzazione. Ma come dovrebbe funzionare un software del genere?

Imagine è il nuovo progetto di Google, il quale ha visto la luce grazie ad un gruppo di ricerca che ha sostanzialmente carta bianca sui programmi da sviluppare, ma che si concentra soprattutto sul machine learning. Fra queste, infatti, vi è anche la possibilità di ottenere un’immagine dalla sua descrizione testuale. Nel suo caso è molto particolare poiché realizza letteralmente – e nella maniera più precisa possibile – quello che noi chiediamo.

Questi sistemi addestrati su dati di immagini prendono il nome inglese di “text-to-image diffusion model”, che si può tradurre semplicemente in “modello di diffusione dal testo all’immagine”. L’esempio generativo che viene utilizzato, però, è ciò che si usa per creare dati simili a quelli sul quale viene addestrato. Il più comune potrebbe essere il rumore grafico aggiunto a un’immagine a cui segue il processo inverso, in modo tale che il modello impari a recuperare l’immagine di partenza da un suono indistinguibile.

Metodo di funzionamento del sistema

Inoltre, i ricercatori hanno avuto modo di scoprire che sia possibile avere degli ottimi risultati, come quelli di Imagen, usando modelli pre-addestrati di solo testo, e il framework di Google lo dimostra con la digitazione di “T5 text-to-text”, che deriva dalle cinque “T” nel nome “Text-To-Text Transfer Transformer”. In tal caso non esamina le parole di una frase sequenzialmente, bensì esegue solo un piccolo numero costante di passi tra le parola; a ogni passo applica un meccanismo di auto-attenzione che modella direttamente le unioni possibili tra tutte le parole in una frase, al di là della loro posizione originale.

Ora come ora, Imagen può essere usato soltanto dalla demo del sito perché, e se vi state chiedendo come mai hanno preso questa scelta, ecco la dichiarazione ufficiale di Brain Team: “Si basa su codificatori di testo addestrati su dati non curati su scala web e quindi eredita i pregiudizi sociali e i limiti dei modelli linguistici di grandi dimensioni. Di conseguenza, c’è il rischio che Imagen abbia codificato stereotipi e rappresentazioni dannose, il che spiega la nostra decisione di non rilasciare Imagen per l’uso pubblico senza ulteriori garanzie“.