Google ha reso disponibile gratuitamente il suo ultimo e più potente modello di generazione di immagini da testo, Imagen 3, a tutti gli utenti della piattaforma Gemini. Chiunque, indipendentemente dal fatto che possieda un abbonamento a pagamento, può ora sfruttare la piattaforma per creare immagini di alta qualità a partire da semplici descrizioni testuali. Si tratta di un passo importante verso la democratizzazione dell’AI e la sua accessibilità ad un pubblico più ampio.
Imagen 3: immagini AI per tutti
Imagen 3 produce immagini con un livello di dettaglio, realismo e tocco artistico superiore a quello di molti altri modelli. Questo risultato è ottenuto tramite una combinazione di tecniche di machine learning e un vasto dataset di immagini e testi. Permettendo al servizio di comprendere e interpretare i prompt degli utenti con accuratezza.
Gemini funge da interfaccia chatbot attraverso la quale gli utenti possono interagire con Imagen 3. Digitando una descrizione testuale, ad esempio una scena fantasiosa o un concetto astratto, gli utenti possono istruire il modello perché generi l’immagine corrispondente. La piattaforma offre anche strumenti per affinare e personalizzare le immagini generate, dando maggiore controllo sul processo creativo.
Non solo immagini statiche
Mentre l’attuale versione di Imagen 3 eccelle nella generazione di immagini statiche, Google ha accennato alla capacità di generare contenuti dinamici, come brevi animazioni e video, ampliando ulteriormente le possibilità creative. Presto si potrà descrivere una breve storia animata e lasciare che sia Imagen 3 a darle vita aggiungendo personaggi, ambientazioni e movimenti dinamici.
Le immagini possono avere una risoluzione massima pari 2048 x 2048 px, praticamente doppia rispetto a quella offerta da Dall-E di OpenAI. Il formato di output è il JPG con aspect ratio di 1:1. Non sembrerebbero invece ancora supportate le immagini in 16:9 o formati differenti da quello quadrato.
Nelle intenzioni di Google l’accesso a strumenti così potenti dovrebbe incoraggiare la sperimentazione, portando a nuove applicazioni e scoperte per le tecnologie text-to-image.