Mountain View ha implementato una nuova funzionalità in Google Lens che permette di utilizzare i video per le ricerche. Ora, oltre a scattare foto, è possibile registrare un video e si possono anche inviare input vocali su ciò che si trova intorno a noi.
Questa novità, basata sul modello AI Gemini, analizza i fotogrammi di un video per fornire risposte pertinenti, utilizzando tecniche di visione artificiale. Chi visita un luogo specifico può porre delle domande alla piattaforma mentre riprende la scena con il proprio smartphone.
AI Overview per Google Lens
L’innovazione è stata presentata nel corso del Google I/O 2024 e rappresenta un’evoluzione delle capacità di Google Lens fino ad ora focalizzata sulle immagini statiche. Grazie ad essa si può ottenere una AI Overview basata sia sul contenuto di un video che su domande vocali.
Per ora questa funzionalità non è in grado di riconoscere i suoni all’interno dei video ma Big G sta già sperimentando questa possibilità per il futuro.
Oltre alla funzione video, Google ha introdotto un aggiornamento per la ricerca tramite foto. In precedenza infatti, gli utenti potevano digitare una domanda solo dopo aver scattato una foto. Ora è possibile utilizzare direttamente la propria voce mentre si inquadra un soggetto. Per far questo basta tenere premuto il pulsante di scatto e porre la domanda.
Il supporto vocale è in fase di rilascio globale sia per Android che per iOS sebbene ad oggi sia disponibile solo in lingua inglese.
L’evoluzione di Gemini
Come confermato da Rajan Patel, responsabile della divisione engineering presso la compagnia californiana, la versione “tradizionale” di Google Lens catturava i video come una serie di frame su cui veniva applicata la medesima tecnica di analisi visiva. Ora invece, grazie ad una variante di Gemini appositamente addestrata, il sistema è in grado di analizzare più frame in sequenza operando un riconoscimento molto preciso.