Gemini, il modello generativo di Google, รฉ ora disponibile in una nuova versione, la 1.5. Tale novitร riguarda la release Pro del progetto ed รฉ accessibile tramite le piattaforme AI Studio e Vertex AI della Google Cloud Platform nonchรฉ dagli sviluppatori che desiderano utilizzare le API (Application Programming Interface) del servizio nelle proprie applicazioni.
A rendere questa evoluzione piรน avanzata della precedente vi รฉ innanzitutto lโarchitettura MoE (Mixture-of-Experts) che rende le sessioni di training molto piรน produttive e migliora le modalitร con cui vengono soddisfatte le richieste. Essa ha anche un ruolo rilevante nel miglioramento delle performace in quanto riduce notevolmente le latenze.
In December, we launched Gemini 1.0 Pro. Today, we're introducing Gemini 1.5 Pro! ??
This next-gen model uses a Mixture-of-Experts (MoE) approach for more efficient training & higher-quality responses. Gemini 1.5 Pro, our mid-sized model, will soon come standard with aโฆ pic.twitter.com/m2BNufHd8C
โ Sundar Pichai (@sundarpichai) February 15, 2024
In sotanza MoE attiva i modelli in modo selettivo, questo significa che quando riceve un prompt abilita solo la porzione del modello che serve per restituire lโoutput con un vantaggio per le prestazioni. In questo modo vengono ridotti anche i consumi energetici necessari per lโelaborazione degli input e il processo diventa meno impattante dal punto di vista ambientale.
Un altro punto di forza di Gemini 1.5 riguarda la finestra di contesto che questa volta arriva a ben 128 mila token contro gli "appena" 32 mila della release 1.0. Sono stati perรฒ effettuati dei test per finestre di contesto da 10 milioni di token e gli utenti Cloud e gli sviluppatori hanno la possibilitร di accedere ad una preview che supporta 1 milione di token.
Si tratta naturalmente di un modello multimodale, quindi in grado di gestire diverse tipologie di contenuti. A conferma di ciรฒ Mountain View ha pubblicato i risultati di alcuni benchmark durante i quali la versione 1.5 si sarebbe dimostrata in grado di elaborare 700 mila parole, 30 mila righe di codice sorgente, 11 ore di tracce audio e una di video.