back to top

R1-Omni: l’AI di Alibaba che interpreta le emozioni umane

Il team Tongyi Lab di Alibaba ha annunciato il rilascio sotto licenza open source del suo ultimo modello multimodale, R1-Omni. Questo modello utilizza il Reinforcement Learning con Ricompense Verificabili (Reinforcement Learning with Verifiable Rewards o RLVR) e offre capacità avanzate nell’elaborazione di informazioni da audio e video. Una delle sue caratteristiche principali è la trasparenza che permette di comprendere meglio il contributo di ogni modalità nel processo decisionale, soprattutto in compiti come il riconoscimento delle emozioni umane.

Come è stato sviluppato R1-Omni

Con il lancio di DeepSeek R1 il potenziale del reinforcement learning nei modelli di grandi dimensioni ha avuto una forte accelerazione. Il metodo RLVR introduce nuove modalità di ottimizzazione per gestire compiti complessi come il ragionamento geometrico e il conteggio visivo. Mentre la ricerca attuale si concentra principalmente sulla combinazione di immagini e testo, questo progetto amplia il contesto di applicazione combinando RLVR con un modello video multimodale completo.

Pubblicità
Alibaba's Tongyi team open-sources R1-Omni

Attraverso l’RLVR R1-Omni rende più intuitivo il ruolo delle informazioni nell’audio e nel video. Nei compiti legati al riconoscimento delle emozioni, ad esempio, il modello evidenzia con precisione i segnali chiave utilizzati per il giudizio emotivo dimostrandosi particolarmente affidabile e preciso.

I risultati dei benchmark

Per verificare le prestazioni, il team di Tongyi Lab ha confrontato R1-Omni con il modello originale HumanOmni-0.5B. I risultati avrebbero mostrato un incremento superiore al 35% sui dataset DFEW (Dynamic Facial Expression in-the-Wild) e MAFW (uno dei più grandi database per il riconoscimento facciale).

Inoltre, rispetto ai modelli tradizionali di Supervised Fine-Tuning (SFT), R1-Omni ha migliorato le prestazioni in apprendimento non supervisionato di oltre il 10%. Nei test su distribuzioni diverse, come il dataset RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song), ha dimostrato infine un’ottima capacità di generalizzazione con miglioramenti superiori al 13%.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicità
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

OpenAI rilascia nuovi tool per la creazione di Agenti AI

Nelle scorse ore OpenAI ha annunciato una serie di...

Browser Use permette agli agenti AI di navigare sul Web (da soli)

Manus, la piattaforma AI agent della startup cinese Butterfly...

Meta: il chip per l’AI ce lo facciamo da soli

Meta sta testando il suo primo chip progettato internamente...

Manus: l’agente AI cinese completamente autonomo

Manus è il primo sistema AI in grado di...

L’AI si testa anche con Super Mario Bros

Negli ultimi anni i ricercatori hanno utilizzato vari titoli...

DeepSeek anticiperà il lancio del modello R2

DeepSeek, la startup cinese che ha scosso il mercato...
Pubblicità