R1-Omni: l'AI di Alibaba che interpreta le emozioni umane

Il team Tongyi Lab di Alibaba ha annunciato il rilascio sotto licenza open source del suo ultimo modello multimodale, R1-Omni. Questo modello utilizza il Reinforcement Learning con Ricompense Verificabili (Reinforcement Learning with Verifiable Rewards o RLVR) e offre capacità avanzate nell’elaborazione di informazioni da audio e video. Una delle sue caratteristiche principali è la trasparenza che permette di comprendere meglio il contributo di ogni modalità nel processo decisionale, soprattutto in compiti come il riconoscimento delle emozioni umane.

Come è stato sviluppato R1-Omni

Con il lancio di DeepSeek R1 il potenziale del reinforcement learning nei modelli di grandi dimensioni ha avuto una forte accelerazione. Il metodo RLVR introduce nuove modalità di ottimizzazione per gestire compiti complessi come il ragionamento geometrico e il conteggio visivo. Mentre la ricerca attuale si concentra principalmente sulla combinazione di immagini e testo, questo progetto amplia il contesto di applicazione combinando RLVR con un modello video multimodale completo.

Alibaba's Tongyi team open-sources R1-Omni

Attraverso l’RLVR R1-Omni rende più intuitivo il ruolo delle informazioni nell’audio e nel video. Nei compiti legati al riconoscimento delle emozioni, ad esempio, il modello evidenzia con precisione i segnali chiave utilizzati per il giudizio emotivo dimostrandosi particolarmente affidabile e preciso.

I risultati dei benchmark

Per verificare le prestazioni, il team di Tongyi Lab ha confrontato R1-Omni con il modello originale HumanOmni-0.5B. I risultati avrebbero mostrato un incremento superiore al 35% sui dataset DFEW (Dynamic Facial Expression in-the-Wild) e MAFW (uno dei più grandi database per il riconoscimento facciale).

Inoltre, rispetto ai modelli tradizionali di Supervised Fine-Tuning (SFT), R1-Omni ha migliorato le prestazioni in apprendimento non supervisionato di oltre il 10%. Nei test su distribuzioni diverse, come il dataset RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song), ha dimostrato infine un’ottima capacità di generalizzazione con miglioramenti superiori al 13%.

Per restare sempre aggiornato seguici su Google News! Seguici

R1-Omni: l’AI di Alibaba che interpreta le emozioni umane

Come è stato sviluppato R1-Omni

I risultati dei benchmark

Leggi anche...

OpenAI rilascia nuovi tool per la creazione di Agenti AI

Browser Use permette agli agenti AI di navigare sul Web (da soli)

Meta: il chip per l’AI ce lo facciamo da soli

Manus: l’agente AI cinese completamente autonomo

L’AI si testa anche con Super Mario Bros

DeepSeek anticiperà il lancio del modello R2

R1-Omni: l’AI di Alibaba che interpreta le emozioni umane

Come è stato sviluppato R1-Omni

I risultati dei benchmark

Articoli Correlati

Leggi anche...

OpenAI rilascia nuovi tool per la creazione di Agenti AI

Browser Use permette agli agenti AI di navigare sul Web (da soli)

Meta: il chip per l’AI ce lo facciamo da soli

Manus: l’agente AI cinese completamente autonomo

L’AI si testa anche con Super Mario Bros

DeepSeek anticiperà il lancio del modello R2