Il team Tongyi Lab di Alibaba ha annunciato il rilascio sotto licenza open source del suo ultimo modello multimodale, R1-Omni. Questo modello utilizza il Reinforcement Learning con Ricompense Verificabili (Reinforcement Learning with Verifiable Rewards o RLVR) e offre capacità avanzate nell’elaborazione di informazioni da audio e video. Una delle sue caratteristiche principali è la trasparenza che permette di comprendere meglio il contributo di ogni modalità nel processo decisionale, soprattutto in compiti come il riconoscimento delle emozioni umane.
Come è stato sviluppato R1-Omni
Con il lancio di DeepSeek R1 il potenziale del reinforcement learning nei modelli di grandi dimensioni ha avuto una forte accelerazione. Il metodo RLVR introduce nuove modalità di ottimizzazione per gestire compiti complessi come il ragionamento geometrico e il conteggio visivo. Mentre la ricerca attuale si concentra principalmente sulla combinazione di immagini e testo, questo progetto amplia il contesto di applicazione combinando RLVR con un modello video multimodale completo.
Attraverso l’RLVR R1-Omni rende più intuitivo il ruolo delle informazioni nell’audio e nel video. Nei compiti legati al riconoscimento delle emozioni, ad esempio, il modello evidenzia con precisione i segnali chiave utilizzati per il giudizio emotivo dimostrandosi particolarmente affidabile e preciso.
I risultati dei benchmark
Per verificare le prestazioni, il team di Tongyi Lab ha confrontato R1-Omni con il modello originale HumanOmni-0.5B. I risultati avrebbero mostrato un incremento superiore al 35% sui dataset DFEW (Dynamic Facial Expression in-the-Wild) e MAFW (uno dei più grandi database per il riconoscimento facciale).
Inoltre, rispetto ai modelli tradizionali di Supervised Fine-Tuning (SFT), R1-Omni ha migliorato le prestazioni in apprendimento non supervisionato di oltre il 10%. Nei test su distribuzioni diverse, come il dataset RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song), ha dimostrato infine un’ottima capacità di generalizzazione con miglioramenti superiori al 13%.