"Cocktail party effect" è l’espressione con cui è nota, in inglese, la capacità del cervello umano di focalizzare l’attenzione uditiva su un particolare stimolo sonoro (per esempio, una conversazione in un ambiente affollato o semplicemente rumoroso), e di seguirne il flusso isolandolo da altre voci e dal resto dei suoni compresenti. È facile per un essere umano, non ancora per le macchine ma, naturalmente, gli ingegneri del software di Google ci stanno già lavorando e le prospettive applicative vanno sicuramente oltre il miglioramento delle tracce audio dei video su youtube.

Ancora una sfida per l’Intelligenza artificiale

L'Intelligenza Artificiale di Google riconosce le voci nella folla, almeno quella in video.

In questi giorni, i ricercatori del colosso di Mountain View hanno presentato un modello audio-visivo di deep learning per isolare un singolo segnale vocale da un mix di suoni (altre voci e rumore di fondo che vengono silenziati).

All’utente che voglia servirsene, potrebbe essere semplicemente richiesta l’azione di selezionare, in video, il volto della persona da ascoltare, oppure potrebbe essere un algoritmo a effettuare la selezione in base al contesto. Aspetto distintivo di questa tecnica è, infatti, la possibilità di combinare i segnali sia uditivi sia visivi di un video di input per generare tracce audio separate, associando il parlato ai movimenti facciali degli interlocutori: i movimenti della bocca di una persona dovrebbero essere correlati ai suoni prodotti mentre quella persona sta parlando, il che può aiutare a identificare quali parti dell'audio devono essere ricondotti a quel soggetto.

Sulla pagina web del progetto è possibile trovare altri risultati e confronti con le tecnologie basate sulla sola rielaborazione audio, quanto basta a rendere chiaro il vantaggio, ai fini applicativi, dei nuovi modelli basati sui segnali audio-visivi.

Le applicazioni

Le applicazioni della tecnologia possono essere diverse:

  • miglioramento audio e riconoscimento nei video, utile anche a generare sottotitoli automatici più accurati e di facile lettura (nel video sopra, si possono vedere e confrontare le didascalie prima e dopo la separazione delle tracce audio, basta attivare i sottotitoli nel player di YouTube dal pulsante in basso a destra);
  • video chat e videoconferenza;
  • miglioramento degli apparecchi acustici, più efficaci nelle situazioni in cui vi sono più persone che parlano.

La novità e le prospettive

I recenti progressi nel deep learning hanno consentito una crescita di interesse nella comunità accademica rispetto alle possibilità dell'analisi audio-visiva (UC Berkeley, MIT hanno presentato delle ricerche sull'argomento), mentre è ancora troppo presto per individuare più ampie prospettive rispetto a quanto non sia già allo studio, per esempio, le applicazioni che lo stesso Big G potrebbe incorporare nei suoi prodotti e che sono ora in via di valutazione.