E' recente la notizia pubblicata on-line dal sito pcworld.com secondo cui DeepMind di Google ha sviluppato un sistema di apprendimento attraverso cui le macchine possono automaticamente ed accuratamente scrivere didascalie per foto, secondo un post del blog di Google Research. L'innovazione potrebbe rendere più facile cercare immagini su Google, aiutare persone ipovedenti a capire il contenuto di un'immagine ed offrire un testo alternativo per le immagini quando i collegamenti di internet sono lenti.

In un documento postato su arXiv, i ricercatori di Google Oriol Vinyals, Alexander Toshev, Samy Bengio e Dumitru Erhan hanno descritto in che modo abbiano sviluppato un sistema per sottotitoli e didascalie chiamato Neural Image Caption (Nic).

Nic è basato su un sistema di tracciamento visivo attraverso il computer, che permette alle macchine di vedere il mondo ed elaborare il linguaggio naturale, il che tenta di rendere la lingua umana comprensibile al computer.

I ricercatori di Nic hanno usato due generi diversi di reti neurali artificiali; una delle reti ha codificato l'immagine in una rappresentazione compatta, mentre l'altra rete ha generato una frase per descriverla. Nic ha prodotto risultati accurati come, ad esempio, "un gruppo di persone fanno shopping ad un mercato all'aperto" per la didascalia di una foto che ritrae un mercato. Dall'attuale sperimentazione sono risultati alcuni sottotitoli con errori minimi (come un'immagine di tre cani descritti nelle didascalie come due cani) ed errori significativi (come nel caso di una foto di un segnale stradale descritto come un frigorifero).

Secondo un particolare dataset, il modello Nic ha riportato un punteggio di 59. Per lo stesso dataset le creature umane raggiungono un punteggio di circa 69. La performance è stata valutata usando un algoritmo di classificazione ranking che compara la qualità del testo generato da una macchina con quello generato da una creatura umana.

"Da tali esperimenti è chiaro che, insieme alla misura dei dataset disponibili per la descrizione dell'immagine, aumenterà anche la performance di approcci come Nic" hanno scritto i ricercatori.

Google ha acquistato DeepMind Technologies Ltd all'inizio di quest'anno e questa sua mossa lascia intuire un ruolo notevole da parte del gigante della ricerca nell'avanzamento dello studio in campi come la robotica, le self-driving car e le tecnologie della casa intelligente.

Lo scorso mese, allo scopo di dare una maggiore spinta alla start-up di DeepMind, Google ha annunciato una partnership con il team che conduce la ricerca e l'Università di Oxford. Secondo gli accordi presi, Dark Blue Labs e Vision Factory lavoreranno all'Università in tandem con DeepMind per accelerare gli sforzi della ricerca nel riconoscimento dell'immagine e nella comprensione del linguaggio naturale.

Fonte: siti web pcworld.com e ibtimes.co.uk