Cancelliere R. -Learning representation of spatio-temporal data through deep neural networks - Bando "Grant for Internationalization - GFI " - 2022
Progetto Le interazioni umane condotte tramite i servizi web e mobili o catturate con sensori intelligenti generano grandi flussi di dati dinamici complessi che possono essere integrati in applicazioni per fornire servizi centrati sull'uomo. Analizzare tali fonti di informazione eterogenee e integrare le loro dimensioni spaziali, semantiche e temporali è una sfida, perché tali interazioni sono spesso troppo complesse per essere catturate attraverso modelli analitici.
L'obiettivo della ricerca è quello di sviluppare teorie e metodi basati su idee provenienti dal dominio dell'apprendimento della rappresentazione al fine di modellare queste osservazioni attraverso reti neurali profonde.
Gli ultimi 10 anni hanno visto l'emergere dell'apprendimento della rappresentazione come un tema importante nel machine learning, come evidenziato dalla recente creazione nel 2013 della Conferenza internazionale sull'apprendimento della rappresentazione. L'idea chiave è la scoperta di fattori latenti che possono spiegare la generazione di dati osservati o rivelare strutture nascoste nei dati. L'apprendimento della rappresentazione ha recentemente raggiunto importanti traguardi in problemi come l'etichettatura delle immagini, il riconoscimento del parlato (Chan2016), l'elaborazione del linguaggio naturale (Mikolov2013), ricevendo una spinta drammatica dall'emergere dell'apprendimento profondo, il potente insieme di tecniche emerse nell'ultimo decennio dalle reti neurali (NN).
È universalmente riconosciuto che uno dei motivi principali per il successo delle NN profonde è la loro capacità di districare i fattori di variazione e scartare quelli che non interessanti; l'apprendimento profondo risolve questo problema centrale introducendo rappresentazioni che si esprimono in termini di quelle più semplici, consentendo ai computer di costruire concetti complessi a partire da componenti più semplici.
Per dati multimodali eterogenei, sono stati ottenuti risultati impressionanti per l'apprendimento di rappresentazioni strutturate congiunte attraverso le Convolutional NN, consentendo ad esempio di fornire la descrizione delle immagini tramite le frasi generate (Kiros2014) oppure generando direttamente un'immagine da una data didascalia (Ramesh2021).
Saranno prese in considerazione anche le NN ricorrenti (RNN) perché offrono una soluzione naturale al trattamento di sequenze multiple di eventi temporali. L'architettura principale che utilizza le RNN come unità computazionali di base è la rete Sequence-to-Sequence (Sutskever2014). Questa architettura ha alcuni inconvenienti legati principalmente alla difficoltà di addestramento ed alla difficile parallelizzazione, che sono stati affrontati in (Bahdanau2015) dove viene introdotto il meccanismo di attenzione, rendendo il sistema più stabile. Ulteriori lavori sul campo si sono concentrati sull'attenzione poi utilizzata per Transformer (Vaswani2017), modello che da allora ha guidato la ricerca nella modellazione di dati intrinsecamente sequenziali (Brown2020, Lewis2020).
Risultati attesi
Poiché questa attività si concentra sullo sfruttamento delle tracce degli utenti, il risultato principale del progetto è la creazione di servizi interattivi. Il progetto è quindi al centro della ricerca sui big data e si rivolge a molte delle priorità di quest'area e dell'area dell'interazione uomo-macchina.
L'attività avrà un forte potenziale applicativo nello sviluppo di data science per l'analisi dei dati sociali e l'elaborazione urbana. L'acquisizione dei processi di diffusione delle informazioni può servire vari compiti correlati sui social media, come l'estrazione di opinioni basata sulla diffusione o la raccomandazione basata sulla diffusione.
Obiettivi importanti sono la creazione di strumenti analitici per il rilevamento delle tendenze, campagne di marketing e targeting dei clienti, che saranno di fondamentale importanza per consentire lo sviluppo di servizi di raccomand