CULTMEDIA machine learning based services for harvesting multimedia documents to support low-cost video post-production and cross-media storytelling 

I

l progetto CultMEDIA mira a facilitare lo sviluppo della narrazione audiovisiva e transmediale ottimizzando i costi e la complessità della produzione dei media culturali.

MICC – Media Integration and Communication Center – Univ. Firenze

2018-2019
Project co-financed by Ministero dell’Istruzione, dell’Università e della Ricerca

L’obiettivo finale del progetto è la progettazione e lo sviluppo di una piattaforma innovativa di servizi per le ICC, per la produzione di storytelling multimediale e transmediale sul patrimonio culturale. Offrirà strumenti software e servizi per: a) la raccolta semi-automatica di materiale visivo riutilizzabile per nuove produzioni; b) il supporto per la combinazione di contenuti eterogenei come grafica 3D, testo, audio e video, per creare nuovi storytelling su CH coerenti con i diritti dei prodotti culturali; c) la produzione e post-produzione di video a basso costo, in grado di unire contenuti e user experience. La piattaforma sarà basata su tecniche avanzate di machine learning e intelligenza artificiale per l’estrazione automatica di conoscenza dai contenuti video (semantica, scene componenti, stati d’animo emotivi, salienza).

Il nostro compito in questo progetto è la progettazione di soluzioni per la comprensione automatica delle emozioni e degli stati d’animo nei video. Abbiamo intenzione di esplorare modelli per l’apprendimento di caratteristiche rappresentative dei sentimenti trasportati in un video secondo i principi semiotici. Questo sarà fatto addestrando la rete ad apprendere un insieme di caratteristiche fondamentali (sia visive che uditive) e le loro disposizioni spazio-temporali.

U

seremo il deep learning delle CNN per costruire descrittori robusti e discriminanti, e l’apprendimento semi-supervisionato per sfruttare i dati non etichettati per migliorare la generalizzazione a dataset video molto grandi. I video e le immagini dei social network, e opzionalmente i metadati che li accompagnano, saranno sfruttati per migliorare la qualità della rappresentazione.

La rappresentazione appresa, permetterà di classificare il materiale raccolto secondo le classi di umore e prevedere per ognuna di esse o la loro combinazione il sentimento o l’emozione provocata, ottenendo così un sottoinsieme di materiale multimediale che è in gran parte coerente con il messaggio che il creatore vorrebbe trasmettere nella nuova produzione.