it gb
it gb

Big Data

Presentazione

I Big Data rappresentano oggi una tematica trasversale a molte aree di ricerca.

Per questo, al Dipartimento di Informatica dell'Università di Torino, il gruppo che si occupa di Big Data raccoglie molti sottogruppi, che affrontano problematiche diverse e collaborano per trovare sinergie:

  • BigData + HPC = FastData

Progettazione, sviluppo, ottimizzazione di modelli di programmazione, ambienti e linguaggi per applicazioni data-intensive e BigData.

Lo sforzo del gruppo si concentra non tanto sugli algoritmi BigData analytics, ma sui costrutti necessari a progettare questi algoritmi in modo che le applicazioni siano veloci, robuste e con ridotto costo di sviluppo e manutenzione.

Tipologia dati: Tutti i dati BigData con specifico interesse per dati streaming ad alta e altissima frequenza con vincoli di latenza.

Metodologie e tecniche usate: programmazione parallela strutturata, modelli di programmazione paralleli avanzati (data-flow, SIMT, PGAS, ibridi shared-memory/message-passing, …), C++14/17, CUDA, tecniche di compilazione staged e meta-programmazione

Risultati: Libreria open-source FastFlow (dal 2009 scaricata >50.000 volte); Pubblicazioni

Rif: Marco Aldinucci – Alpha

  • Mappe di comunità interattive

Contenuti geo-riferiti generati dagli utenti: grandi masse di dati relativi al territorio difficilmente fruibili dagli utenti. “OnToMap: Mappe di comunità 3.0” (Fondazione CRT, 2014-15, https://ontomap.ontomap.eu) e “MIMOSA” (Compagnia di San Paolo, 2015-17): integrazione e crowdsourcing di dati geo-riferiti eterogenei in una piattaforma online che ne faciliti la ricerca, condivisione e visualizzazione.

Tipologia di dati utilizzati: Open Data offerti dalle Città di Torino e Venaria Reale.

Metodologie e tecniche usate: analisi di query testuali, query expansion basata su integrazione di conoscenza linguistica in ontologia (OWL) di dominio. Summarization di dati eterogenei multimediali via topic modeling/extraction.

Risultati attesi: la piattaforma permetterà a comunità di interesse, alle PA e ai cittadini di interagire con spazi informativi multi-dimensionali, nonché di avviare discussioni e progetti sui contenuti condivisi.

Rif: Liliana Ardissono, Maurizio Lucenteforte, Noemi Mauro, Ruggero Pensa, Valentina Rho, Maria Luisa Sapino, Gianluca Torta – IST*HAAC/MADM + DIST, Politecnico di Torino (A. Voghera, L. La Riccia).

  • Big Data supporting Public Health policies

Problema: Riorganizzazione dei Sistemi Sanitari Regionali: analisi e valutazione

Tipologia dei dati: provenienti dal sistema sanitario piemontese, ISTAT

Modelli di simulazione ad eventi discreti ed agent-based, modelli di ottimizzazione

Risultati ottenuti: analisi preliminare delle politiche di gestione della rete regionale dei pronto soccorso ospedalieri

Risultati attesi: valutazione di impatto della chiusura di specialità e/o interi ospedali sull'intero SSN regionale

Rif: Roberto Aringhieri, Andrea Grosso – ORMS + Regione Piemonte - Sistema Informativo Sanità

  • Crowdmapping e urban informatics

Problema: I problemi riguardano la gestione del rumore e il controllo real-time dei contenuti. Tra gli obiettivi c’è lo studio del territorio e una sua ricostruzione basata su contenuti e attività degli utenti.

Tipologia di dati utilizzati: dati geo-referenziati derivanti da social platform.

Metodologie e tecniche usate: Algoritmi per il tracciamento dei dati geografici relativi a “place” specifici, riconoscimento di attività legate al territorio basate su analisi semantiche dei contenuti.

Risultati: pubblicazioni

Rif: Guido Boella – SoCom

  • NLP applied to big data

Problema: sentiment analysis ed opinion mining nei social media:

    • sviluppo di collezioni di dati di natura testuale arricchiti da annotazioni e strutturati in modo da renderli adeguati all’addestramento di sistemi per la sentiment analysis implementazione di motori di sentiment analysis
    • implementazione di motori di sentiment analysis

Tipologia di dati utilizzati: dati testuali da social media (Twitter in particolare) e da altri media di comunicazione

Metodologie e strumenti: tecniche di sentiment analysis

    • per rappresentare ed analizzare polarità di opinioni e sentimenti,
    • per rilevare orientamenti ad es. in ambito politico,
    • per studiare fenomeni di diffusione di massa di odio razziale omofobia e terrorismo

Risultati ottenuti o attesi più salienti:

    • lo sviluppo di corpora per italiano, francese e spagnolo (in corso) per la sentiment analysis di testi a prevalente contenuto politico
    • l’addestramento di motori di sentiment;
    • nel prossimo futuro: sviluppo strumenti di analisi del linguaggio dell’odio per studiarne la diffusione nell’area piemontese (progetto finanziato da Fondazione CRT)

Rif: Cristina Bosco, Viviana Patti, Daniele Radicioni – CCC

  • Scalable Hybrid Variability for Distributed Evolving Software Systems (HyVar)

Problema: necessità di una metodologia di sviluppo per l’evoluzione continua e individualizzata di applicazioni software distribuite in esecuzione su dispositivi remoti in ambienti eterogenei.

Tipologia di dati utilizzati: dati, reali e simulati, prodotti da sensori installati su autoveicoli (dati forniti da Magneti Marelli)

Metodi e strumenti: Variability modeling, Feature model, Constraint solver, scalable cloud infrastructure

Risultati:

    • Specifica e implementazione prototipale di un Domain Specific Variability Language (DSVL)
    • Specifica e implementazione prototipale di una infrastruttura cloud scalabile che utilizzi il DSVL
    • Specifica e implementazione prototipale di una tecnologia per l’over-the-air update in ambito automotive
    • Validazione delle soluzioni proposte per mezzo di un dimostratore in ambito automotive.

Rif: Ferruccio Damiani, Simone Donetti, Luca Paolini – MoVeRe + Santer Reply + Institute of Software Engineering and Automotive Informatics, TECHNISCHE UNIVERSITAT BRAUNSCHWEIG, Germany + UNIVERSITETET I OSLO, Norway + ATBROX AS, Norway + MAGNETI MARELLI - progetto di ricerca europeo HyVar (http://www.hyvar-project.eu/)

  • Analisi semantica di documenti testuali legali

Problema: comprensione e riconoscimento di leggi attraverso tecniche di linguistica computazionale e riconoscimento di legami a relative sentenze nei vari paesi attraverso un'analisi semantica dei contesti testuali

Tipologia di dati utilizzati: Dati testuali multilingue di leggi e sentenze (uk, bg, de, fr, it, au) contenenti riferimenti espliciti ed impliciti, talvolta arricchiti di annotazioni ontologiche (EuroVoc).

Metodologie e tecniche usate: linguistica computazionale (analisi lessico-sintattica), data mining, e machine learning.

Risultati: pubblicazioni

Rif: Luigi Di Caro, Guido Boella – SoCom – Progetto europeo EUCases (www.eucases.eu), il cui scopo è il trattamento di grandi moli di dati testuali di leggi e sentenze (ordine del milione, per 6 paesi diversi uk, bg, de, fr, it, au)

  • InfoViz & DataViz

Problema: dati ed informazioni devono essere visualizzati e resi disponibili in modo interattivo

    • Grandi molti di dati da sintetizzare in modo chiaro ed usabile
    • Spesso i dati devono essere visualizzati in tempo reale e consentire esplorazioni, personalizzazioni, filtri e reportistica personalizzata

Tipologia di dati: prevalentemente aquisiti tramite librerie che consentono accesso a public open data e social media

Metodologie: Information Visualisation, Human Computer Interaction, Web Tecnologies, Computer Graphics, Data Visualization, Data Journalism

Risultati attesi: pubblicazioni, trasferimento tecnologico, analisi per policy maker

Rif: Cristina Gena, Giancarlo Ruffo – SIOS/ARCS

  • Toreador

Problema:

    • Sviluppare una metodologia e un sistema basato su Web Service, Cloud, High Performance Computing e Machine Learning per fare analisi dati su big data.
    • L’analisi dovrà garantire la sicurezza del sistema, la tutela della privacy degli utenti e il livello di qualità del servizio secondo una fase di negoziazione tra client e server su vari parametri (accuratezza, tempo di esecuzione, quantità di risorse impiegate, ecc).

Dati provenienti da quattro casi pilota:

    • l’analisi del flusso dei click sulle pagine web,
    • l’analisi dei processi di sviluppo software in grossi sistemi informatizzati,
    • l’analisi dei processi di produzione industriale
    • l’analisi dei sensori nella produzione di energia e nel controllo degli apparati per la demotica.

Metodologie e strumenti:

    • La metodologia si fonda sui principi di suddivisione secondo diversi livelli di astrazione del processo di gestione dei dati e di analisi, che garantisce l’interoperabilità e indipendenza tra i livelli (livello dichiarativo, procedurale, d’esecuzione con scelte sul tipo di architettura software e hardware e di implementazione con la scelta di una tecnologia software e hardware).
    • Calcolo Parallelo ad Alte Prestazioni, Apprendimento Automatico, Analisi Dati e Visualizzazione.

Tecnologie:

    • linguaggio di HPC Spark, software suite per Machine learning Flint (open source) ...

Risultati ottenuti o attesi più salienti:

    • Metodologia di esecuzione e analisi su big data, distribuita e parallela, su cloud;
    • Modelli predittivi e descrittivi di big data in quattro casi pilota reali;
    • Modelli di visualizzazione dei dati e dei risultati;

Risultati di usabilità del sistema, di performance dei modelli con utenti finali coinvolti nella fase di negoziazione, training e valutazione

Rif: Rosa Meo, Marco Aldinucci, Roberto Esposito, Giancarlo Ruffo; CINI (Consorzio Interuniversitario Nazionale Informatico); Progetto Toreador (TrustwOrthy model-awaRE Analytics Data platfORm - EU - H2020 in call su Big data)

  • Metriche e modelli per la privacy nelle reti sociali online

Problema: le persone che usano le principali piattaforme di social networking sono più di due miliardi → petabyte di dati preziosi per noi data scientists, ma… la privacy è un problema!

    • L’utente deve essere al centro dei processi di trattamento dei dati personali, ma spesso non è conscio dei rischi
    • Le organizzazioni devono tener conto dell’attitudine alla privacy degli utenti nelle campagne di marketing virale

Obiettivi del progetto (cofinanziato da Fondazione CRT):

    • fornire agli utenti una stima di quanto la loro privacy è a rischio durante la loro attività “cybersociale”
    • modellare la diffusione dell’informazione in presenza di utenti con diversa propensione alla privacy

Tipologia di dati utilizzati:

    • reti sociali simulate (secondo diversi modelli) e reali
    • risposte a questionari di utenti Facebook reali
    • dati provenienti dai profili Facebook degli utenti partecipanti ai survey

Metodologie e tecniche usate:

    • Modelli, algoritmi e misure proprie dell’analisi delle reti complesse (modelli epidemiologici, simulazione di processi dinamici, Pagerank)
    • Algoritmi di machine learning e data mining (community detection, classificatori, active learning).
    • Metodi di inferenza statistica e psicometria

Risultati ottenuti e attesi:

    • ingegnerizzazione compatibile con principi Privacy-by-Design
    • modelli per il marketing virale più accurati
    • consapevolezza → padronanza dei media → inclusione sociale

Rif: Ruggero Pensa, Livio Bioglio – MLDM

  • Network Science & Computational Social Science

Problema: capire/prevedere l’emergenza di macro-fenomeni complessi a partire da elementi individuali che interagiscono tra di loro (es. nelle reti tecno-sociali, biologiche, sistemi complessi, etc.). Focus sui problemi di tipo “computazionale” a supporto del paradigma

Tipologia di dati: in linea teorica, “qualsiasi” dato che possa essere rappresentato per mezzo di una rete/grafo

Metodologie: simulazioni, validazione modelli, costruzione modelli data-driven, visualizzazione di reti di grandi dimensioni, modellazioni e simulazioni basate su agenti, SNA (Social Network Analysis)

Risultati:

    • Analisi di dati provenienti da social media (individuazione di fenomeni di omofilia vs influenza)
    • Progettazione ed implementazione di strumenti di collaborative filtering decentralizzati che usano metriche di affinità locali in reti di similarità
    • Modellazione di processi di diffusione dei fenomeni di disinformazione on-line

Rif: Giancarlo Ruffo, Rossano Schifanella, Mirko Lai, Marcella Tambuscio – ARCS

  • Urban computing for health & wellbeing

Problema: La crescente urbanizzazione pone importanti sfide nelle scelte in cui le città del futuro saranno organizzate. L’obiettivo è:

    • Sfruttare l’enorme mole di dati digitali provenienti da social media, device mobili, e sensori per la modellazione delle dinamiche sociali, culturali, economiche del tessuto urbano.
    • Porre al centro del sistema concetti come health, well-being, happiness dei cittadini al fianco della visione ingegneristica imperante delle smart-city basata su efficienza di processi e sistemi.

Tipologia di dati utilizzati:

    • Social media, mobility e phone data (CDR), Sensors data, Open data (da enti locali sui fenomeni socio-culturali-economici in spazi urbani), Spatial data

Tecniche:

    • Data mining
    • NLP
    • Computer vision
    • Maachine learning
    • Spatial analytics, GIS
    • Large-scale distributed computing(Spark, Hadoop)

Risultati ottenuti:

    • Caratterizzazione dello spazio urbano in funzione di dimensioni sensoriali ed emotive
    • Creazione di modelli di mobilità alternativa
    • Caratterizzazione delle dinamiche socio-economiche-culturali di neighborhoods/città/aree geografiche
    • Creazione di una piattaforma large-scale di urban sensing
    • Strumenti di analisi e visualizzazione per urban designers, policy makers e city officials.

Rif: Rossano Schifanella – ARCS