Negli ultimi anni, la proliferazione di varie forme di informazioni false online ha posto la sfida di verificare la veridicità di tali contenuti. A tal fine, la comunità scientifica ha sviluppato approcci computazionali specifici per vari tipi di elementi informativi, come ad esempio la disinformazione nei post di blog relativi alla salute, le fake news sui social media e microblog, e lo spam di opinioni nelle recensioni su piattaforme dedicate. Di solito, questa problematica viene affrontata come un task di classificazione mediante algoritmi di Machine/Deep Learning; approcci alternativi si basano su algoritmi basati su modelli che sfruttano la conoscenza di dominio, i quali si focalizzano anche sulla spiegabilità.
La possibilità di integrare approcci automatici con quelli manuali, facendo affidamento su soluzioni human-in-the-loop nel processo, sia per verificare la veridicità degli elementi informativi che per valutare l’efficacia di tali modelli, rimane quasi del tutto inesplorata, tranne per proposte molto recenti che non hanno ancora compreso nel dettaglio come ibridare gli approcci automatici con la computazione umana. Tuttavia, tecniche di computazione umana come il crowdsourcing sembrano rappresentare un compromesso promettente tra la valutazione della veridicità effettuata da pochi esperti (non scalabile) e dai sistemi automatici (che soffre di un’accuratezza non sufficiente).
In questo contesto, un altro aspetto cruciale che non è stato ancora sufficientemente considerato è come valutare l’efficacia dei sistemi volti a valutare la veridicità degli elementi informativi. Come definire metodologie di valutazione rigorose? Come costruire dataset affidabili? Mentre la veridicità degli elementi informativi come le notizie può essere verificata ex-post in modo (più o meno) fattuale, la veridicità delle recensioni online è difficile da valutare oggettivamente: come fare per evitare il bias che può essere introdotto da esseri umani che valutano contenuti ambigui o su argomenti dibattuti? Qual è la granularità della veridicità di un elemento informativo? è completamente vero o contiene affermazioni sia vere che false? Ultimo ma non meno importante, quali misure possono essere utilizzate per valutare l’efficacia di tali sistemi? Fino ad ora, sono state adattate misure utilizzate per altre attività (tipicamente classificazione), ma le caratteristiche peculiari della valutazione della veridicità ed i dataset già disponibili, richiedono nuove misure ancora da definire.
L’obiettivo del progetto MoT è duplice:
- Definire un nuovo framework per valutare l’efficacia degli approcci mirati a rilevare la veridicità delle informazioni, inclusa la definizione di paradigmi, dataset e misure adatte, definite appositamente per tale obiettivo
- Definire soluzioni ibride innovative che combinano approcci automatici all’avanguardia (basati su Machine Learning, Deep Learning, etc.) con approcci manuali (come il crowdsourcing e l’uso di esseri umani esperti). Tali soluzioni ibride potrebbero sfruttare le diverse caratteristiche e vantaggi dei singoli approcci, conservando il meglio da ognuno di essi e combinandoli in modo efficace.