Un sistema basato su algoritmi che identifica segnali linguistici rivelatori in false notizie potrebbe fornire all'aggregatore di notizie e ai siti di social media come Google News una nuova arma nella lotta contro la disinformazione, secondo una nuova ricerca.
I ricercatori che hanno sviluppato il sistema hanno dimostrato che è paragonabile e talvolta migliore degli umani nell'identificare correttamente le notizie false.
In uno studio recente, il sistema ha rilevato con successo falsi fino al 76 percento delle volte, rispetto a un tasso di successo umano del 70 percento. Inoltre, il loro approccio all'analisi linguistica potrebbe essere usato per identificare articoli di notizie false che sono troppo nuovi per essere sfatati facendo riferimenti incrociati ai loro fatti con altre storie.
Rada Mihalcea, professore di informatica e ingegneria all'università del Michigan che è alla base del progetto, afferma che una soluzione automatizzata potrebbe essere uno strumento importante per i siti che stanno lottando per affrontare un assalto di notizie false, che le persone spesso creano per generare clic o manipolare l'opinione pubblica.
Catturare storie false prima che abbiano conseguenze reali può essere difficile, dato che i siti di aggregatori e social media oggi fanno molto affidamento su editor umani che spesso non riescono a tenere il passo con l'afflusso di notizie. Inoltre, le attuali tecniche di debunking dipendono spesso dalla verifica esterna dei fatti, che può essere difficile con le storie più recenti. Spesso, quando una storia si rivela falsa, il danno è già stato fatto.
L'analisi linguistica adotta un approccio diverso, analizzando attributi quantificabili come struttura grammaticale, scelta delle parole, punteggiatura e complessità. Funziona più velocemente degli umani e può essere utilizzato con una varietà di diversi tipi di notizie.
"Puoi immaginare qualsiasi numero di applicazioni per questo sul front-end o sul back-end di un sito di notizie o di social media", afferma Mihalcea. "Potrebbe fornire agli utenti una stima dell'affidabilità delle singole storie o di un intero sito di notizie. Oppure potrebbe essere una prima linea di difesa sul retro di un sito di notizie, segnalando storie sospette per un'ulteriore revisione. Un tasso di successo 76 percentuale lascia un margine di errore abbastanza grande, ma può comunque fornire informazioni preziose quando viene utilizzato insieme agli umani. "
Gli algoritmi linguistici che analizzano il discorso scritto sono abbastanza comuni oggi, afferma Mihalcea. La sfida per costruire un rilevatore di notizie false non sta nel costruire l'algoritmo stesso, ma nel trovare i dati giusti con cui addestrare tale algoritmo.
Le notizie false appaiono e scompaiono rapidamente, il che rende difficile la raccolta. È disponibile anche in molti generi, complicando ulteriormente il processo di raccolta. Le notizie satiriche, ad esempio, sono facili da raccogliere, ma il suo uso dell'ironia e dell'assurdità lo rendono meno utile per l'addestramento di un algoritmo per rilevare notizie false che hanno lo scopo di fuorviare.
Alla fine, il team di Mihalcea ha creato i propri dati, dando in crowdsourcing un team online che ha retroingegnerizzato false notizie autentiche. Ecco come vengono create la maggior parte delle notizie false, da parte di persone che le scrivono rapidamente in cambio di una ricompensa monetaria, afferma Mihalcea.
I ricercatori hanno reclutato i partecipanti con l'aiuto di Amazon Mechanical Turk e li hanno pagati per trasformare brevi notizie reali in articoli simili ma falsi, imitando lo stile giornalistico degli articoli. Alla fine del processo, il team di ricerca aveva un set di dati di notizie reali e false di 500.
Hanno quindi alimentato queste coppie etichettate di storie con un algoritmo che eseguiva un'analisi linguistica, insegnando a distinguere tra notizie vere e false. Infine, il team ha trasformato gli algoritmi in un set di dati di notizie reali e false tratte direttamente dal Web, compensando il tasso di successo percentuale 76.
I dettagli del nuovo sistema e il set di dati che il team ha usato per costruirlo sono disponibili gratuitamente e Mihalcea afferma che i siti di notizie o altre entità potrebbero usarli per costruire i propri sistemi di rilevamento di notizie false. Dice che l'integrazione di metadati come i collegamenti e i commenti associati a una determinata notizia online potrebbe ulteriormente affinare i sistemi futuri.
I ricercatori descriveranno in dettaglio il sistema in un documento che presenteranno alla 27th International Conference on Computational Linguistics a Santa Fe, New Mexico.