L'ascesa dei social media è parsa come un Eldorado agli esperti comportamentali visto che forniscono rapidamente e gratuitamente una gran quantità di dati su ciò che le persone pensano e fanno. Gli scienziati informatici dell'Università Carnegie Mellon e dell'Università McGill avvertono, però, che quegli enormi dataset possono rivelarsi fuorvianti. In un articolo pubblicato il 28 novembre su Science, Juergen Pfeffer di Carnegie Mellon e Derek Ruths di McGill dichiarano che gli esperti hanno bisogno di trovare un modo per correggere le deviazioni inerenti alle informazioni raccolte da Twitter e da altri social media.
Non si tratta di un problema di poco conto: Pfeffer, professore assistente della ricerca nell'Istituto per la Ricerca Software di CMU e Ruths, professore assistente di scienza informatica al McGill notano che, da almeno cinque anni, migliaia di documenti a disposizione della ricerca si basano su dati carpiti dai social media. "Non tutto quello che può essere identificato come Big Data è automaticamente attendibile" ha detto Pfeffer. Lui ha notato che molti ricercatori pensano - o sperano - che, accumulando un dataset abbastanza consistente, possano superare deviazioni e informazioni fuorvianti. "Ma il vecchio imperativo della ricerca comportamentale è ancora valido: conosci i tuoi dati" ha commentato.
E' difficile resistere alla tentazione di usare i social media come fonte di dati. Seguendo la Maratona di Boston esplosa nel 2013, per esempio, Pfeffer ha raccolto 25 milioni di relativi tweet in sole due settimane. "Si può ottenere il comportamento di milioni di persone gratis".
Nonostante i tentativi da parte dei ricercatori di generalizzare i risultati del loro studio ad una vasta popolazione, i siti dei social media contengono spesso sostanziali deviazioni; è difficile generare esempi casuali che diano ai loro sondaggi il potere di rispecchiare accuratamente atteggiamenti e comportamenti. Ruths e Pfeffer insistono dicendo che i ricercatori raramente ammettono, e ancor meno correggono, il fatto che questi campioni di ricerca sono fuorvianti.
L'attendibilità dei campioni di dati è una questione difficile da risolvere. I siti dei social media usano algoritmi riservati per creare o filtrare i loro flussi di dati e questi algoritmi sono soggetti a cambiare senza preavviso. Gran parte dei ricercatori brancola nel buio, seppure alcuni - avendo speciali rapporti con i siti - possano dare un'occhiata ai loro dati interni.
D'altro canto, non tutte le persone presenti nei siti sono comuni. A volte, si tratta di scrittori professionisti o rappresentanti di relazioni pubbliche che postano a favore di celebrità o società; in altri casi, si tratta semplicemente di account fantasma. Alcuni follower possono essere comprati. I siti dei social media tentano di eliminare questi falsi account - la metà di tutti gli account creati su Twitter nel 2013 sono già stati cancellati - ma un solo ricercatore può avere difficoltà a scoprire quegli account all'interno di un dataset. "La maggior parte delle persone che si occupano di vera sociologia sono consapevoli di questi problemi" ha spiegato Pfeffer, il quale ha notato che si può giungere ad alcune soluzioni applicando tecniche esistenti già sviluppate in campi come l'epidemiologia o la statistica. Occorrerà senz'altro sviluppare tecniche nuove per gestire le deviazioni in ambito analitico.
Fonte sito web phys.org