Il problema con la scienza è che gran parte di essa semplicemente non lo è. L'estate scorsa, la Open Science Collaboration ha annunciato di aver tentato di replicare cento esperimenti di psicologia pubblicati campionati da tre delle più prestigiose riviste del settore. Le affermazioni scientifiche si basano sull'idea che gli esperimenti ripetuti in condizioni quasi identiche dovrebbero produrre approssimativamente gli stessi risultati, ma fino a poco tempo fa, pochissimi si erano preoccupati di verificare in modo sistematico se questo fosse effettivamente il caso. L'OSC è stato il più grande tentativo di verificare i risultati di un campo e il più scioccante. In molti casi, avevano usato materiali sperimentali originali e talvolta avevano persino eseguito gli esperimenti sotto la guida dei ricercatori originali. Degli studi che avevano originariamente riportato risultati positivi, una sorprendente percentuale di 65 non è riuscita a mostrare un significato statistico sulla replica, e molti dei rimanenti hanno mostrato dimensioni dell'effetto notevolmente ridotte.
Le loro scoperte hanno fatto notizia e sono diventate rapidamente un club con cui colpire le scienze sociali. Ma il problema non riguarda solo la psicologia. Nell'industria farmaceutica esiste una regola non espressa secondo cui metà di tutta la ricerca biomedica accademica alla fine si rivelerà falsa, e in 2011 un gruppo di ricercatori di Bayer ha deciso di testarlo. Osservando i sessantasette recenti progetti di scoperta di farmaci basati sulla ricerca preclinica sulla biologia del cancro, hanno scoperto che in oltre il 75 percento dei casi i dati pubblicati non corrispondevano ai loro tentativi interni di replica. Questi non erano studi pubblicati su riviste di oncologia fly-by-night, ma ricerche di successo presentate su Science, Nature, Cell e simili. I ricercatori della Bayer stavano annegando in cattivi studi, ed è stato a questo, in parte, che hanno attribuito le rese misteriosamente in calo dei gasdotti. Forse molti di questi nuovi farmaci non riescono ad avere un effetto perché la ricerca di base su cui si basava il loro sviluppo non è valida.
Quando uno studio non riesce a replicarsi, ci sono due possibili interpretazioni. Il primo è che, all'insaputa degli investigatori, c'era una vera differenza nella configurazione sperimentale tra l'indagine originale e la replica fallita. Questi sono colloquialmente definiti "effetti di sfondo", la battuta è che l'esperimento è stato influenzato dal colore dello sfondo nella stanza. Questa è la spiegazione più felice possibile per l'incapacità di riprodursi: significa che entrambi gli esperimenti hanno rivelato fatti sull'universo, e ora abbiamo l'opportunità di apprendere quale fosse la differenza tra loro e di incorporare una distinzione nuova e più sottile nelle nostre teorie.
L'altra interpretazione è che la scoperta originale era falsa. Sfortunatamente, un ingegnoso argomento statistico mostra che questa seconda interpretazione è molto più probabile. Articolato per la prima volta da John Ioannidis, professore alla School of Medicine della Stanford University, questo argomento procede con una semplice applicazione delle statistiche bayesiane. Supponiamo che ci siano centuno pietre in un determinato campo. Uno di questi ha un diamante al suo interno e, fortunatamente, hai un dispositivo di rilevamento del diamante che pubblicizza la precisione percentuale 99. Dopo circa un'ora di spostamento del dispositivo, esaminando a turno ogni pietra, improvvisamente lampeggiano allarmi e sirene gemono mentre il dispositivo è puntato su una pietra dall'aspetto promettente. Qual è la probabilità che la pietra contenga un diamante?
La maggior parte direbbe che se il dispositivo pubblicizza l'accuratezza percentuale 99, allora c'è una probabilità 99 percentuale che il dispositivo stia discernendo correttamente un diamante e una probabilità percentuale 1 che abbia dato una lettura falsa positiva. Ma considera: delle centouno pietre nel campo, solo una è veramente un diamante. Certo, la nostra macchina ha un'alta probabilità di dichiararlo correttamente come un diamante. Ma ci sono molte altre pietre prive di diamanti e mentre la macchina ha solo una probabilità del 1 di dichiarare erroneamente ognuna di esse come un diamante, ce ne sono un centinaio. Quindi, se dovessimo agitare il rivelatore su ogni pietra del campo, suonerebbe, in media, due volte, una volta per il vero diamante e una volta quando una pietra falsa provoca una falsa lettura. Se sappiamo solo che l'allarme ha suonato, queste due possibilità sono all'incirca ugualmente probabili, dandoci una probabilità circa 50 percentuale che la pietra contenga davvero un diamante.
Questa è una versione semplificata dell'argomento che Ioannidi applica al processo scientifico stesso. Le pietre sul campo sono l'insieme di tutte le possibili ipotesi verificabili, il diamante è una connessione o un effetto ipotizzato che sembra essere vero, e il dispositivo di rilevazione del diamante è il metodo scientifico. Una quantità enorme dipende dalla proporzione di possibili ipotesi che risultano essere vere e dall'accuratezza con cui un esperimento può discernere la verità dalla falsità. Ioannidis mostra che per un'ampia varietà di contesti e campi scientifici, i valori di questi due parametri non sono affatto favorevoli.
Ad esempio, si consideri un team di biologi molecolari che sta studiando se una mutazione in una delle innumerevoli migliaia di geni umani sia collegata ad un aumentato rischio di Alzheimer. La probabilità che una mutazione selezionata casualmente in un gene selezionato casualmente abbia esattamente quell'effetto è piuttosto bassa, così come per le pietre sul campo, è più probabile che una scoperta positiva sia non falsa, a meno che l'esperimento non abbia incredibilmente successo nell'ordinamento il grano dalla pula. In effetti, Ioannidis scopre che in molti casi, avvicinarsi anche al 50 per cento di veri positivi richiede una precisione inimmaginabile. Da qui il titolo accattivante del suo articolo: "Perché la maggior parte dei risultati di ricerca pubblicati sono falsi".