Da diversi anni ormai il termine “Big Data” è entrato prepotentemente nel mondo dell’Information Technology e nell’immaginario collettivo, per le nuove promettenti potenzialità, anche e soprattutto in termini economici, legate all’utilizzo di una nuova generazione di tecnologie e architetture in grado di estrarre valore dall’enorme mole di dati che viene continuamente prodotta negli ambiti più diversi. In ambito scientifico i “Big Data” vengono visti come un’opportunità ancora più grande: le nuove tecnologie e i moderni strumenti con cui gli studiosi di discipline diverse analizzano i fenomeni di loro interesse permettono, infatti, di produrre e conservare una quantità di dati di diversi ordini di grandezza superiore a quelli disponibili in precedenza. Dall’altro lato della medaglia c’è anche chi ha affermato che il cosiddetto “data deluge” (diluvio di dati) renderà obsoleti alcuni dei concetti fondamentali su cui si è finora basato il metodo scientifico (modello, teoria, ipotesi, spiegazione), poiché, in presenza di una tale quantità di dati, i numeri sarebbero ormai in grado di “parlare da soli” [Anderson C. 2008. “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”]. Senza arrivare a ipotizzare la definizione di un nuovo paradigma scientifico, sicuramente l’avere a disposizione enormi quantità di dati ed essere in grado di analizzarli, rappresenta un significativo progresso sia per la scienza sia per altri ambiti di ricerca, poiché permetterà di formulare le ipotesi e di testarle in tempi assai più rapidi e su un campione infinitamente più vasto rispetto a quanto avveniva in passato. È proprio in quest’ottica che, il concetto di “Big Data” ha iniziato ad affacciarsi anche in ambiti umanistici quali la storia e l’archeologia. Infatti, esse stanno assistendo ad una crescita dei dati a loro disposizione, grazie alla sempre maggiore diffusione di database, di riviste elettroniche, di digitalizzazioni del patrimonio culturale e di strumenti per l’estrazione e l’analisi dei dati. Per la prima volta, dunque, ci si trova di fronte alla possibilità di confrontare migliaia, se non milioni, di reperti archeologici, libri, opere d’arte, fonti archivistiche, etc. La storia e l’archeologia moderne sono infatti caratterizzate da un approccio multidisciplinare e dalla varietà in termini di tipologia, formato, struttura e scala dei dati che, peraltro, possono appartenere al patrimonio di istituzioni e gruppi di ricerca differenti. Gli strumenti principali per affrontare questa sfida, come peraltro, qualunque progetto che richieda la gestione e l’analisi dei dati (a prescindere dalla loro quantità), sono il Data Management e la Data Science (dalla modellazione dei dati, al text e data mining, ai modelli predittivi, al machine learning, all’analisi del linguaggio naturale, alle simulazioni, all’intelligenza artificiale, alle analisi spaziali mediante Geographic Information System, etc. [Shennan S. 1996. Quantifying Archaeology. Edinburgh: University Press]. In ambito storico-archeologico, infatti, nella maggior parte dei casi, i dati non vengono generati da strumenti ma dagli autori in persona che producono un’opera letteraria, un documento di archivio, o pubblicazioni accademiche; quindi, spesso, non sono “imparziali”, bensì possono essere condizionati dalla persona, dal tempo e dal luogo in cui sono stati prodotti. Inoltre, le informazioni su cui lavorano la storia e l’archeologia sono frammentarie, parziali e, in molti casi, distorte. Pertanto, il “digitale” rappresenta solo una piccola parte del patrimonio, delle fonti e dei documenti su cui gli studiosi basano le loro interpretazioni e, anche nello scenario migliore nel quale il patrimonio culturale fosse integralmente digitalizzato, quest’ultimo sarebbe, comunque, solo un surrogato che non necessariamente potrà sostituire la visione diretta della fonte informativa originaria (sia essa un reperto in ceramica, un manoscritto o un dipinto). Oltretutto, la gestione del contesto nell’analisi dei Big Data è considerata, anche al di fuori dell’ambito umanistico, una delle sfide fondamentali per arrivare a utilizzare i dati in maniera efficace, sfruttandone appieno il potenziale. Acquisiscono dunque importanza decisiva il background culturale e la capacità critica dello studioso, fondamentali contro il pericolo di una “decontestualizzazione” dei dati.
C’è e ci sarà maggiore necessità di figure umanistiche specializzate nella gestione, nell’integrazione e nell’analisi dei dati, discipline che, a livello universitario, non dovrebbero essere più relegate a laboratori di poche ore o, eventualmente, alla formazione post-laurea magistrale, ma che dovrebbero costituire una parte essenziale del bagaglio culturale di uno studente sin dal primo triennio universitario. Del resto, i tempi dovrebbero essere ormai maturi perché l’informatica applicata alle discipline umanistiche smetta di essere vista come una “disciplina ausiliaria”, che si possa scegliere o meno di utilizzare, ma inizi ad essere considerata per quello che è, ovvero un irrinunciabile strumento di educazione alla modellazione del ragionamento umanistico. La storia, l’archeologia, e, probabilmente, gli studi umanistici in generale si trovano di fronte a una sfida metodologica (adattando al meglio i metodi della Data Science alle peculiarità dei propri dati), tecnologica (contribuendo alla realizzazione di strumenti che rendano tali metodi più facilmente utilizzabili da parte della comunità scientifica) e culturale (prendendo coscienza del fatto che la Data Science deve entrare a pieno diritto nel percorso formativo dei giovani che si avvicinano a queste discipline). Solo fossimo in grado di vincere questa sfida, la comunità di studiosi nel suo complesso potrà trarre tutti i benefici insiti nella sempre crescente quantità di dati disponibili, che altrimenti rimarrebbero patrimonio, non condiviso, e forse nemmeno riconosciuto dai più.