Il termine Big Data identifica quantità molto ampie di dati omogenei che descrivono una situazione: possono essere i like ottenuti dai post sui social media, le singole righe degli scontrini di un supermarket, le parole chiave usate nelle ricerche su Google. Nella loro complessità, essi hanno la potenza di descrivere il comportamento della massa di soggetti coinvolti identificando trend di sviluppo, motivazioni comuni o anche di costruire sistemi di analisi predittive sullo stesso oppure su altri ambiti.
L’analisi dei Big Data è diventata una possibilità concreta da quando esistono computer di potenza adeguata alla loro elaborazione: sia per la moltitudine di calcoli prevista dagli algoritmi, sia per la quantità elevata di dati sui operare.
Nel 2001, quando il settore dei Big Data iniziava ad avere un significato concreto nelle analisi delle informazioni aziendali, Doug Laney (oggi top manager in Gartner) aveva descritto in un report il “Modello”, una descrizione sintetica dei Big Data, basata su 3V: Volume, Velocità e Varietà. A distanza di due decenni, il paradigma di Laney è stato completato con altre due variabili: Veridicità e Variabilità quindi ora il Modello è basato su 5V.
Pertanto, una raccolta di informazioni è qualificata come Big Data se:
Volume: la quantità di dati è di almeno 50 Terabyte, oppure il volume di dati (comunque misurabile in Terabyte), cresce di più del 50% ogni anno.
Velocità: i dati ora sono raccolti in tempo reale (sensori, registratori di cassa) e devono essere analizzati in tempi brevissimi, quasi in tempo reale, al fine di prendere decisioni immediate (rifornire un reparto di frutta e verdura fresche in un supermercato, modificare l’erogazione di acqua in un campo coltivato)
Varietà: in base all’affermazione “More isn’t just more. More is different.”, come scriveva Chris Anderson su Wired nel 2008, i dati raccolti devono provenire da diverse fonti, essere sia strutturati che non, essere interni o esterni all’azienda… in modo che il loro contenuto informativo sia in grado di rappresentare la complessità della realtà in esame, e non “una sola dimensione” di essi.
Veridicità: i dati raccolti devono essere affidabili, essere “integri” nella loro potenzialità di descrivere la realtà. Dati falsati da errori di rilevazione, da distorsioni dovute a malintesi oppure a inganni, costituiscono un grave nocumento, come osservato da chi opera nel settore: “Bad data is worse than no data”: meglio non avere informazioni, che utilizzare dati errati.
Variabilità: oggi i dati raccolti provengono da diversi contesti o sono raccolti in diversi formati. Nella interpretazione dei risultati è importante comprendere che il significato di ogni informazione è diverso in base a tali diversità.