Qual è la definizione di Big Data?

Possiamo definire i big data come un insieme di dati talmente grande e complesso che è difficile elaborarlo utilizzando database e tecniche software tradizionali.

Il termine Big non si riferisce solo all’aspetto quantitativo dei dati, ma è legato anche ad altre caratteristiche, che sono state definite per la prima volta nel 2001 da Doug Laney (allora vice presidente di Meta Group) come le 3V dei Big Data: Volume, Velocità e Varietà.

VOLUME

Nell’era dell’IoT (Internet of Things), ciascuno di noi genera 1,7 megabyte in appena un secondo (dato del 2020), basti pensare alle miriadi di informazioni che “passano” attraverso i nostri dispositivi e che vengono condivisi con i fornitori di servizi e app più disparati, o dai social network che “frequentiamo” quotidianamente. Da un calcolo approssimativo, in un giorno solo vengono generati 2,5 quintilioni di bytes. Questa mole di informazioni, destinata a crescere vertiginosamente di anno in anno, non può essere gestita con tecnologie tradizionali.

VELOCITÀ

Queste incredibili quantità di dati vengono generate sempre più rapidamente. Ma soprattutto la velocità è quella che le aziende devono sostenere per raccogliere ed analizzare questi dati, in tempo reale, in modo da assecondare o addirittura prevedere le variazioni del mercato.

VARIETÀ

I dati oggi disponibili lo sono in una grande varietà di formati e provengono da fonti eterogenee. I Big Data infatti hanno a che fare con dati strutturati, non strutturati e semi-strutturati. Vediamoli nel dettaglio.

  • Dati strutturati: questo termine è utilizzato per i dati già archiviati in database, nella tradizionale modalità riga/colonna, in maniera ordinata. Rappresenta circa il 20% del totale esistente.
  • Dati semi-strutturati, informazioni che non sono nel tradizionale formato di database come dati strutturati, ma contengono alcune proprietà organizzative che li rendono più facili da elaborare.

Dati non strutturati, che rappresentano l’80% dei dati, non sono disponibili nel formato tipico e più facilmente interrogabile (campi di un database). Parliamo di immagini, video, dati radar, post sui social media, dati dai dispositivi mobili, messaggi di testo, contenuti dei siti web, eccetera.

Alle 3V della definizione di Laney se ne aggiungono oggi altre 3: Veridicità, Variabilità e Valore.

VERIDICITÀ

L’affidabilità e l’integrità dei dati sono essenziali per garantire la qualità delle informazioni e delle analisi che si basano su tali dati.

VARIABILITÀ

Il significato o l’interpretazione di uno stesso dato può variare in funzione del contesto in cui questo viene raccolto ed analizzato.

VALORE

Non possiamo accontentarci di memorizzare i dati con efficacia, dobbiamo anche utilizzarli con la stessa efficacia. Possiamo raccogliere quantità infinite di dati, ma non serviranno a nulla se non si utilizzano questi dati per ricavare informazioni e generare valore. In altre parole, investire risorse solo nella strategia e nelle tecnologie di raccolta e archiviazione e non investire anche nelle corrette tecnologie e strategie di analisi e business intelligence è un errore che rischia di vanificare ogni investimento fatto.

Perché tutte le organizzazioni dovrebbero interessarsi dei Big Data?

Come detto, la raccolta, la gestione e l’analisi dei Big Data comporta problematiche nuove che non possono essere risolte dalle tradizionali infrastrutture hardware e software presenti nella maggior parte delle realtà aziendali. Si tratta quindi di pianificare un investimento significativo, non solo in termini di tecnologie, ma anche in termini di figure e competenze.

Se è così problematico e costoso, perché se ne parla così tanto, a tutti i livelli? La risposta sta nei vantaggi che offre. I Big Data rappresentano un valore incalcolabile, poiché la loro analisi ed elaborazione può aiutare un’azienda a ottenere una significativa riduzione dei costi e una crescita impressionante.

Un esempio reale? Netflix raccoglie i dati sul comportamento degli utenti al fine di capire e anticipare cosa ogni singolo cliente vuole vedere. In base all’analisi consiglia film e programmi che lo spettatore adorerà guardare. Clienti soddisfatti = clienti fidelizzati = azienda di successo, che nell’intero 2020 ha visto crescere i suoi abbonati di ben 37 milioni rispetto all’anno precedente, arrivando ad un totale di 203,7 milioni.

Stiamo naturalmente parlando di una multinazionale, ma è chiaro che i risultati ottenuti sono legati alla capacità dell’azienda di cogliere i desideri dei propri clienti e evolvere costantemente.

Nonostante il clamore e questi casi d’uso di successo, sono ancora poche le realtà aziendali consapevoli dei problemi e delle opportunità rappresentate dalla Big Data Analytics.

In genere le organizzazioni iniziano a rendersi conto della necessità di “ragionare” in termini di Big Data quando i database e le applicazioni esistenti non riescono più a supportare aumenti di volume, varietà e velocità dei dati.

Intervenire a posteriori tuttavia può portare a maggiori costi, e anche ad una perdita di produttività e competitività.

Per queste ragioni è essenziale che le aziende inizino a porsi la questione dei Big Data, la cui importanza è destinata a crescere nei prossimi anni.

In quali campi e in quali settori le aziende possono trarre vantaggi dai Big data?

I Big Data hanno centinaia di applicazioni diverse in centinaia di campi differenti.

Nei servizi finanziari e assicurativi vengono usati per studiare il comportamento dei clienti al fine di migliorare l’offerta, prevenire le frodi, potenziare la sicurezza.

Nel settore sanitario vengono usati per ottimizzare le risorse, per monitorare e studiare gli effetti collaterali dei farmaci, per trovare modelli che aiutino ad elaborare trattamenti e procedure che portino migliori risultati per i pazienti. Ancora, quando i dati sui casi di specifiche malattie e sintomatologie vengono incrociati con i dati geografici è possibile prevedere l’intensificarsi di determinate patologie in determinati paesi, così da pianificare al meglio la risposta sanitaria.

Nelle vendite online così come nei negozi fisici i dati sui comportamenti degli utenti incrociati con i dati provenienti dai social media e dai dispositivi mobili, confrontati con i dati storici e i trend di mercato, consentono alle aziende di prevedere la domanda, aumentare o ridurre l’offerta laddove necessario al fine di aumentare i margini, migliorare l’esperienza del consumatore con un brand, identificare nuovi mercati, ottimizzare il customer service, ridurre il time to market, e così via.

Gli stati e le comunità locali possono applicarli per semplificare la gestione e ridurre i costi di tutta una serie di attività come: la gestione ottimale del traffico, la risposta in caso di catastrofi meteorologiche, la prevenzione e il contrasto del crimine, l’ottimizzazione dei servizi per i cittadini, la raccolta dei tributi e la lotta all’evasione, e molto altro.

Gli strumenti per gestire i Big Data

Come anticipato, la principale sfida dei Big Data è memorizzare una mole enorme di dati ed elaborarli in tempo reale per trasformare i dati in informazioni e conoscenza a supporto delle decisioni aziendali.

Sembrerebbe una sfida recente, ma è già dal 2005 che compaiono i primi strumenti per la loro gestione, quando le organizzazioni hanno iniziato a rendersi conto dell’impossibilità di gestire i dati creati quotidianamente dagli utenti dei vari social network.

Nel 2005 si afferma Hadoop, il framework open source creato appositamente per archiviare e analizzare i set di Big Data, e NoSQL (database non relazionale, con modelli di dati flessibili). Lo sviluppo di questi strumenti è stato essenziale per la crescita dei Big Data perché li hanno resi più facili da lavorare e più economici da archiviare.

Oggi gli strumenti e le tecnologie coinvolte nella gestione dei Big data sono molti e si suddividono nelle seguenti categorie: [qui è un attimo da far verificare in termini di correttezza e completezza…]

  • strumenti per l’acquisizione dei dati
  • strumenti per l’archiviazione e la gestione dei dati, ad esempio i database NoSql come MongoDB, Cassandra, Neo4J e HBase, e framework come Talend, Microsoft HDInside e Zookeeper
  • strumenti per la pulizia dei dati, come OpenRefine
  • strumenti di data mining dei big data, come Teradata e RapidMiner
  • strumenti per l’analisi dei dati
  • strumenti di visualizzazione e reportistica dei dati, come Tableau e PowerBI

I primi passi per implementare una strategia di gestione dei Big Data in azienda

Come scritto i Big Data aprono nuove opportunità e consentono di sfruttare nuovi modelli di business. Ogni realtà che voglia iniziare a cogliere queste opportunità deve ragionare in maniera strategica su 3 processi fondamentali.

Integrazione dei dati

I Big Data riuniscono i dati provenienti da molte origini e applicazioni disparate. Quali origini dati utilizzare ed integrare nel proprio data lake è una scelta fondamentale che dipende a sua volta dagli obiettivi aziendali.

Archiviazione e Gestione

Lavorare con i Big Data richiede spazio di archiviazione. Bisogna valutare se la soluzione di archiviazione che fa al caso è in cloud, on premise o entrambi. Molte organizzazioni scelgono la loro soluzione di archiviazione in base a dove risiedono attualmente i loro dati, anche se Il cloud sta acquisendo sempre maggiore popolarità perché supporta i requisiti di calcolo correnti e permette di aumentare le risorse in base alle esigenze.

Advanced Analytics

L’investimento nei Big Data è sensato se è completo: bisogna usare i dati per le analizzare l’andamento dell’azienda e del mercato e per prendere decisioni data-driven. Perché questo sia possibile oggi è necessario appoggiarsi a piattaforme di BI che consentano di effettuare analisi visuali in modo semplice e veloce, esplorare i dati a diversi livelli, condividere le analisi con tutti i membri dei diversi team aziendali, migliorare le strategie basate sui dati grazie al machine learning e l’intelligenza artificiale.

Quali sono le figure e le competenze per implementare una strategia di gestione dei Big Data?

L’adozione di una strategia di gestione dei big data coinvolge naturalmente più funzioni di un’organizzazione e non solo una divisione aziendale, tuttavia possiamo indicare alcune figure specializzate che possono da un lato guidare il cambiamento verso la transizione ad azienda data-driven e dall’altro contribuire quotidianamente al lavoro di analisi su cui poi si baseranno le decisioni di business.

Data scientist

Un data scientist è una figura di elevata professionalità ed esperienza in grado non solo di analizzare e interpretare i big data in scenari complessi, ma anche di progettare strategie e processi per gestire e estrarre valore dai dati. Tra le abilità di un data scientist abbiamo la capacità di effettuare analisi statistiche avanzate, una comprensione completa del machine learning, delle tecniche di modellazione dei dati, delle reti neurali. Un data scientist spesso ha competenze approfondite anche nei linguaggi di programmazione come SAS, R, Python e dei framework per la gestione dei Big Data. Solitamente si tratta di una figura senior a capo di un team che comprende uno o più data analyst e un data engineer.

Data analyst

L’analista dei dati è una figura junior con una forte preparazione in discipline statistiche in grado di esplorare, analizzare e interpretare i dati, allo scopo di far emergere le informazioni utili al processo decisionale, sotto forma di report e visualizzazioni ad hoc. Sebbene non siano essenziali conoscenze tecniche nel campo della programmazione, queste ultime sono sicuramente ben apprezzate ed utili per una preparazione più completa e per una futura evoluzione della carriera verso un ruolo di data engineer o scientist.

Data engineer

L’ingegnere dei dati è spesso una figura tecnica intermedia tra quella del data analyst e quella del data scientist. E’ coinvolto direttamente nella preparazione dei dati per scopi analitici, nello sviluppo e nella gestione dell’architettura analitica. Deve garantire l’accuratezza e la veridicità dei dati. Conosce a fondo la programmazione e le tecnologie che sottostanno all’intero ciclo di gestione dei dati.

Con questa breve introduzione al vasto mondo dei big data speriamo di averti incuriosito. Se è così ti consigliamo di iscriverti fin da ora alla nostra newsletter: non abuseremo del tuo tempo e ti invieremo solo contenuti davvero utili per capire meglio i temi della Business Intelligence e Data Analytics applicati al tuo settore.