Di cosa si tratta e perchè dovresti usarlo

A partire dalla versione 2019.3 di Tableau è disponibile una nuova funzionalità chiamata “Explain Data”, che fa da ponte tra il mondo della business intelligence e quello della data science. Questo consente, anche ad utenti con minore esperienza nella statistica inferenziale, di ricavare degli insights inaspettati che possono aiutare a spiegare cosa si nasconde dietro punti dati specifici.

Le origini dell’algoritmo

Le origini di questo algoritmo sono da rintracciare nell’acquisizione da parte di Tableau di Empirical Systems, una start-up targata MIT e focalizzata sul mondo dell’AI.
Secondo Francois Fjenstat, Chief Product Officer di Tableau, Explain Data ha il potere di democratizzare l’Analytics in quanto gli utenti, cliccando su un punto della propria visualizzazione, possono accedere a complesse tecniche di modellazione statistica bayesiana  per individuare patterns nascosti nei dati.

E’ possibile accedere a questa funzionalità cliccando su un punto di interesse e poi sull’icona a forma di lampadina che comparirà nel relativo tooltip.

Explain Data Tooltip

 

In linea con la filosofia di Tableau, che si fonda sul principio di utilizzare gli strumenti di business analytics a vantaggio delle persone per liberare il potenziale che risiede in loro, l’algoritmo non mira ad offrire risposte certe, incondizionate e indiscutibili ma si propone bensì di puntellare le capacità di un analista, che può rapidamente esplorare una serie di potenziali spiegazioni e ricorrere alle proprie conoscenze di business per trarre una conclusione definitiva.

Si può quindi dire che questo strumento non mira a rimpiazzare l’esperto, ma lo aiuta a muoversi più velocemente.

A chi è rivolto

Explain Data è a disposizione di tutti gli end-users della versione desktop e di coloro che hanno il ruolo di creator ed explorer nella versione server.

In linea con la filosofia di Tableau, che si fonda sul principio di utilizzare gli strumenti di business analytics a vantaggio delle persone per liberare il potenziale che risiede in loro, l’algoritmo non mira ad offrire risposte certe, incondizionate e indiscutibili ma si propone bensì di puntellare le capacità di un analista, che può rapidamente esplorare una serie di potenziali spiegazioni e ricorrere alle proprie conoscenze di business per trarre una conclusione definitiva. Si può quindi dire che questo strumento non mira a rimpiazzare l’esperto, ma lo aiuta a muoversi più velocemente.

Come ragiona l’algoritmo?

La statistica alla base

Explain Data definisce un ranking tra le possibili spiegazioni. Nel fare ciò, bilancia l’esigenza di spiegare un’alta proporzione di variabilità della misura di interesse con la semplicità di comprensione per l’utente finale.

Per prima cosa Tableau calcola, attraverso i soli campi utilizzati nella visualizzazione, un valore atteso e un possibile range di variazione per il mark selezionato. Si tratta in realtà di valori omogenei per tutti i marks in quanto non condizionati ad altre variabili.

Tutti i marks che presentano una o più misure con valori superiori o inferiori rispettivamente all’ 85esimo e al 15esimo percentile della distribuzione presentano, in alto nel menù, una dicitura che evidenzia come il valore in questione cada al di fuori dell’intervallo di confidenza.

Tableau - Explain Data Marks

 

Si tratta di una prima red flag, che dà avvio ad un processo interattivo di indagine statistica se tale valore risulta inaspettato anche agli occhi dell’esperto di dominio.

Per tutti i punti il motore interno dell’algoritmo calcola poi il valore di Z-Score, una normalizzazione basata sull’assunzione che i dati seguano una distribuzione gaussiana. Tanto maggiore è, in termini assoluti, lo Z-Score, tanto più è improbabile che questo valore possa spiegarsi attraverso la variabilità intrinseca ai dati.
Tableau non rivela questo valore all’utente finale, ma lo utilizza per compararlo agli Z-Score calcolati utilizzando altri campi esterni alla visualizzazione come possibili variabili esplicative.

L’algoritmo procede poi a scremare quei campi che causano un incremento dello Z-Score anziché una sua riduzione.

Le possibili spiegazioni

L’algoritmo avanzerà poi una lista ordinata di possibili spiegazioni, che possono essere distinte in 4 categorie:

Punti estremi

Per ogni mark, che rappresenta un valore aggregato, sono escluse dal calcolo le righe che presentano il valore massimo o quello minimo (a seconda che un punto sia al di sopra o al di sotto del valore atteso) e si osserva quanto si riduce lo Z-Score senza quest’unico valore. Tanto maggiore sarà la riduzione, tanto più è probabile che il valore inaspettato derivi da un singolo errore o outlier a livello di riga.

Variazione Casuale

In questo caso Tableau riconosce che il numero di righe che contribuiscono al valore aggregato del punto selezionato è piuttosto basso. Questo fa sì che l’errore standard (ovvero, l’errore medio) dello stimatore campionario sia alto. Ne consegue che il valore del punto potrebbe discostarsi dal range di riferimento a causa del solo errore statistico, il cosiddetto noise.

Numero di record/valore medio

Quando utilizziamo Explain Data su una somma, Tableau procede a scomporla nei valori del numero di righe che le afferiscono e del valore medio di queste. Questi valori estrapolati sono poi singolarmente confrontati alle distribuzioni del numero e del valore medio delle righe afferenti agli altri marks dello stesso livello.  Se il valore da cui siamo partiti è un outlier, allora almeno una di queste due componenti sarà a sua volta un outlier. Siamo così in grado di raffinare l’analisi concentrandoci sulla componente che assume un valore inaspettato.

Misure/Dimensioni non visualizzate

In questo caso Tableau utilizza quelle dimensioni e misure non presenti nella visualizzazione. Nel caso delle dimensioni, Tableau ci propone, sotto forma di barchart, come la distribuzione condizionata delle unità statistiche che appartengono al mark selezionato si discosta rispetto alle altre unità statistiche. Nel caso delle misure, Tableau ci propone, tramite uno scatterplot, di osservare la correlazione tra le due misure.

Per ognuna delle soluzioni proposte, possiamo passare direttamente al worksheet della rappresentazione grafica utilizzando la freccia sulla destra del menù e, se ancora i nostri dati si discostano dal resto della distribuzione, procediamo con un nuovo Explain Data. Possiamo iterare questo processo fintantoché non siamo in grado di spiegare il motivo per cui i nostri dati si comportano in modo anomalo sulla base della nostra conoscenza di dominio.

Alcuni miglioramenti e novità

In alcuni casi, si osservano significative differenze tra le ultime versioni. Se, ad esempio, stiamo usando la versione 19.3 e vogliamo che tra le spiegazioni figuri anche una misura, occorre discretizzarla tramite dei bins. Questo problema è stato risolto a partire dalla versione 19.4 ma Tableau ancora non incorpora gruppi e set tra le possibili spiegazioni. Per superare questo problema, occorre includerli in un campo calcolato.

A partire dalla versione 20.2 è possibile selezionare direttamente, all’interno del menù di Explain Data, i campi che possono figurare nella lista delle possibili spiegazioni.  E’ inoltre possibile escludere dalla distribuzione più di un punto quando si sceglie la spiegazione dei punti estremi.

Tableau - Explain Data Marks

 

Best practices

E’ possibile utilizzare “Explain Data” per cogliere il significato di alcuni punti poco chiari all’interno di una dashboard. In questo caso le performance dell’algoritmo e il numero di soluzioni proposte saranno strettamente condizionate alle scelte di data modeling operate in sede di costruzione della dashboard.

Nel caso, ad esempio, in cui avessimo scelto di nascondere alcuni campi che non figurano nella nostra visualizzazione per rendere i worksheets meno confusionari agli occhi degli utenti finali, questi campi saranno anche esclusi dalle possibili soluzioni proposte da Explain Data.
Al contrario, alcuni campi ad alta o altissima cardinalità (tipicamente ID), utili solo come filtro, potrebbero essere proposti come soluzione.

E’ inoltre importante essere consapevoli che Explain Data funziona solo se stiamo lavorando con un’unica data source, mentre rimangono escluse tutte quelle casistiche in cui si lavora con più data source blended.

Dato che alcuni dei problemi evidenziati potrebbero finire per inficiare i risultati forniti da Explain Data, una possibile soluzione potrebbe essere quella di utilizzare Tableau Prep per modellare anticipatamente la nostra origine dati rendendola perfettamente fruibile per Explain Data. In questo caso, ci dobbiamo attenere alle seguenti raccomandazioni:

  1. Integrare i dati in una singola data source.
  2. Non nascondere tutte quelle misure e dimensioni che, pur risultando di scarso interesse in una visualizzazione, possono avere un legame statistico rilevante con le variabili di interesse.
  3. Nascondere o eliminare i campi ridondanti, o quelli utilizzati come chiavi esterne della tabella dei fatti. Questi campi, infatti, risultano difficilmente interpretabili per l’utente finale e allungano i tempi di calcolo.
  4. Utilizzare tecniche di data preparation finalizzate a generare campi con scarsa cardinalità, ovvero con un numero limitato di valori unici.

Per un esempio di implementazione pratica di Explain Data non perderti la seconda parte dell’articolo.