Un esempio accessibile a tutti
Utilizzando il dataset di esempio chiamato “Superstore”, possiamo osservare alcuni dei risultati spesso forniti da Tableau descritti nel primo articolo. Nel foglio “ProductView” troviamo una highlight table che suddivide i dati delle vendite per categoria, anno e mese di vendita. Si osserva subito che in alcuni mesi le vendite sono notevolmente più alte rispetto ai mesi contigui. Possiamo utilizzare Explain Data per cercare di trovare una spiegazione al fenomeno.
Focalizzandoci sulla categoria Technology, e in particolare sull’anno 2019, è possibile osservare tre picchi nelle vendite: marzo, settembre e novembre. Se proviamo ad utilizzare Explain Data sul punto corrispondente a novembre otteniamo tre possibili spiegazioni: “Sub-Category”, “Average of Sales” e “A Single Extreme Value”.
Sub-Category
Gli acquisti di telefoni e accessori risultano presenti in proporzione molto maggiore rispetto alla proporzione media degli stessi negli altri punti della visualizzazione.
Questa spiegazione nasconde però un problema: il confronto è avvenuto rispetto a tutti punti presenti nella visualizzazione, che appartengono alle categorie di Technology, Furniture ed Office Supplies. Le sottocategorie citate tuttavia, insieme a Macchine e Fotocopiatrici, afferiscono alla sola categoria Technology.
Tutti i punti che ricadono sotto la categoria di Technology avranno quindi una proporzione relativamente elevata di una o più di queste sotto-categorie. Per evitare di cadere in questa trappola, è necessario impostare un filtro sul campo Category mantenendo solo la voce Technology.
Una volta fatto ciò, la spiegazione Sub-Category sparisce, a indicare che non è la distribuzione dei valori di questo campo a spiegare perché, nel novembre 2019, si è avuto un picco di vendite per la categoria in questione.
Se tuttavia fossimo interessati a sapere perché le vendite sono state superiori ai ricavi mensili medi per tutte le categorie prese singolarmente, l’informazione tornerebbe ad essere rilevante.
Average of Sales
In questo caso l’algoritmo procede a scomporre la somma delle vendite per il punto in questione nel numero di vendite effettuate e nell’importo medio di ciascuna vendita. Questi valori sono poi singolarmente comparati alle corrispondenti distribuzioni degli altri punti presenti nella visualizzazione.
Ciò che emerge è che in questo periodo i clienti hanno effettuato degli acquisti di beni più costosi. Al contrario, non c’è evidenza di un rilevante aumento del numero di acquisti. Dal grafico a dispersione presentato si osserva la correlazione positiva tra il valore medio di ciascuna vendita e le vendite totali: questo è un risultato atteso se ipotizziamo che la tendenza all’acquisto di beni più esosi derivi direttamente dalle scelte di consumo dei clienti.
Se invece l’aumento del valore medio delle vendite fosse il risultato delle politiche commerciali del negozio, un aumento dei prezzi avrebbe potuto comportare una riduzione del numero di vendite e la relazione sarebbe stata meno forte.
A Single Extreme Value
In questa spiegazione è evidenziata la presenza di una singola vendita di valore pari a $10.500. Ci viene anche detto che il punto selezionato è composto da 108 record
Questo significa che, escludendo il punto estremo dovuto all’acquisto di Hunter Lopez per $10.500, il valore medio delle vendite dei record rimanenti ammonta a circa $442. Dal grafico riportato, a cui possiamo accedere per intero attraverso la freccia sulla destra, è evidente la presenza un secondo valore estremo, corrispondente ad un acquisto di $8.000.
Dato che stiamo utilizzando la versione 20.1, Tableau riesce ad escludere un unico punto estremo e ci riporta che, senza il record di $10.500, il valore delle vendite effettuate a novembre 2019 ammonterebbe a $47.335. Ricordiamo che, a partire dalla versione 20.2, è possibile escludere più di un punto estremo dalla visualizzazione.
Considerazioni finali
In conclusione, se ci stiamo domandando come mai le vendite della categoria Technology siano state particolarmente alte a novembre 2019, la risposta è da ricercare nel fatto che sono state registrate due singole transazioni per un valore ben al di sopra della media. Questo è evidente dal fatto che Explain Data ci segnala il valore medio delle vendite e la presenza di un valore estremo come possibili spiegazioni.
Procedendo logicamente, Il valore elevato delle vendite complessive si deve quindi al fatto che il valore medio di ciascuna transazione è stato elevato, e questo è a sua volta legato alla presenza di due transazioni anomale.
L’esempio ha messo anche in luce l’importanza di escludere dalla Data Pane quei dati considerati irrilevanti o, addirittura, possibili fonti di bias dato che tutti i punti della visualizzazione, anche quelli appartenenti a categorie difficilmente paragonabili, sono utilizzati dall’algoritmo come termini di confronto quando si tratta di esaminare la distribuzione di frequenza di misure e dimensioni non visualizzate.
Aggiornamenti versione 2020.3
In data 17/06/2020 Tableau ha annunciato il rilascio della versione beta 2020.3. Per quanto riguarda Explain Data sono stati annunciati dei miglioramenti sul numero di casi gestiti e lo scoring assegnato a ciascuna possibile spiegazione. Explain Data risulterà inoltre pienamente compatibile con le relazioni, la nuova feature di data modelling introdotta con la versione 2020.2.