Vai al contenuto

Modifica di una ricetta

Dettaglio ricetta

L'interfaccia mostra:

  • a sinistra l'elenco degli step della ricetta
  • al centro l'anteprima in forma tabellare delle modifiche applicate
  • a destra il dettaglio della colonna selezionata con le azioni disponibili per quella colonna (una colonna si seleziona cliccando sul suo nome e viene evidenziata in verde)

I valori nulli sono evidenziati con la scritta NULL e lo sfondo di colore diverso.

Sampling dei dati

Per poter mostrare un'anteprima in tempo reale delle modifiche applicate, il Wrangler lavora su un campione di dati (sample) ottenuto a partire dal dataset originale al momento della creazione della ricetta.

Dettaglio sample

Lavorando su un sottoinsieme dei dati è possibile avere un'anteprima in tempo reale anche partendo da dataset non indicizzati di grandi dimensioni, per contro potrebbero non essere inclusi nell'anteprima dati che ci si aspetterebbe di trovare.

Quando invece viene lanciata l'esecuzione della ricetta questa opera sull'intero dataset di partenza.

Cliccando sull'icona , tre puntini verticali, nell'intestazione di una colonna (non necessariamente quella selezionata) si visualizza un menu contestuale con le azioni disponibili per quella colonna.

Menu colonna

Menu contestuale colonna
  • Order asc e Order desc permettono di ordinare il sample in base ai valori di quella colonna rispettivamente in modo ascendente o discendente (lo stesso si può fare cliccando sull'icona con le frecce accanto al nome della colonna).
  • selezionando una delle altre azioni disponibili (Rename column, Remove column(s), ecc...) è possibile aggiungere uno step alla ricetta partendo da quella colonna (la stessa cosa si può fare selezionando una colonna e cliccando su una delle azioni disponibili indicate nella barra di destra).

Step della ricetta

Una ricetta è costituita da una serie ordinata di azioni (Step) eseguite una di seguito all'altra che permettono di compiere operazioni sui dati.

Quando si inserisce uno step (dal menu o dalla barra di destra) questo viene aggiunto in fondo alla lista e l'anteprima dei dati viene aggiornata di conseguenza.

Gestione step gif

Gestione step (aggiunta, rimozione, navigazione)

È possibile eliminare l'ultimo step inserito (cliccando sull'icona a forma di cestino) o tornare a uno degli step precedenti cliccando su di esso (in tal caso tutti gli step successivi sono disabilitati, l'anteprima dei dati si aggiorna in modo da mostrare tutte le modifiche effettuate fino allo step selezionato compreso).

Step precedenti e successivi

Se si elimina uno step che non è l'ultimo, tutti gli step successivi vengono automaticamente eliminati.

Se lo step correntemente selezionato non è l'ultimo e si aggiunge una nuova azione, tutti gli step successivi a quello corrente vengono automaticamente eliminati e il nuovo step viene accodato a quello selezionato in precedenza.

Salvataggio della ricetta

Tutte le modifiche effettuate non vengono salvate finché non si clicca sul pulsante "Salva".

Cliccando su "Cancel" o uscendo senza salvare, la ricetta rimane nello stato in cui si trovava in precedenza.

Inserimento step

Gli step possono essere inseriti dal menu contestuale di una colonna (cliccando sull'icona , tre puntini verticali, nell'intestazione della colonna) o dalla barra di destra.

Di seguito il dettaglio delle azioni disponibili.

Rinomina colonna (Rename column)

Questa azione permette di cambiare il nome della colonna.

Rinomina colonna

Modale di rinomina colonna

Il nuovo nome non può coincidere con quello di una colonna già esistente.

Duplicazione colonna (Duplicate column)

Questa azione permette di duplicare la colonna selezionata.

Duplicazione colonna

Modale di duplicazione colonna

Verrà generata una nuova colonna con le stesse caratteristiche e gli stessi dati di quella di partenza. Deve essere specificato il nome della colonna di destinazione della duplicazione, che non può coincidere con quello di una colonna già esistente e deve contenere solo caratteri alfanumerici ([A-z], [0-9]) e underscores (carattere _).

Eliminazione colonne (Remove column(s))

È possibile selezionare una o più colonne ed eliminarle (opzione Remove selected column(s)) oppure eliminare tutte le altre (opzione Keep only selected column(s)).

Eliminazione colonne

Modale di eliminazione colonne

Spostamento colonna (Move column)

Questa operazione permette di modificare la posizione della colonna selezionata rispetto alle altre all'interno della struttura del dataset.

Spostamento colonna

Modale di spostamento colonna

È possibile selezionare l'opzione di spostamento tra prima o dopo (Before column o After column) una delle altre colonne tramite il menù a tendina dedicato ed è necessario selezionare la colonna di riferimento per lo spostamento.

Concatenazione valori colonne (Concatenate columns)

Tramite questa opzione è possibile creare una nuova colonna popolandola con la concatenazione dei valori di alcune colonne selezionate.

Concatenazione colonne gif

Concatenazione colonne

Per la creazione di uno step di questo tipo è necessario selezionare almeno due colonne (quella selezionata in partenza è già impostata di default) e bisogna impostare il nome della colonna risultante, che non deve essere duplicato rispetto ad altre colonne e può contenere solo caratteri alfanumerici e "underscore".

Per la selezione delle colonne è possibile usare il bottone + add column, che apre l'elenco delle colonne (ancora non selezionate). Cliccando su una colonna dell'elenco, questa viene aggiunta alla sezione sottostante il bottone di aggiunta. Tramite l'icona "x" è possibile deselezionare una o più colonne.

Filtro dati (Filter data)

Permette di filtrare i dati in modo da includere solo alcune righe in base alle opzioni:

  • Is not null: include solo le righe per cui la colonna selezionata non ha valori NULL
  • Is null: include solo le righe per cui la colonna selezionata ha valori NULL

Filtro dati not null

Modale di filtro dati caso 'is not null'
  • Is one of...: include solo le righe per cui la colonna selezionata ha uno dei valori inseriti; in linguaggio SQL equivarrebbe a WHERE colonna IN (...)
  • Is not one of...: include solo le righe per cui la colonna selezionata non ha nessuno dei valori inseriti; in linguaggio SQL equivarrebbe a WHERE colonna NOT IN (...)

Filtro dati is one of

Modale di filtro caso 'is one of'

Filtro dati e sample

È possibile che inserendo un filtro non vengano mostrati dati anche se il dataset di partenza li contiene: questo perché l'anteprima del Wrangler è calcolata su un sottoinsieme (sample) del dataset di partenza e i valori indicati nel filtro non sono presenti all'interno del sample.

Quando invece viene lanciata l'esecuzione della ricetta questa andrà ad operare sull'intero dataset, includendo quindi anche i valori che ci si aspettava di trovare.

Sostituzione valori (Replace)

Questa funzionalità permette di sostituire un determinato valore all'interno delle righe della colonna selezionata con un altro specificato dall'utente.

Modale sostituzione valori

Modale di sostituzione valori

Il valore da sostituire (casella di testo Find) deve essere coincidente con l'intero contenuto che si intende modificare, sia in termini di caratteri che in termini di capitalizzazione. Il valore delle righe che contengono la stringa inserita in Find viene completamente sostituita con la stringa inserita nella casella di testo Replace with. Non ci sono vincoli formali sulla specificazione dei valori.

Substring

La funzionalità Substring permette di modificare i valori di ogni riga per la colonna selezionata in modo da mantenere solamente i caratteri identificati dalla loro posizione (numerica) all'interno del valore.

Modale substring

Modale di applicazione substring

I valori da inserire nelle caselle di testo Start index e End index devono essere numerici.

Il valore inserito in Start index rappresenta la posizione del primo carattere da mantenere, dove 0 rappresenta il primo carattere; il valore inserito in End index rappresenta la posizione del primo carattere da escludere (non sarà quindi compreso). Tutti i caratteri all'esterno di questo intervallo verranno esclusi dal valore risultante per ogni riga.