Business Island
Datalabs Notebook permette, tramite l'utilizzo di un'estensione ad hoc, di accedere ai dati contenuti nel datalake, rispettando la visibilità concessa all'utente, e di creare nuovi dataset all'interno delle Business Island.
Accesso dataset esistenti
Selezione Dataset esistenti
Tramite il tab Source è possibile caricare i dataset di interesse per l'utente per poterli utilizzare come input nelle elaborazioni all'interno del notebook.
Al click su Load Dataset verrà presentata una modale dove sarà necessario inserire:
- la Business Island, che contiene i dataset desiderati;
- la Hive Connection, per accedere al dataset;
- i dataset da caricare all'interno del notebook.
Quale Hive Connection devo utilizzare?
Nel caso non si abbia indicazione di quale Hive Connection utilizzare, è possibile selezionarne una qualsiasi
Posso utilizzare Dataset appartenenti a Business Island differenti?
Certamente! Basta cambiare la Business Island di partenza e selezionare i dataset associati
Verifica caricamento dataset
Una volta salvati i dataset da caricare, verrà avviato in background il caricamento dei data source.
Sarà possibile verificare lo stato del caricamento dell'icona vicino al play nella parte bassa dell'estensione:
- spinner durante il caricamento dei dataset
- verde nel caso il caricamento sia andato a buon fine
- rossa in caso di eventuali errori Cliccando sull'icona sarà possibile visualizzare i log in entrambi i casi.
Utilizzo dei dataset caricati
Una volta caricati i dataset, per ognuno verrà indicato il nome della variabile da utilizzare per accedere al dataframe associato.
Salvataggio di un nuovo dataset
Creazione Sink
Tramite il tab Sink è possibile creare un nuovo dataset all'interno di una Business Island nel quale salvare l'output delle elaborazioni del Notebook.
Al click su Create Sink verrà presentata una modale dove sarà necessario inserire:
- la Business Island, dove verrà salvato il sink;
- la Hive Connection, necessaria per accedere ad Hive;
- Sink Name, il nome del sink, che dovrà essere univoco all'interno della piattaforma;
- Output type, il formato di output tra quelli supportati (Avro, Parquet, Orc, Textfile)
- La modalità di scrittura: Overwrite, per sovrascrivere il sink ad ogni esecuzione; Append, per aggiungere nuovi dati al sink creato.
- Clean table and schema: un flag opzionale per eliminare dati e metadati del sink dal database applicativo e da Hive prima di eseguirne il popolamento.
- In caso di selezione della modalità di scrittura Overwrite sarà possibile impostare il flag (opzionale) Partition dataset, che permette di impostare una o più colonne di partizione in una sezione dedicata.
Se cambio la struttura di un sink in append?
Nel caso venga modificata la struttura del sink (es. numero di colonne) è necessario modificare la modalità di scrittura in overwrite e ricrearlo, in modo da modificarne la struttura. Successivamente si può ripristinare la modalità append
Sink partizionato
In caso di impostazione del flag Partition dataset il pulsante "Select" cambierà in "Continue" e cliccando su di esso verrà mostrata la sezione dedicata alla configurazione delle colonne di partizione.
La sezione presenta una casella di testo dove inserire i nomi delle colonne che si desidera impostare come partizioni, un pulsante Add tramite il quale confermare l'aggiunta del nome inserito nella casella di testo e una sezione sottostante che mostra l'elenco delle colonne di partizione impostate fino a quel momento. Per ogni elemento in questa sezione è possibile cliccare sull'icona x per rimuoverlo dall'elenco delle colonne di partizione impostate.
Inizializzazione Sink
Una volta impostati i sink, per ognuno verrà indicato il nome della variabile da utilizzare poter essere inizializzati all'interno del notebook. Ogni sink dovrà essere associato ad un Dataframe per poter essere salvato all'interno della piattaforma.
Salvataggio Sink
Una volta associato il sink al dataframe che si vuole salvare, è necessario premere sul tasto Play all'interno dell'estensione per poter avviare il processo si salvataggio all'interno della piattaforma Datalabs. Questo processo permetterà di utilizzare il sink appena salvato all'interno degli altri moduli della piattaforma.
Verifica salvataggio Sink
Una volta avviato il processo di salvataggio sink, sarà possibile verificare lo stato del salvataggio dell'icona vicino al play nella parte bassa dell'estensione:
- spinner durante il salvataggio dei sink
- verde nel caso il salvataggio sia andato a buon fine
- rossa in caso di eventuali errori Cliccando sull'icona sarà possibile visualizzare i log in entrambi i casi.