Vai al contenuto

Business Island

Datalabs Notebook permette, tramite l'utilizzo di un'estensione ad hoc, di accedere ai dati contenuti nel datalake, rispettando la visibilità concessa all'utente, e di creare nuovi dataset all'interno delle Business Island.

Datalabs Notebook

Estensione nella sezione laterale

Accesso dataset esistenti

Selezione Dataset esistenti

Tramite il tab Source è possibile caricare i dataset di interesse per l'utente per poterli utilizzare come input nelle elaborazioni all'interno del notebook.

Datalabs Notebook

Selezione Dataset

Al click su Load Dataset verrà presentata una modale dove sarà necessario inserire:

  • la Business Island, che contiene i dataset desiderati;
  • la Hive Connection, per accedere al dataset;
  • i dataset da caricare all'interno del notebook.

Quale Hive Connection devo utilizzare?

Nel caso non si abbia indicazione di quale Hive Connection utilizzare, è possibile selezionarne una qualsiasi

Posso utilizzare Dataset appartenenti a Business Island differenti?

Certamente! Basta cambiare la Business Island di partenza e selezionare i dataset associati

Verifica caricamento dataset

Una volta salvati i dataset da caricare, verrà avviato in background il caricamento dei data source.

Datalabs Notebook

Verifica caricamento dataset

Sarà possibile verificare lo stato del caricamento dell'icona vicino al play nella parte bassa dell'estensione:

  • spinner durante il caricamento dei dataset
  • verde nel caso il caricamento sia andato a buon fine
  • rossa in caso di eventuali errori Cliccando sull'icona sarà possibile visualizzare i log in entrambi i casi.

Utilizzo dei dataset caricati

Una volta caricati i dataset, per ognuno verrà indicato il nome della variabile da utilizzare per accedere al dataframe associato.

Datalabs Notebook

Nome dataframe da utilizzare

Salvataggio di un nuovo dataset

Creazione Sink

Tramite il tab Sink è possibile creare un nuovo dataset all'interno di una Business Island nel quale salvare l'output delle elaborazioni del Notebook.

Datalabs Notebook

Creazione Sink

Al click su Create Sink verrà presentata una modale dove sarà necessario inserire:

  • la Business Island, dove verrà salvato il sink;
  • la Hive Connection, necessaria per accedere ad Hive;
  • Sink Name, il nome del sink, che dovrà essere univoco all'interno della piattaforma;
  • Output type, il formato di output tra quelli supportati (Avro, Parquet, Orc, Textfile)
  • La modalità di scrittura: Overwrite, per sovrascrivere il sink ad ogni esecuzione; Append, per aggiungere nuovi dati al sink creato.
  • Clean table and schema: un flag opzionale per eliminare dati e metadati del sink dal database applicativo e da Hive prima di eseguirne il popolamento.
  • In caso di selezione della modalità di scrittura Overwrite sarà possibile impostare il flag (opzionale) Partition dataset, che permette di impostare una o più colonne di partizione in una sezione dedicata.

Se cambio la struttura di un sink in append?

Nel caso venga modificata la struttura del sink (es. numero di colonne) è necessario modificare la modalità di scrittura in overwrite e ricrearlo, in modo da modificarne la struttura. Successivamente si può ripristinare la modalità append

Sink partizionato

In caso di impostazione del flag Partition dataset il pulsante "Select" cambierà in "Continue" e cliccando su di esso verrà mostrata la sezione dedicata alla configurazione delle colonne di partizione.

Datalabs Notebook

Impostazione di un sink partizionato

La sezione presenta una casella di testo dove inserire i nomi delle colonne che si desidera impostare come partizioni, un pulsante Add tramite il quale confermare l'aggiunta del nome inserito nella casella di testo e una sezione sottostante che mostra l'elenco delle colonne di partizione impostate fino a quel momento. Per ogni elemento in questa sezione è possibile cliccare sull'icona x per rimuoverlo dall'elenco delle colonne di partizione impostate.

Inizializzazione Sink

Una volta impostati i sink, per ognuno verrà indicato il nome della variabile da utilizzare poter essere inizializzati all'interno del notebook. Ogni sink dovrà essere associato ad un Dataframe per poter essere salvato all'interno della piattaforma.

Datalabs Notebook

Inizializzazione Sink

Salvataggio Sink

Una volta associato il sink al dataframe che si vuole salvare, è necessario premere sul tasto Play all'interno dell'estensione per poter avviare il processo si salvataggio all'interno della piattaforma Datalabs. Questo processo permetterà di utilizzare il sink appena salvato all'interno degli altri moduli della piattaforma.

Datalabs Notebook

Salvataggio Sink

Verifica salvataggio Sink

Datalabs Notebook

Verifica caricamento dataset

Una volta avviato il processo di salvataggio sink, sarà possibile verificare lo stato del salvataggio dell'icona vicino al play nella parte bassa dell'estensione:

  • spinner durante il salvataggio dei sink
  • verde nel caso il salvataggio sia andato a buon fine
  • rossa in caso di eventuali errori Cliccando sull'icona sarà possibile visualizzare i log in entrambi i casi.