Augmented data: cosa sono e a che serve la data augmentation

Augmented data: cosa sono e a che serve la data augmentation

Gli augmented data sono i “dati arricchiti” e derivano dalla data augmentation.

Data augmentation si traduce, letteralmente, con “aumento dei dati”. Si tratta, in sostanza, di un insieme di tecniche che amplificano le disponibilità del dataset, al di là della raccolta effettiva di nuovi elementi.

La data augmentation applica ai dati già esistenti dei cambiamenti casuali controllati, creando delle copie modificate.

Il suo uso è relativo all’apprendimento automatico delle reti neurali artificiali, che accumulano informazioni sempre più precise con l’aumentare in volume del dataset di training disponibili.

Con “Augmented Analytics” – termine coniato dalla società di ricerca Gartner con la pubblicazione del paper “Augmented Analytics is the Future of Data and Analytics” nel luglio 2017 – si definisce un approccio che automatizza gli insight attraverso lo sfruttamento dell’apprendimento automatico, la comprensione e l’elaborazione di linguaggio naturale.

Il machine learning, basato su algoritmi artificiali che riconoscono dai dati a disposizione pattern ricorrenti, è tra le principali tecniche di intelligenza artificiale che imitano facoltà umane.

Un sottoinsieme del machine learning è il deep learning, che si basa su reti neurali artificiali capaci di rappresentare, analizare e “comprendere” il linguaggio scritto e parlato (Natural Language Processing).

La data augmentation perfeziona il training delle reti neurali, e ciò mette a disposizione anche delle PMI l’automazione nel data management.

Come si differenziano i dati arricchiti e a cosa servono

Ci possono essere due tipologie di augmented data:

  • Copie leggermente modificate di dati già esistenti
  • Dati sintetici realizzati a partire dal dataset iniziale.

Nella prima situazione vengono considerate augmented data le immagini create sulla base di cambiamenti casuali controllati come rotazioni, capovolgimenti, modifiche del colore, iniezione di rumore, tagli.

Per la seconda invece, nel caso in cui il dataset sia ancora troppo ristretto, le immagini, i dati “parlati”, i segnali biologici sintetici “nuovi” creati con l’utilizzo di Generative Adversarial Network vengono considerati augmented data.

Una Rete Generativa Avversaria è una rete neurale artificiale, formata da:

  • una parte “generativa
  • una parte “discriminativa

Queste due sono in costante competizione tra loro. Gli algoritmi di generazione forniscono dati sintetici agli algoritmi di discriminazione, questi ultimi devono essere capaci di distinguerli dai dati reali, forniti in apprendimento.

Le due sezioni vengono addestrate in alternativa: nel momento in cui la parte “discriminativa” non riesce a distinguere più, vuol dire che quella generativa ha acquisito la capacità di associare correttamente le “etichette” ai dati, dunque è in grado di riconoscerli con efficacia e precisione.

Gli augmented data sono usati nell’ambito della risoluzione dell’overfitting, il sovradattamento del modello statistico al cluster di dati che viene osservato. Questo succede nel momento in cui il modello ha troppi parametri in confronto alle osservazioni eseguite.

Organizzata per individuare gli schemi ricorrenti partendo dai dati proposti, la rete neurale artificiale “impara a memoria” quello che osserva, ma non è in grado di riconoscere una regola generalizzata, dunque sbaglia facilmente su schemi non ancora visionati.

E’ necessario dunque ampliare il dataset di addestramento, attraverso l’aumento dei dati a disposizione.

Quali sono gli obiettivi e i vantaggi dell’augmented data management

L’Augmented Analytics permette di far crescere la capacità di apprendimento delle reti neurali artificiali, quindi di rendere automatiche le procedure di data management.

Questo attraverso l’analisi di miliardi di combinazioni. L’obiettivo è quello di trovare strumenti di analisi che interagiscano con gli umani grazie al linguaggio naturale, senza mediazioni, individuando in autonomia i dati più appropriati a dare risposte esaustive e pertinenti.

L’Augmented Data Management utilizza l’Augmented Analytics al fine di creare processi sempre più in linea con gli obiettivi aziendali, in questo modo viene semplificata la creazione di strategie efficaci e concrete.

L’Augmented Analytics porta l’Augmented Data Management ad avere un approccio molto diverso dal data management tradizionale, il quale richiede il coinvolgimento e il coordinamento di diverse figure aziendali, con relativi costi e tempistiche.

In conclusione, l’Augmented Data Management consente di:

  • automatizzare progressivamente la gestione dei dati aziendali;
  • migliorare l’accesso ai dati da parte di chi ha meno competenze tecniche;
  • ottimizzare il tempo dei data scientist, ad oggi impiegato per la maggior parte nella pulizia del dato, per dedicarlo a compiti più strategici.

Ampliare il dataset con varie tecniche di Augmentation vuol dire far crescere i metadati dell’organizzazione: l’Augmented Data Quality automatizza il controllo qualità dei dati e risolve eventuali anomalie sulla base di policy prestabilite.

L’Augmented Data Management viene sfruttato dunque nella realizzazione di piattaforme soprattutto nelle seguenti branche del marketing:

  • marketing predittivo, con piattaforme che scovano cluster di utenti propensi all’acquisto;
  • posizionamento sui motori di ricerca, con l’analisi di trend e delle anomalie competitive;
  • customer satisfaction, attraverso lo studio delle richieste vocali sugli smart speaker o l’adattamento automatico delle notizie su un magazine sulla base dei comportamenti precedenti.

Non mancano infine esplorazioni in ambito medicale, con la data augmentation usata per migliorare il riconoscimento delle emozioni nell’elettroencefalografia.

 

Fonte: https://www.bigdata4innovation.it/big-data/augmented-data/