Dati sintetici, la nuova frontiera dell’intelligenza artificiale: opportunità e limiti

Dati sintetici, la nuova frontiera dell’intelligenza artificiale: opportunità e limiti

I dati elaborati dalle tecnologie di intelligenza artificiale attraverso un processo di imitazione del mondo reale vengono chiamati dati sintetici. Questi stanno ottenendo un’appetibilità sempre maggiore, seppur meno considerati di altre tipologie di dati, come i dati reali.

Per capire le motivazioni di questo interesse sempre maggiore, bisogna sottolineare che i dati reali hanno difficoltà se vengono disordinati o riempiti di distorsioni e le nuove regole relative al GDPR – sempre più importanti – rendono talvolta complicata la loro elaborazione. I dati sintetici invece restano intonsi e possono essere adoperati per ogni tipologia di dataset.

Il limite di questi dati sta nel fatto che devono necessariamente rispecchiare in modo adeguato la realtà, in caso contrario rischierebbero di ereditare gli stessi problemi dei dati reali.

Anche nei dati la qualità batte la quantità

Nel corso del tempo, i professionisti nel mondo dell’AI hanno appreso che i good data, ovvero dati di qualità, hanno sempre la meglio sui big data, cioè i dati di grande quantità. Se i dati sono infatti esatti e vengono classificati in maniera corretta, hanno la capacità di migliorare le performance di un sistema di intelligenza artificiale fino a dieci volte tanto rispetto a maggiori quantità di dati inesatti, anche se trattati con algoritmi più avanzati.

Ciò posto, per riuscire a completare questo tipo di sperimentazione occorre raccogliere dati nel mondo reale, e questa è un’operazione costosa, sia a livello di investimento che di tempo.

La nostra privacy è davvero al sicuro?

Posta questa panoramica sui dati sintetici, sorge spontanea una domanda: la nostra privacy è davvero al sicuro?

Circa la protezione dei dati personali infatti, argomento sempre più dibattuto, il fatto che stiamo parlando di dati sintetici non sta a significare che non contengano informazioni potenzialmente importanti per persone esistenti.

Per fare un esempio, alcune metodologie volte alla creazione di dati sintetici hanno messo in mostra la capacità di riprodurre ad una distanza ravvicinata immagini e testi che sono presenti nei training data, dando così una possibilità più che mai concreta di risalire all’identità della persona reale.

Chiariamoci, questo aspetto potrebbe anche andare bene per tutte quelle realtà produttrici di dati sintetici i quali non hanno come fine quello di nascondere l’identità delle persone che hanno dato il loro consenso ad essere sottoposte alla scansione. Al contrario però, sarebbe un serio problema per le organizzazioni che mettono sul mercato soluzioni per proteggere, ad esempio, le informazioni finanziarie o l’identità di alcune specifiche categorie di clienti.

Riguardo a questo aspetto, alcuni ricercatori credono che la combinazione di due tecniche abbinate ai dati sintetici (privacy differenziale e reti generative avversarie) sia in grado di generare una robusta protezione dei dati personali degli utenti. D’altro canto, molti scettici hanno la preoccupazione che questa sfumatura possa perdersi nel parlato del “marketing dei fornitori di dati sintetici”, poco disponibili a cercare di capire quali siano le tecniche usate in un dato momento.

Conclusioni

Il dibattito riguardo quanto appena discusso è ancora accesso, tuttavia ad oggi alcune prove sostengono il fatto che i dati sintetici siano in grado di attenuare in modo efficace la distorsione dei sistemi di intelligenza artificiale. Per l’appunto infatti, l’attività di estrapolazione di nuovi dati da un dataset esistente, che però risulta essere distorto, non è necessariamente in grado di produrre dei dati che possano essere più rappresentativi.

Ad esempio, se un’organizzazione che offre servizi relativi alle carte di credito stesse tentando di implementare un algoritmo di intelligenza artificiale per stilare una valutazione dei potenziali mutuatari, questo non sarebbe comunque in grado di eliminare tutte le possibili discriminazioni in relazione alle persone di etnia caucasica e a quelle di etnia afroamericana.

Giusto per rendere il tutto un po’ più complicato, le prime ricerche hanno fatto vedere come, in alcuni casi, potrebbe anche non essere possibile riuscire ad avere un’intelligenza artificiale equa partendo dai dati sintetici. A tal proposito, alcuni ricercatori hanno scoperto di non essere stati capaci di generare un accurato sistema di AI applicata al campo medico quando hanno sperimentato la creazione un dataset “sintetico” differente attraverso la combinazione di privacy differenziale e reti generative avversarie. Nulla di questo, però, sta a significare che i dati sintetici non dovrebbero essere utilizzati tout court. In effetti, potrebbe ad un certo punto diventare necessario.

Sull’altro versante, non è detto che dei dataset perfettamente bilanciati riescano a tradursi in automatico in programmi di intelligenza artificiale perfettamente equi.

Fonte:  https://www.agendadigitale.eu/sicurezza/privacy/i-dati-sintetici-nuova-frontiera-dellintelligenza-artificiale-opportunita-e-limiti/