Università degli Studi di Napoli Federico II
Computer Science
Bachelor's degree
AutoreGiuseppe Luongo
Progettazione e sviluppo di un tool di data augmentation a supporto del training di reti neurali
Università degli Studi di Napoli Federico II
Computer Science
Bachelor's degree
AutoreGiuseppe Luongo
Alessandro Serrapica
Prof. Del Riccio
Abstract
Lo scopo di tale tool è quello di creare un dataset affidabile, al fine di migliorare l’addestramento di un modello di machine learning, migliorando l’accurratezza delle previsioni. In tal senso si è scelto di operare su due caratteristiche fondamentali: la qualità e la quantità. La qualità, permette di costruire un dataset, contenente i campioni più rappresentativi in termini di informazioni, applicando il concetto di entropia sulla quantità di informazione contenuta in un certo dato. La seconda caratteristica, la quantità, permette di costruire un dataset contentente un maggior numeri di campioni, in modo tale da fornire al modello più esempi da cui apprendere. Così facendo, si forniscono campioni che simulano possibili scenari riscontrabili in contesti applicativi. Per questo si è scelto di applicare operazioni di data augmentation.
Obiettivo Tesi
Progettazione e sviluppo di un tool di data augmentation a supporto del training per le reti neurali, Keras, OpenCv, SIFT, Canny
Metodologia di ricerca
Il lavoro di tesi ha lo scopo di sviluppare un tool che ha l’obiettivo primario di costruire un dataset qualitativamente e quantitativamente affidabile. In tal senso si è scelto di operare applicando le operazioni di data augmentation, al fine di aumentare i campioni presenti nel dataset, e applicando delle operazioni di filtraggio, mediante l’entropia, al fine di rendere altamente informativo il dataset. Così facendo, si migliora l’addestramento della rete neurale e di conseguenza si migliorano i suoi risultati.
Conclusioni
Il tool permette di costruire un dataset di immagini qualitativo e quantitativo, mediante le funzioni implementate per fare data augmentation, al fine di migliorare il training di una rete neurale e le sue performance.
Sviluppi futuri
Automatizzazione del data labeling e image segmentation meiante CNN o clustering