Description
Generazione di file PDF con Transformers per affinamento dell’object detection in documenti testuali - PyCon Italia 2022
De-costruire un file PDF è un task di sempre maggior interesse; questo talk mostrerà come sfruttare l’informazione non strutturata dei dati per la generazione di PDF sintetici da utilizzare in sistemi di apprendimento più controllabili, con l’uso di Transformers ed NLP su dataset ristretti di PDF. Il Portable Document Format (meglio noto come PDF) è il formato di file più utilizzato al mondo. All’interno di un file PDF possiamo trovare un’ampia gamma di elementi diversi, non solo semplice testo: elementi grafici come immagini ed algoritmi, tabelle, didascalie, addirittura oggetti interattivi o firme digitali. La decostruzione di un file PDF è dunque un task difficile, per l’alto livello di eterogeneità dei dati e perché il formato stesso non è stato pensato per fornire in modo strutturato la disposizione delle diverse entità che costituiscono le pagine dei documenti. Tuttavia, questo tipo di analisi sta attirando sempre più l’interesse di ricercatori e aziende, perché le informazioni sul layout e i contenuti dei file di testo possono essere utilizzate per aumentare i dataset esistenti per ottenere miglioramenti qualitativi nell’espletamento delle comuni operazioni di data mining, sfruttando le tecniche di deep learning più innovative.
Questo talk, descrive un sistema che, partendo da un insieme ristretto di file PDF, è in grado di generarne un numero arbitrariamente grande per costituire un dataset di immagini da utilizzare per addestrare reti neurali a svolgere le classiche operazioni di object detection e recognition; per fare questo, sarà mostrata una pipeline capace di annotare automaticamente il contenuto di un PDF; dopodiché, sarà spiegato come utilizzare le annotazioni precedentemente ottenute come input di una architettura a Transformers per generare layout artificiali di documenti; infine, si passerà all’effettiva sintesi dei PDF: verrà indicato come popolare le parti testuali dei layout generati grazie a tecniche di NLP (Natural Language Processing), come popolare immagini, tabelle e formule e, infine, come utilizzare il dataset sintetico così ottenuto.
Speaker: Lorenzo Pisaneschi