Contribute Media
A thank you to everyone who makes this possible: Read More

Automatická korekcia písaného prejavu prirodzeného jazyka s využitím znakových a kontextuálnych modelov

Description

Banka disponuje veľkým objemom neštruktúrovaných dát. Na ich použitie je potrebné tieto dáta očistiť. Preto vyvíjame modul na korekciu gramatických chýb a preklepov, ktorý sa skladá z troch hlavých častí. Prvou časťou je takzvaný "re-diakritizátor" zameraný na obnovenie diakritiky v slove bez nej. Druhá časť je znakový model SymSpell. Ten navrhuje možné opravy slova na základe Damerau-Levenshtein metriky. Tretia časť využíva známy model Word2Vec na pochopenie kontextuálnych závislostí slov v relevantnom dokumente. Vývoj modulu nie je ešte ukončený, avšak subjektívne posúdenie modulu indikuje použiteľnosť v špecifickom bankovom prostredí.

Details

Improve this page