Seminar Katedre za računarstvo i informatiku, 18. oktobar 2018.

Naredni sastanak Seminara biće održan u četvrtak, 18. oktobra 2018. u sali 718 Matematičkog fakulteta sa početkom u 18:15.

Predavač: Branislava Šandrih, Katedra za bibliotekarstvo i informatiku, Filološki fakultet, Univerzitet u Beogradu

Naslov predavanja: UTICAJ KLASIFIKACIJE TEKSTA NA PRIMENE U OBRADI PRIRODNIH JEZIKA

Apstrakt:

Biće prikazana tri klasifikaciona problema u kontekstu obrade prirodnih jezika: problem validacije bilingvalnih parova višečlanih leksema, problem identifikacije autora kratkih tekstova, kao i problem analize osećanja u kratkim porukama.

Jedan od ciljeva disertacije je razvijanje potpuno automatizovanog softverskog sistema za generisanje bilingvalne domenske terminologije. Što se resursa tiče, ovaj sistem oslanjao bi se samo na postojanje paralelnih, domenskih tekstova i, ne i nužno, liste domenskih pojmova na izvornom, engleskom jeziku. Sistem bi koristio postojeći alat LeXimir za ekstrakciju domenske terminologije na ciljnom, srpskom jeziku, a u slučaju nepostojanja liste domenskih pojmova na izvornom jeziku, koristio bi i postojeći alat FlexiTerm za ekstrakciju domenskih termina iz engleskog jezika. Sistem bi implementirao novi metod generisanja bilingvalne liste domenskih termina, uz automatsku validaciju dobijenih parova, kao i naknadno proširenje primerima upotrebe.

Drugi problem odnosi se na identifikaciju autora proizvoljnog kratkog teksta (SMS, Viber, Twitter itd.). U ovom slučaju, važno je modelovati sadržaj dokumenta na najadekvatniji način, odnosno prepoznati skup atributa koji najbolje karakterišu dati dokument i koji ga diskriminišu u odnosu na ostale dokumente te kolekcije.

Analiza stavova i raspoloženja kod kratkih tekstova, poput poruka sa različitih socijalnih mreža ili klijenata za razmenu poruka, predstavlja svojevrstan izazov. Takve poruke nose značajno manju količinu informacija u odnosu na, na primer, forumske diskusije. Uočen je trend da autori kratkih poruka teže ka tome da kroz specifičnu upotrebu znakova interpunkcije, ponavljanja slova i simbola, pisanjem samo velikim slovima, upotrebom specijalizovanih skraćenica i emotograma, ostvaruju sličnost pisanog sa govornim jezikom. Na taj način, autori izražavaju sebe, svoje stav i svoja osećanja.

Detaljnije informacije se mogu pronaći na: http://computing.matf.bg.ac.rs



Nažalost nije moguće ostaviti komentar.