Семинар Катедре за рачунарство и информатику, 18. октобар 2018.

Наредни састанак Семинара биће одржан у четвртак, 18. октобра 2018. у сали 718 Математичког факултета са почетком у 18:15.

Предавач: Бранислава Шандрих, Катедра за библиотекарство и информатику, Филолошки факултет, Универзитет у Београду

Наслов предавања: УТИЦАЈ КЛАСИФИКАЦИЈЕ ТЕКСТА НА ПРИМЕНЕ У ОБРАДИ ПРИРОДНИХ ЈЕЗИКА

Апстракт:

Биће приказана три класификациона проблема у контексту обраде природних језика: проблем валидације билингвалних парова вишечланих лексема, проблем идентификације аутора кратких текстова, као и проблем анализе осећања у кратким порукама.

Један од циљева дисертације је развијање потпуно аутоматизованог софтверског система за генерисање билингвалне доменске терминологије. Што се ресурса тиче, овај систем ослањао би се само на постојање паралелних, доменских текстова и, не и нужно, листе доменских појмова на изворном, енглеском језику. Систем би користио постојећи алат LeXimir за екстракцију доменске терминологије на циљном, српском језику, а у случају непостојања листе доменских појмова на изворном језику, користио би и постојећи алат FlexiTerm за екстракцију доменских термина из енглеског језика. Систем би имплементирао нови метод генерисања билингвалне листе доменских термина, уз аутоматску валидацију добијених парова, као и накнадно проширење примерима употребе.

Други проблем односи се на идентификацију аутора произвољног кратког текста (SMS, Viber, Twitter итд.). У овом случају, важно је моделовати садржај документа на најадекватнији начин, односно препознати скуп атрибута који најбоље карактеришу дати документ и који га дискриминишу у односу на остале документе те колекције.

Анализа ставова и расположења код кратких текстова, попут порука са различитих социјалних мрежа или клијената за размену порука, представља својеврстан изазов. Такве поруке носе значајно мању количину информација у односу на, на пример, форумске дискусије. Уочен је тренд да аутори кратких порука теже ка томе да кроз специфичну употребу знакова интерпункције, понављања слова и симбола, писањем само великим словима, употребом специјализованих скраћеница и емотограма, остварују сличност писаног са говорним језиком. На тај начин, аутори изражавају себе, своје став и своја осећања.

Детаљније информације се могу пронаћи на: http://computing.matf.bg.ac.rs


Нажалост није могуће оставити коментар.

Вести и дешавања


Активности на семинарима

све вести