29 gru Lingwistyka komputerowa coraz popularniejsza
Ostatnie lata to bardzo szybki rozwój technologii cyfrowych, które służą do przetwarzania języka naturalnego. Mają ona zastosowanie w wielu dziedzinach życia człowieka – zaczynając choćby od popularnych usług automatycznego tłumaczenia na języki obce czy też autokorekty tekstu, a kończąc na rozmowie z czatbotami.
Wzrasta także użycie narzędzi opartych na cyfrowej technologii przetwarzania języka w nauce i biznesie. Szczególnie intensywny rozwój zaobserwowano w branżach związanych z obsługą klienta. Czatboty już nie tylko informują nas o stanie realizacji zamówienia czy też odpowiadają na nasze pytania w trakcie zakupów, ale także dzwonią do nas i próbują nakłonić do kupna określonej usługi. Programy te, coraz bardziej upodabniają się do człowieka.
Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB) także zintensyfikował rozwój projektów z zakresu lingwistyki komputerowej. Warto wspomnieć chociażby o Jednolitym Systemie Antyplagiatowym (JSA), z którego korzystają wszyscy promotorzy prac dyplomowych w Polsce, Annobocie, który odczytuje ludzkie emocje, czy też narzędziu do wykrywania niedozwolonych zapisów w umowach, które instytut planuje opracować dla UOKiK w 2022 r. A to tylko niektóre z wielu innowacyjnych projektów OPI PIB.
W celu przedstawienia w przystępny sposób tematyki lingwistyki komputerowej i zaprezentowania jej zastosowania w wielu dziedzinach życia człowieka, instytut opublikował w ramach Akademii OPI PIB kolejny materiał ekspercki. Dr inż. Marcin Mirończuk prezentuje w nim najważniejsze zagadnienia oraz omawia ciekawe projekty związane z lingwistyką komputerową.
Nie tylko tłumaczenia i czatboty
Naukowcy z Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB) w swojej pracy kierują się dwoma aspektami lingwistyki komputerowej – naukowym i technologicznym. Zwłaszcza ten drugi jest interesujący dla użytkowników, gdyż skupia się na poszczególnych komponentach systemów do przetwarzania mowy oraz pisma, najczęściej w celu ich wdrożenia. W dzisiejszych czasach jesteśmy nimi otoczeni, ale najczęściej nie zdajemy sobie z tego sprawy. Na takich komponentach bazują narzędzia do odpowiedzi głosowych stosowane w telefonach komórkowych, aplikacje zamieniające mowę na pismo, jak i popularne wyszukiwarki internetowe. Oczywiście na mechanizmach przetwarzania języka naturalnego oparte są też wspomniane wcześniej translatory, mechanizmy i systemy dialogowe w postaci chatbotów, które efektywnie wspierają pracę człowieka. Zastosowanie lingwistyki komputerowej widoczne jest także w przypadku narzędzi opracowujących streszczenia, odpowiadających na pytania, automatycznie generujących tekst, rozpoznających emocje czy też służących do klasyfikacji określonych treści. Spektrum wykorzystania lingwistyki komputerowej jest bardzo szerokie i dane systemy są powszechnie stosowane na całym świecie.
– Intensywny rozwój narzędzi do automatycznego przetwarzania języka naturalnego to bez wątpienia w ostatnich latach jeden z zauważalnych trendów w branży IT. Prace nad tymi systemami prowadzone są przez wiele ośrodków z całego świata. Takie produkty jak inteligentni asystenci głosowi czy chatboty są coraz bardziej popularne – mówi dr inż. Jarosław Protasiewicz, dyrektor Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB). – W naszym instytucie prowadzimy coraz więcej prac związanych z lingwistyką komputerową i nie są to tylko projekty badawcze. Opracowujemy i wdrażamy nowe narzędzia, które efektywnie wspierają działalność człowieka. Nasz Annobot potrafi rozróżnić emocje na podstawie tekstu, JSA odnajduje plagiaty w pracach dyplomowych, a nowy system, który planujemy przygotować dla UOKiK będzie wyszukiwał niedozwolone zapisy w umowach. Zakres naszych prac jest bardzo szeroki i duży nacisk kładziemy na funkcjonalność naszych produktów – dodaje dyrektor OPI PIB.
Wykrywanie innowacji i przekształcanie tekstu na sygnały biologiczne
W poprzednich latach eksperci OPI PIB opracowali i wdrożyli narzędzia oparte na lingwistyce komputerowej, które wykorzystują proces odpowiedniej klasyfikacji tekstów. Tak właśnie powstał system Inventorum do wykrywania innowacji w sieci internetowej i następnie udostępniania ich przedsiębiorcom, którzy mogą być nimi zainteresowani. Na podobnym mechanizmie oparte jest także narzędzie do klasyfikacji wielojęzycznych artykułów naukowych, które skutecznie ułatwia pracę badaczom z różnych dziedzin.
– Ciekawy projekt zrealizowaliśmy także wykorzystując mechanizm ekstrakcji danych z nieuporządkowanych tekstów. Opracowaliśmy system analizy raportów z akcji realizowanych przez Państwową Straż Pożarną. Dzięki niemu z dużej ilości nieuporządkowanych danych tekstowych, w szybki i łatwy sposób otrzymujemy informacje m.in. o miejscu wypadku, rodzaju zdarzenia, powstałych zniszczeniach czy też lokalizacji i stanie technicznym hydrantu przeciwpożarowego. Ciekawe prace realizują także inni eksperci z OPI PIB. Czerpią oni inspirację z naturalnie występujących systemów biologicznych. Przekształcają tekst pisany w sygnały odpowiadające mechanizmom zachodzącym w mózgu człowieka, tworzą tzw. sieci impulsowe. One następnie są wykorzystywane do opracowania systemów rozpoznawania i klasyfikacji odpowiednich tekstów – mówi dr inż. Marcin Mirończuk z Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB.
To tylko wybrane inicjatywy OPI PIB związane z lingwistyką komputerową.
Więcej na ten temat każdy znajdzie w najnowszym odcinku Akademii OPI PIB na kanale YouTube instytutu – https://youtu.be/Bll0S20ntr8.
Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB)
Interdyscyplinarny instytut naukowy i lider w tworzeniu oprogramowania systemów informatycznych dla polskiej nauki i szkolnictwa wyższego. Posiada wiedzę o prawie każdym polskim naukowcu, jego projektach czy aparaturze badawczej. Gromadzi, analizuje i tworzy informacje o sektorze badań i rozwoju, wpływając tym samym na kształt polskiej polityki naukowej. OPI PIB tworzy inteligentne systemy informatyczne dla sektora publicznego oraz wykorzystywane w celach komercyjnych.
Główne obszary badań prowadzonych w instytucie to: algorytmy uczenia maszynowego, algorytmy przetwarzania języka naturalnego, analiza sentymentu, sieci neuronowe, odkrywanie wiedzy z danych tekstowych, interakcja człowiek-komputer (HCI), systemy komputerowego wspomagania decyzji, sztuczna inteligencja.
W działalności badawczej OPI PIB stawia na interdyscyplinarność. Instytut prowadzi badania w siedmiu laboratoriach skupiających specjalistów z wielu dziedzin. Poza ekspertami od technologii informatycznych w zespole OPI PIB pracują ekonomiści, socjologowie, prawnicy, statystycy i psychologowie. Konfrontacja różnych podejść naukowych sprzyja dogłębnej analizie zagadnień badawczych i napędza innowacyjność.
www.opi.org.pl
29 grudnia 2021 r.