Korpus języka węgierskiego


Wczoraj prezentowałam stronę pomagającą w nauce węgierskiego na poziomie podstawowym, dziś z kolei pomoc naukowa dla osób bardzo zaawansowanych w kwestiach językoznawczych – węgierski korpus językowy. Na początek sama definicja tego pojęcia ze strony korpusy.net (znajdziecie tam też słowniczek terminów korpusowych, przydatny podczas pracy ze zbiorem danych tekstowych):

Korpus językowy to zbiór danych tekstowych dostępnych w formie elektronicznej, stanowiący materiał do badań. Korpusy stanowią obecnie jedno z podstawowych narzędzi w badaniach nad językiem, literaturą i kulturą. Od lat są nieodzownym narzędziem autorów słowników i podręczników do nauki języka, a coraz częściej używane są na co dzień również przez tłumaczy, nauczycieli oraz osoby pragnące pogłębić swoją znajomość języka obcego.

Na tej samej stronie znajdziemy także przekierowanie do Węgierskiego Korpusu Narodowego (HNC):

Węgierski Korpus Narodowy (HNC) to reprezentatywny korpus współczesnego języka węgierskiego. Prace nad HNC rozpoczęto w 1998 roku w Węgierskiej Akademii Nauk. Od  roku 2005 HNC zawiera również dane reprezentatywne dla języka węgierskiego spoza granic kraju, tj. ze Słowacji, Podkarpacia, Transylwanii i Wojwodiny.

Rozmiar: 187,6 milionów segmentów

Struktura: Korpus podzielony jest na 5 części uwzględniając pochodzenie geograficzne danych (Węgry, Słowacja, Podkarpacie, Transylwania, Wojwodina). Zdecydowana większość tekstów pochodzi z Węgier (71%). Wyróżniono także 5  podkorpusów  zawierających  różne gatunki tekstów (prasa, literatura, nauka, teksty oficjalne, teksty prywatne). „Teksty prywatne” to dyskusje z forów internetowych. Korpus nie zawiera danych pochodzących z języka mówionego.

Anotacja: Morfosyntaktyczna ze względu na rdzeń, część mowy i końcówkę fleksyjną. Proces anotacji został przeprowadzony automatycznie z ogólną precyzją ocenianą na 97,5%.

Dostępność: Bezpłatny dostęp online po wypełnieniu formularza rejestracji.

Opcje wyszukiwarki: Wyszukiwanie określonych słów (word-form) oraz rdzeni (stem), wyszukiwanie kolokaciji oraz zbitek dwuwyrazowych. Zaawansowane wyszukiwanie według kategorii morfosyntaktycznych: części mowy (POS) oraz kodów MSD – złożonych znaczników opisujących system fleksyjny. Możliwość zawężenia wyszukiwania do poszczególnych podkorpusów oraz wyświetlenia diagramów przedstawiających dystrybucję w podkorpusach regionalnych. Nie ma możliwości tworzenia list frekwencyjnych.

Do analizy węgierskiego korpusu można również wykorzystać aplikację Verb Argument Browser umożliwiającą analizę konstrukcji czasownikowych.

Dokumentacja: Plik pomocy dostępny ze strony projektu przedstawia podstawowe opcje wyszukiwania.

[za: http://www.korpusy.net/]