The Polish Learner Corpus – Instytut Slawistyki Zachodniej i Południowej

PoLKo – Korpus Uczniowski Języka Polskiego

PoLKo to międzynarodowy, akademicki i niekomercyjny projekt, który powstał z inicjatywy Instytutu Slawistyki Zachodniej i Południowej Uniwersytetu Warszawskiego oraz Instytutu Czeskiego Korpusu Narodowego Uniwersytetu Karola. Celem projektu jest wybudowanie pierwszego obszernego korpusu tekstów nierodzimych użytkowników języka polskiego.

Swoje korpusy uczniowskie ma już wiele języków, m.in. angielski, niemiecki, francuski, szwedzki czy czeski. Są zarówno źródłem poznania języka obcokrajowców uczących się danego języka obcego, jak i materiałem do analizy najczęstszych problemów językowych przez językoznawców glottodydaktyków. Korpusy uczniowskie mogą również służyć jako podstawa do opracowywania materiałów dydaktycznych mających na celu niwelowanie najczęstszych problemów w procesie nauki języka obcego.

Wreszcie nadszedł czas na powstanie pierwszego korpusu uczniowskiego dla języka polskiego, który ma stać się odpowiedzią na współczesne potrzeby dydaktyki języka polskiego jako obcego. Pomysł zrodził się już w październiku 2019 roku. W chwili obecnej przebiega zbiór tekstów i budowanie potrzebnej infrastruktury. Jeżeli chcieliby Państwo wspomóc niniejszy projekt tekstami swoich studentów, prosimy o kontakt z nami.

Cel projektu

Prymarnym celem projektu jest zgromadzenie pisemnych prac studentów uczących się języka polskiego jako obcego na różnych poziomach kompetencji językowej. Zgromadzony materiał ma służyć jako podstawa do analizy języka nierodzimych użytkowników polszczyzny, identyfikacji najczęstszych błędów językowych, tworzenia materiałów dydaktycznych oraz do udoskonalania współczesnych metod nauczania.

W pierwszej fazie do korpusu będziemy zbierać wszystkie możliwe dostępne teksty (zgodnie z RODO), aby umożliwić zebranie dostatecznie wielkiego materiału w jak najkrótszym czasie. W drugiej fazie projektu planujemy skupić się bardziej na zrównoważeniu całego korpusu z względu na język pierwszy (L1) i poziom językowy (ESOKJ).

Korpus jest przygotowywany w środowisku TeiTok (Jansen 2016), gdzie z łatwością można go modyfikować w trakcie jego tworzenia. W programie TeiTok są również opracowywane teksty wchodzące w skład przyszłego korpusu.

Dostępne strony projektu

Wyszukiwarka korpusowa w narzędziu TEITOK

Strona projektu na portalu Research Gate

Realizatorzy projektu

Elżbieta Kaczmarska, Instytut Slawistyki Zachodniej i Południowej UW
Adrian Jan Zasina, Instytut Czeskiego Korpusu Narodowego Uniwersytetu Karola, Praga