Rok akademicki 2005/2006 (semestr letni)



KURS INTERNETOWY

Lingwistyka informatyczna.
Problematyka określoności
    

PROWADZĄCY:
dr hab. Janusz S. Bień, prof. UW
Katedra Lingwistyki Formalnej
jsbien@uw.edu.pl

    

Rozpoczęcie kursu: 22.02.2006


Kurs jest przeznaczony dla studentów i doktorantów kierunków lingwistycznych oraz informatyki. W kursie mogą brać udział studenci zagraniczni z bierną znajomością polskiego. Niezbędna jest dobra znajomość języka angielskiego, wskazana znajomość systemu Linux, edytora Emacs i systemu redakcyjnego LaTeX.

Kurs w zasadzie trwa 15 tygodni, od 22.02.2006 do 7.06.2006, ale szczególnie aktywni uczestnicy mogą go zrealizować i zaliczyć w krótszym terminie; oprócz zajęć przez Internet kurs obejmuje również kilka tzw. godzin kontaktowych -- będzie to spotkanie, które odbędzie się pod koniec kursu w terminie uzgodnionym z uczestnikami.

Studenci zaliczający kurs jako zajęcia ogólnouniwersyteckie rejestrują się w systemie USOS (http://rejestracja.usos.uw.edu.pl/). Zaliczanie kursu w innym charakterze wymaga uzgodnienia z prowadzącym i macierzystą jednostką.

Przez lingwistykę informatyczną rozumiemy badanie języka naturalnego z punktu widzenia potrzeb i możliwości przetwarzania tekstów. Rozwój tej dziedziny umożliwia obecnie empiryczne badania bardzo ciekawego problemu określoności, wyrażanej np. w języku angielskim przez tzw. przedimki (a, an, the), a w językach słowiańskich głównie przez szyk wyrazów.

Na zajęciach omówimy wybrane publikacje na ten temat, wykorzystując jednocześnie narzędzia komputerowe jako pomoc w analizie omawianych tekstów. Punktem wyjścia będzie artykuł Massimo Poesio z 2004 r. "An empirical investigation of definiteness" (http://cswww.essex.ac.uk/Research/nle/corpora/GNOME/papers.html) i publikacje z nim związane, dostępne na witrynach autorów lub w archiwum Towarzystwa Lingwistyki Obliczeniowej (http://acl.ldc.upenn.edu/). Będą też omawiane wybrane publikacje prowadzącego.

Do analizy tekstów będzie służyć przede wszystkim program "kolokacje" (http://www.mimuw.edu.pl/polszczyzna/kolokacje/); pozwala on tworzyć listy alfabetyczne i frekwencyjne słów tekstu, tzw. konkordancje czyli wykazy słów w kontekście, a także - jak wskazuje na to jego nazwa - pozwala automatycznie wykrywać tzw. kolokacje.

Innym istotnie wykorzystywanym narzędziem będzie system redakcyjny (authoring system) LaTeX wspomagany edytorem Emacs, za pomocą którego uczestnicy będą przygotowywać swoje teksty. Oprogramowanie to można znaleźć m.in. w praktycznie wszystkich dystrybucjach systemu Linux.

Kurs będzie miał charakter seminaryjny, dominować będzie praca własna uczestników.


Prowadzący jest informatykiem i lingwistą. Do 1998 r. pracował w Instytucie Informatyki UW, gdzie w roku 1978 obronił rozprawę doktorską pod tytułem Wielośrodowiskowy model języka naturalnego. W latach 1995-1997 kierował interdyscyplinarnym zespołem UW uczestniczącym w międzynarodowym projekcie STEEL (Specialised Translation/foreign language understanding tools for Eastern Europe Languages -- specjalistyczne narzędzia do tłumaczenia i rozumienia tekstów obcojęzycznych dla języków Europy Wschodniej). Zainicjował prace nad analizatorem syntaktycznym języka polskiego, które doprowadziły do stworzenia parsera Świgra. Dzięki temu możliwe jest podjęcie prac nad automatyczną analizą semantyczną języka polskiego.


Skrócona wersja niniejszego zawiadomienia jest również dostępna w formacie PDF i PostScript




Janusz S. Bień 2006-01-08