Następny: O tym dokumencie ...
Rok akademicki 2003/2004
Seminarium magisterskie
Narzędzia i metody przetwarzania tekstów
dr hab. Janusz S. Bień, prof. UW
dr Krzysztof Szafran
Seminarium jest przeznaczone dla studentów informatyki
zainteresowanych różnymi aspektami przetwarzania języka naturalnego,
a także globalizacją i lokalizacją oprogramowania.
Tematyka seminarium jest bardzo szeroka, o czym świadczą tematy już
ukończonych prac magisterskich (patrz np.
http://www.mimuw.edu.pl/~jsbien/ i
http://www.mimuw.edu.pl/~kszafran/).
Niepełna lista proponowanych tematów znajduje się dalej na
niniejszej stronie (w wielu wypadkach temat już obronionej pracy
może być wykorzystany ponownie w celu np. zastosowania nowszych
narzędzi czy istotnie szerszego potraktowania problemu).
Obejmuje ona m.in. metody ścisłego opisu różnych aspektów języka
naturalnego -- w szczególności morfologii i składni języka polskiego
-- oraz wykorzystanie w praktyce dostępnych zasobów lingwistycznych
np. do różnych form automatycznej analizy tekstów. Interesują nas
również problemy tłumaczenia dokumentacji technicznej (na przykładzie
Linux Documentation Project), narzędzia do
wspomagania takiego tłumaczenia przez automatyczna analizę tekstów
oryginalnych oraz porównywanie istniejących tłumaczeń (tzw. korpusy
równoległe), tworzenie i uaktualnianie słowników terminologicznych
itp.
W naturalny sposób do zakresu seminarium należy również problematyka
reprezentacji tekstów, w tym wielojęzycznych (XML, SGML,
TEI, DocBook) oraz narzędzi do ich edycji i składu, w
szczególności konwersji między różnymi formatami (np. WVware,
LaTeX2html).
Preferowane są tematy prac magisterskich prowadzące do powstania
oprogramowania dostępnego na licencji GNU i nadającego się do
włączenia do oficjalnych dystrybucji. Najbardziej pożądaną formą
wyników programistycznych jest pakiet dystrybucyjny systemu Debian
GNU/Linux, dostarczony na samobootującej się płycie z odpowiednio
zmodyfikowanym systemem Knoppix
(http://www.knoppix.org). Stąd w tematyce seminarium mieszczą
sie zagadnienia takie, jak tworzenie pakietów dla dystrybucji
Debian GNU/Linux, bug tracking systems itp.
Konkretne tematy prac magisterskich będą formułowane w trakcie
naszych wykładów monograficznych. Uczestnicy mogą też zgłaszać swoje
własne propozycje inspirowane materiałami (lub odsyłaczami do nich),
które są dostępne m.in. na witrynie seminarium Lingwistyka
informatyczna i przetwarzanie tekstów
(http://www.orient.uw.edu.pl/~zzi/lipt/ lub
http://www.mimuw.edu.pl/~zzi/lipt/) oraz pod adresami
http://www.mimuw.edu.pl/polszczyzna/ (strona w budowie) i
ftp://ftp.mimuw.edu.pl/pub/users/polszczyzna/.
Oferujemy też tematy prac magisterskich wymagających tylko
kwalifikacji czysto informatycznych. Oto niepełna lista
przykładowych tematów tego typu (będzie ona sukcesywnie uzupełniana
o adresy internetowe i dodatkowe wyjaśnienia). Kolejność jest
nieistotna.
- Parser dla gramatyki wyrazowej. Word Grammar
(http://www.phon.ucl.ac.uk/home/dick/wg.htm, http://www.phon.ucl.ac.uk/home/dick/wgnet/wgnet.htm)
to ciekawa i obiecująca teoria lingwistyczna, niestety jak dotąd bez
zastosowań praktycznych (ostatnia próba napisania parsera była
podjęta w 1995 r. -- od tego czasu bardzo zmieniła się sama
gramatyka).
- Linuksowy (Debian) interfejs do wybranych słowników
elektronicznych. Chodzi o pakiety podobne do ydpdict
(http://www.linux.sky.pl/teksty/ydp.html,
http://www.hrw.one.pl/apt/sid/ydpdict_0.52-2_i386.deb), które
instalują wersje demonstracyjne lub robocze komercyjnych słowników
dla Windows, zwłaszcza publikowanych przez PWN i Wiedzę Powszechną.
- Mówiące słowniki dla niewidomych. Zastosowanie
Emacspeak i bezpłatnych programowych syntetyzatorów języka
angielskiego do ,,The Collaborative International Dictionary of
English'' i innych podobnych słowników.
- Mówiąca książka w języku polskim. Stworzenie narzędzi
do tworzenia publikacji w standardzie Digital Talking Book
(http://www.loc.gov/nls/z3986/, patrz także
http://www.afb.org/mlkweb.asp i
http://www.afb.org/ebook.asp), przede wszystkim metodą
konwersji z LATEX2e.
- Wielojęzyczna wersja Emacspeak. Wykorzystanie
bezpłatnych programowych syntetyzatorów mowy dla języka polskiego i
innych oraz doświadczeń Bilingual Emacspeak Project
(http://www.argv.org/ mitsugu/) i podobnych do czytania niewidomym
żródeł tekstów (LATEX) i programów -- słowa kluczowe po
angielsku, tekst po polsku itp.
- Brajlowska wersja Emacspeak. Rozszerzenie możliwości
Emacspeak o wyjście na monitor (linijkę) brajlowska i drukarke
brajlowską -- sprzęt dostępny na Wydziale.
- Imprementacja skrótów brajlowskich Józefowicza i
Saloniego. Rozszerzenie dostępnych programów obsługi linijek
brajlowskich (takich jak brltty) oraz oprogramowania do składu tzw.
czarnodruku (pakiet braille dla LATEX2e) o stosowanie
skrótów opisanych w publikacji
http://www.mimuw.edu.pl/~jsbien/node14.html. Opracowanie
programu wspomagającego uczenie się tych skrótów.
- Pełna obsługa UNICODE w edytorze Emacs.
- Analiza słownictwa dokumentacji edytora Emacs na
potrzeby wspomagania tłumaczenia jej na inne języki.
- Problemy konwersji historycznych tekstów drukowanych lub
rękopiśmiennych na wersję elektroniczną. Praca powinna
koncentrować się na wybranym słowniku lub dostępnych fragmentach
rękopisu Rzewuskiego (http://164.109.50.219/sa/pubs/SA_World/nov_dec2001/polish_p6to15.pdf).
Może dotyczyć reprezentacji tekstu w SGML/XML lub przeglądania
skanowanych tekstów w formacie DjVu.
- Koncepcja automatycznej weryfikacji wyników OCR dla
wybranego słownika historycznego polszczyzny.
- Narzędzia do przeglądania korpusu rozbiorów
gramatycznych.
- Elektroniczne wydanie wybranych prac Stanisława
leśniewskiego. Genialny polski logik, stosujący specyficzną
notację, której rozumienie należy współczesnemu czytelnikowi ułatwić
odpowiednimi środkami technicznymi.
- Metody konwersji (La)TEX -- HTML/XML (na przykładzie
gramatyki Szpakowicza i jej dokumentacji).
- Wykorzystanie XML do tworzenia złożonych publikacji
elektronicznych (na przykładzie gramatyki Świdzińskiego i jej
opisu).
- Wspomaganie pracy tłumaczy w ,,Linux Documentation
Project'' lub innym podobnym projekcie.
- Internacjonalizacja i polonizacja edytora Emacs
- Udostępnianie archiwów poczty elektronicznej za pomocą
systemu Greenstone.
- Obsługa wielojęzycznych usług internetowych (WWW,poczta,
wiadomości sieciowe) w edytorze Emacs.
- Optymalizacja interfejsu użytkownika w edytorze Emacs.
- Obsługa Unicode w narzędziach typu dvispell
- Dostęp do głębokich zasobów Internetu (na przykładzie
witryn sejmowych i PKN).
- Debugger systemu TEX. Por. Lutz Birkhahn, ,,Tdb: An
X11 TEX Debugger'', Proceedings of the Eight European
TEX Conference, September 26-30, 1994, Gdańsk, Poland, pp
91-95.
- Mapy w publikacjach elektronicznych, por.
http://gmt.soest.hawaii.edu/,
http://www.cse.unsw.edu.au/~mancilla/, także http://www.pangea.de.
- Automatyczne wykrywanie w korpusie zwrotów i terminów.
Implementacja algorytmu Yamamoto i Churcha, Computational
Linguistics 27 (1), March 2001, http://acl.ldc.upenn.edu
- Obsługa UNICODE dla języka polskiego w systemie TEX.
Rozszerzenie możliwości pakietu ucs.sty i programu
dvispell.
- EmLat Knoppix. Jednopłytowa dystrybucja GNU/Linux,
oparta na systemie Knoppix, starannie skonfigurowana do składu
tekstów, również na słabych kompouterach. Może wymagać przygotowania
własnych pakietów Debianowych dla oprogramowania niedostępnego w
oficjalnej dystrybucji.
- Adaptacja systemu KOHA do obsługi prywatnych
księgozbiorów (wypożyczanie i cytowanie w publikacjach
przygotowywanych za pomocą RefTeX), patrz
http://www.koha.org/,
http://sourceforge.net/projects/koha,
http://www.saas.nsw.edu.au/wiki/index.php?page=KohaCD.
- Rozpoznawanie języka tekstu na materiale dokumentacji
pakietów Debiana i półautomatyczne rozpoznawanie języka
przetwarzanych danych zawartych w tych pakietach aplikacji.
Nie stawiamy uczestnikom żadnych konkretnych warunków wstępnych, ale w
razie nadmiaru zgłoszeń preferowani są słuchacze naszych własnych
wykładów monograficznych
a także słuchacze wykładów XML i nowoczesne
technologie zarządzania treścią oraz
Programowanie WWW. Pożyteczna może być też znajomość
języków perl i Prolog.
Uczestnicy seminarium są zobowiązani do subskrypcji zamkniętej listy
pocztowej nmtp-l
(http://duch.mimuw.edu.pl/mailman/listinfo/nmpt-l) oraz do
przedstawiania streszczeń swoich referatów na ogólnodostępnej
moderowanej liście nmpt-ann
(http://duch.mimuw.edu.pl/mailman/listinfo/nmpt-ann). Na
listach tych można uzyskać dodatkowe informacje na temat seminarium.
Skrócona wersja niniejszego zawiadomienia jest również dostępna
w formacie PDF
i
PostScript
Następny: O tym dokumencie ...
Janusz S. Bień
2004-01-21