Następny: O tym dokumencie ...
Rok akademicki 2004/2005
Seminarium jest przeznaczone dla studentów informatyki
zainteresowanych różnymi aspektami przetwarzania języka naturalnego,
a także globalizacją i lokalizacją oprogramowania.
Na indywidualnie
ustalonych zasadach mogą w nim również uczestniczyć zainteresowani
humaniści.
Tematyka seminarium jest bardzo szeroka, o czym świadczą już
ukończone prace magisterskie (patrz np.
http://www.mimuw.edu.pl/~jsbien/ i
http://www.mimuw.edu.pl/~kszafran/).
Niepełna lista proponowanych tematów znajduje się dalej na
niniejszej stronie (w wielu wypadkach temat już obronionej pracy
może być wykorzystany ponownie w celu np. zastosowania nowszych
narzędzi czy istotnie szerszego potraktowania problemu).
Obejmuje ona m.in. metody ścisłego opisu różnych aspektów języka
naturalnego -- w szczególności morfologii i składni języka polskiego
-- oraz wykorzystanie w praktyce dostępnych zasobów lingwistycznych
np. do różnych form automatycznej analizy tekstów. Interesują nas
również problemy tłumaczenia dokumentacji technicznej (na przykładzie
Linux Documentation Project), narzędzia do
wspomagania takiego tłumaczenia przez automatyczna analizę tekstów
oryginalnych oraz porównywanie istniejących tłumaczeń (tzw. korpusy
równoległe), tworzenie i uaktualnianie słowników terminologicznych
itp.
W naturalny sposób do zakresu seminarium należy również problematyka
reprezentacji tekstów, w tym wielojęzycznych (XML, SGML,
TEI, DocBook) oraz narzędzi do ich edycji i składu, w
szczególności konwersji między różnymi formatami (np. WVware,
LaTeX2html).
Preferowane są tematy prac magisterskich prowadzące do powstania
oprogramowania dostępnego na licencji GNU i nadającego się do
włączenia do oficjalnych dystrybucji. Najbardziej pożądaną formą
wyników programistycznych jest pakiet dystrybucyjny systemu Debian
GNU/Linux, dostarczony na samobootującej się płycie z odpowiednio
zmodyfikowanym systemem Knoppix
(http://www.knoppix.org) lup podobnym (np. Morphix).
Stąd w tematyce seminarium mieszczą sie zagadnienia takie, jak
tworzenie pakietów dla dystrybucji Debian GNU/Linux,
bug tracking systems itp.
Uczestnicy seminarium mogą zgłaszać swoje własne propozycje tematów
prac, np. inspirowane kwestiami poruszanymi na liście pocztowej
nmpt-ann, której archiwum jest publicznie dostępne pod
adresem http://duch.mimuw.edu.pl/mailman/pipermail/nmpt-ann/,
a także informacjami i materiałami dostępnymi pod adresami
http://www.mimuw.edu.pl/~zzi/lipt/,
http://www.mimuw.edu.pl/polszczyzna/ i
ftp://ftp.mimuw.edu.pl/pub/users/polszczyzna/.
Oferujemy też tematy prac magisterskich wymagające tylko
kwalifikacji czysto informatycznych (szczególnie atrakcyjne dla
,,zesłańców'', którzy nie dostali się na preferowane przez siebie
seminarium).
Oto niepełna lista przykładowych tematów (będzie ona
sukcesywnie uzupełniana o adresy internetowe i dodatkowe
wyjaśnienia). Kolejność jest nieistotna.
- Parser dla gramatyki wyrazowej. Word Grammar
(http://www.phon.ucl.ac.uk/home/dick/wg.htm, http://www.phon.ucl.ac.uk/home/dick/wgnet/wgnet.htm)
to ciekawa i obiecująca teoria lingwistyczna, niestety jak dotąd bez
zastosowań praktycznych (ostatnia próba napisania parsera była
podjęta w 1995 r. -- od tego czasu bardzo zmieniła się sama
gramatyka).
- Linuksowy (Debian) interfejs do wybranych słowników
elektronicznych. Chodzi o pakiety podobne do ydpdict
(http://www.linux.sky.pl/teksty/ydp.html,
http://www.hrw.one.pl/apt/sid/ydpdict_0.52-2_i386.deb), które
instalują wersje demonstracyjne lub robocze komercyjnych słowników
dla Windows, zwłaszcza publikowanych przez PWN i Wiedzę Powszechną.
- Mówiące słowniki dla niewidomych. Zastosowanie
Emacspeak i bezpłatnych programowych syntetyzatorów języka
angielskiego do ,,The Collaborative International Dictionary of
English'' i innych podobnych słowników.
- Mówiąca książka w języku polskim. Stworzenie narzędzi
do tworzenia publikacji w standardzie Digital Talking Book
(http://www.loc.gov/nls/z3986/, patrz także
http://www.afb.org/mlkweb.asp i
http://www.afb.org/ebook.asp), przede wszystkim metodą
konwersji z LATEX2e.
- Wielojęzyczna wersja Emacspeak. Wykorzystanie
bezpłatnych programowych syntetyzatorów mowy dla języka polskiego i
innych oraz doświadczeń Bilingual Emacspeak Project
(http://www.argv.org/ mitsugu/) i podobnych do czytania niewidomym
żródeł tekstów (LATEX) i programów -- słowa kluczowe po
angielsku, tekst po polsku itp.
- Brajlowska wersja Emacspeak. Rozszerzenie możliwości
Emacspeak o wyjście na monitor (linijkę) brajlowska i drukarke
brajlowską -- sprzęt dostępny na Wydziale.
- Imprementacja skrótów brajlowskich Józefowicza i
Saloniego. Rozszerzenie dostępnych programów obsługi linijek
brajlowskich (takich jak brltty) oraz oprogramowania do składu tzw.
czarnodruku (pakiet braille dla LATEX2e) o stosowanie
skrótów opisanych w publikacji
http://www.mimuw.edu.pl/~jsbien/node14.html. Opracowanie
programu wspomagającego uczenie się tych skrótów.
- Pełna obsługa UNICODE w edytorze Emacs.
- Analiza słownictwa dokumentacji edytora Emacs na
potrzeby wspomagania tłumaczenia jej na inne języki.
- Problemy konwersji historycznych tekstów drukowanych lub
rękopiśmiennych na wersję elektroniczną. Praca powinna
koncentrować się na wybranym słowniku lub dostępnych fragmentach
rękopisu Rzewuskiego (http://164.109.50.219/sa/pubs/SA_World/nov_dec2001/polish_p6to15.pdf).
Może dotyczyć reprezentacji tekstu w SGML/XML lub przeglądania
skanowanych tekstów w formacie DjVu.
- Koncepcja automatycznej weryfikacji wyników OCR dla
wybranego słownika historycznego polszczyzny.
- Koncepcja digitalizacji archiwum
słownika polszczyzny XVI w.
- Narzędzia do przeglądania korpusu rozbiorów
gramatycznych.
- Elektroniczne wydanie wybranych prac Stanisława
Leśniewskiego. Genialny polski logik, stosujący specyficzną
notację, której rozumienie należy współczesnemu czytelnikowi ułatwić
odpowiednimi środkami technicznymi.
- Metody konwersji (La)TEX -- HTML/XML (na przykładzie
gramatyki Szpakowicza i jej dokumentacji).
- Wykorzystanie XML do tworzenia złożonych publikacji
elektronicznych (na przykładzie gramatyki Świdzińskiego i jej
opisu).
- Wspomaganie pracy tłumaczy w ,,Linux Documentation
Project'' lub innym podobnym projekcie.
- Internacjonalizacja i polonizacja edytora Emacs
- Udostępnianie archiwów poczty elektronicznej za pomocą
systemu Greenstone.
- Obsługa wielojęzycznych usług internetowych (WWW,poczta,
wiadomości sieciowe) w edytorze Emacs.
- Optymalizacja interfejsu użytkownika w edytorze Emacs.
- Obsługa Unicode w narzędziach typu dvispell
- Dostęp do głębokich zasobów Internetu (na przykładzie
witryn sejmowych, Rady Języka Polskiego i PKN).
- Debugger systemu TEX. Por. Lutz Birkhahn, ,,Tdb: An
X11 TEX Debugger'', Proceedings of the Eight European
TEX Conference, September 26-30, 1994, Gdańsk, Poland, pp
91-95.
- Mapy w publikacjach elektronicznych, por.
http://gmt.soest.hawaii.edu/,
http://www.cse.unsw.edu.au/~mancilla/, także http://www.pangea.de.
- Automatyczne wykrywanie w korpusie zwrotów i terminów.
Implementacja algorytmu Yamamoto i Churcha, Computational
Linguistics 27 (1), March 2001, http://acl.ldc.upenn.edu
- Obsługa UNICODE dla języka polskiego w systemie TEX.
Rozszerzenie możliwości pakietu ucs.sty i programu
dvispell.
- EmLat Knoppix. Jednopłytowa dystrybucja GNU/Linux,
oparta na systemie Knoppix, starannie skonfigurowana do składu
tekstów, również na słabych kompouterach. Może wymagać przygotowania
własnych pakietów Debianowych dla oprogramowania niedostępnego w
oficjalnej dystrybucji.
- Adaptacja systemu KOHA do obsługi prywatnych
księgozbiorów (wypożyczanie i cytowanie w publikacjach
przygotowywanych za pomocą RefTeX), patrz
http://www.saas.nsw.edu.au/koha_wiki/index.php?page=Polish,
http://ebib.oss.wroc.pl/2004/54/kaminski.php,
http://ebib.oss.wroc.pl/news/2004/n2004_3103.php?2.
- Rozpoznawanie języka tekstu na materiale dokumentacji
pakietów Debiana i półautomatyczne rozpoznawanie języka
przetwarzanych danych zawartych w tych pakietach aplikacji.
Nie stawiamy uczestnikom żadnych konkretnych warunków wstępnych, ale w
razie nadmiaru zgłoszeń preferowani są słuchacze naszych własnych
wykładów monograficznych
a także słuchacze wykładów Inżynieria lingwistyczna,
XML i nowoczesne technologie zarządzania treścią oraz
Programowanie WWW. Pożyteczna może być też znajomość
języków perl i Prolog.
Uczestnicy seminarium są zobowiązani do subskrypcji zamkniętej listy
pocztowej nmtp-l
(http://duch.mimuw.edu.pl/mailman/listinfo/nmpt-l) oraz do
przedstawiania streszczeń swoich referatów na ogólnodostępnej
moderowanej liście nmpt-ann
(http://duch.mimuw.edu.pl/mailman/listinfo/nmpt-ann).
Skrócona wersja niniejszego zawiadomienia jest również dostępna
w formacie PDF
i
PostScript
Następny: O tym dokumencie ...
Janusz S. Bień
2004-09-27