Seminarium jest przeznaczone dla studentów informatyki
zainteresowanych różnymi aspektami przetwarzania tekstów języka naturalnego,
a także globalizacją i lokalizacją oprogramowania.
Nie stawiamy uczestnikom żadnych konkretnych warunków wstępnych, ale w
razie nadmiaru zgłoszeń preferowani są słuchacze naszych własnych
wykładów monograficznych (Reprezentacja tekstów w systemach
komputerowych, Wprowadzenie do lingwistyki komputerowej,
Słowniki elektroniczne -- budowa i użytkowanie,
Software localisation and Computer-Aided Translation) oraz
zajęć dr. Adama Przepiórkowskiego (Inżynieria
lingwistyczna).
Tematyka seminarium jest bardzo szeroka, o czym świadczą już
ukończone prace magisterskie (patrz np.
http://www.mimuw.edu.pl/~jsbien/mgr.html i
http://duch.mimuw.edu.pl/~kszafran/index.php?option=com_content&task=view&id=83&Itemid=45).
Uczestnicy seminarium mogą zgłaszać swoje własne propozycje tematów
prac, np. inspirowane kwestiami poruszanymi na liście pocztowej
nmpt-ann, której archiwum jest publicznie dostępne pod
adresem http://lists.mimuw.edu.pl/pipermail/nmpt-ann/,
a także informacjami i materiałami dostępnymi pod adresami
http://www.mimuw.edu.pl/polszczyzna/ i
ftp://ftp.mimuw.edu.pl/pub/users/polszczyzna/.
Oferujemy też tematy prac magisterskich wymagające tylko
kwalifikacji czysto informatycznych (szczególnie atrakcyjne dla
,,zesłańców'', którzy nie dostali się na preferowane przez siebie
seminarium).
Oto niepełna lista przykładowych tematów. Kolejność jest nieistotna, podział na
grupy przybliżony.
- Środowisko edycyjne GNU Emacs:
- Rozbudowa pakietu
RefTeX o
obsługę amsref i nowych wybranych manedżerów informacji
bibliograficznych (refdb,
Bibulus
itp.).
- Obsługa UNICODE w edytorze Emacs na potrzeby systemu
XeTEX. Zarówno Emacs
23
jak i XeTEXmogą korzystać z tych samych fontów OpenType, należy
zmodyfikować AUC-TeX, aby
ten fakt wykorzystać.
- Optymalizacja interfejsu użytkownika w edytorze Emacs.
Punktem wyjścia powinno być kompletne zestawienie wszystkich skrótów
klawiaturowych stosowanych lub rekomendowanych w róznych trybach
pracy edytora; zestawienie to należy utworzyć na podstawie
automatycznej analizy plików źródłowych.
- Edytorstwo
- Debugger systemu
XeTEX,
prawdopodobnego następcy systemu TEX. Interfejs
użytkownika może być oparty na referacie: Lutz Birkhahn,
,,Tdb: An X11 TEX Debugger'', Proceedings of the
Eight European TEX Conference, September 26-30, 1994,
Gdańsk, Poland, pp 91-95; handout (w formacie DjVu) jest
dostępny tutaj.
- Analizator logów systemów TEX i XeTEX
zintegrowany z Emacsowym pakietem
AUC-TeX.
- Nowa generacja przeglądarek tekstów złożonych systemem
(PDF)(La)TEX. Wprowadzenie możliwości komentowania tekstu na wzór
Acrobat Reader 7. Integracja narzędzi typu dvispell.
- Metody konwersji (La)TEX -- (X)HTML/XML (na przykładzie
gramatyki Szpakowicza i jej dokumentacji). Istniejąca wersja
elektroniczna
wymaga korekty i uzupełnienia. Punktem wyjścia powinno być wnikliwe
porównanie
LateX2HTML
i
tex4ht.
- Konwersja LATEX -- OpenOffice (ODF) i odwrotnie
- Słowniki elektroniczne i digitalizacja:
- Linuksowy (Debian) interfejs do wybranych słowników
elektronicznych. Chodzi o pakiety podobne do
ydpdict,
które instalują wersje demonstracyjne lub robocze komercyjnych
słowników dla MS Windows, zwłaszcza publikowanych przez PWN i Wiedzę
Powszechną. W niektórych przypadkach może to wymagać wyrafinowanego
skonfigurowania Wine.
- Rozbudowa biblioteki
DjVuLibre. Chodzi z jednej
strony o rozszerzenie możliwości przeglądarek w formacie DjVu, z
drugiej strony o stworzenie wygodnego GUI do konwersji na ten
format.
- Rozwój programów OCR dla języka polskiego. Punktem
wyjścia mogą być mi/edzy innymi programy: Gamera (a framework for the
creation of structured document analysis applications):
http://ldp.library.jhu.edu/projects/gamera/, Tessaract
(http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract).
oraz ocre. Wynikowy program
może być wyspecjalizowany np. na potrzeby konwersji skanów wybranego
słownika historycznego.
- Elektroniczne wydanie wybranych prac Stanisława
Leśniewskiego. Genialny polski logik, stosujący specyficzną
notację, której rozumienie należy współczesnemu czytelnikowi ułatwić
odpowiednimi środkami technicznymi. W szczególności należy
odpowiednio opracować publikacje już dostępne w wersji
elektronicznej
i opracować koncepcję wskanowania pozostałych.
- Mowa syntetyczna i brajl:
- Przystosowanie Free(b)soft
CD
do języka
polskiego. Free(b)soft CD to dystrybucja systemu Linux dla
niewidomych wykorzystująca syntetyzator mowy
Festival.
Festival jest przystosowany do języka polskiego, ale zmiany te nie
są jeszcze zintegrowane z oficjalną dystrybucją.
- Mówiące słowniki dla niewidomych. Zastosowanie
Emacspeak
lub Speech
Dispatcher
oraz bezpłatnych
programowych syntetyzatorów mowy dla języka angielskiego do
słowników dostępnych w formacie DICT i podobnych (np. The
Collaborative International Dictionary of
English).
- Imprementacja skrótów brajlowskich. Rozszerzenie
dostępnych programów obsługi linijek brajlowskich (takich jak
brltty) oraz oprogramowania do składu tzw. czarnodruku (pakiet
braille dla LATEX2e) o stosowanie skrótów opisanych w
publikacji Józefowicza i
Saloniego.
Opracowanie programu wspomagającego uczenie się tych skrótów.
Zintegrowanie wyniku z dystrybucją
Free(b)soft
lub
Oralux.
- Metadane, biblioteki cyfrowe i systemy zarządzania treścią:
- Transliteracja cyrylicy w teorii i praktyce.
Kontrowersyjna norma ISO
9
została
przyjęta do stosowania w systemach bibliotecznych, a nawet w
systemie USOS. Stosując odpowiednie
programy
należy zbadać, czy transliterowanie odbywa się bez błędów, i czy
ma jakąś wyższość nad stosowaniem UNICODE.
- Dostęp do głębokich zasobów Internetu (na przykładzie
bieżących
i
archiwalnych
sejmowych sprawozdań stenograficznych, Rady Języka
Polskiego
i
PKN).
- Automatyczna ekscerpcja danych bibliograficznych z
publikacji elektronicznych. Wyniki powinne być prezentowane m.in.
w standardach OAI-PMH i RDF, stosowanych m.in. przez Wielkopolską
Bibliotekę Cyfrową.
- Zbadanie przydatności programu
EPrints
i
podobnych
do obsługi wirtualnej biblioteki
lingwistycznej.
- Zbadanie przydatności
WeBWorK
do nauczania lingwistyki
informatycznej.
- Joomla (http://www.joomla.org). Polonizacja i
dostosowanie do utf8 wybranych dodatków oraz rozszerzenia
związane z wprowadzaniem/konwersją tekstów z innych formatów,
rozszerzenie współpracy z edytorami zewnętrznymi albo
wzbogacenie możliwości edytora wbudowanego itp.
- Korpusy, zasoby i inne
- Dawna polszczyzna a standardy
TEI
i
Unicode. Punktem wyjścia jest
konfrontacja zestawów znaków stosowanych w dawnych tekstach
polskich i ich transliteracjach z repertuarem Unicode i zgodnych z
tych standardem fontów. Zasadnicze zadanie to sprawdzenie, jak
przyjęte w kraju Zasady wydawania tekstów staropolskich
(Ossolineum 1955, wersja elektroniczna przygotowywana do
udostępnienia w e-bUW) można
zastosować do zgodnej z wytycznymi TEI reprezentacji tekstów w
XML. Jako materiał testowy można wykorzystać m.in. Słownik
polszczyzny XVI w.
- Implementacja koncepcji przedstawionej w artykule
Rule-based Search in Text Databases with Nonstandard
Orthography
na potrzeby tekstów polskich z różnych okresów.
- Korpus z ortograficznie neutralną reprezentacją tekstów.
Zasady pisowni łącznej i rozłącznej są zmieniane arbitralnie, w
związku z tym typowy korpus to samo słowo reprezentuje jako jeden
lub więcej segmentów, co utrudnia wyszukiwanie. Inspiracji można
szukać w korpusach obsługujących języki, w których w ogóle nie ma
podziału na słowa.
- Rozbudowa i polonizacja serwera list pocztowych
`sympa'. Punktem wyjścia jest
porównanie systemów sympa, Mailman i LSoft Listserver.
- Przetwarzanie lingwistyczne
- Narzędzia wspomagające interpretację wyników analizy
syntaktycznej. Temat dla ambitnych, szczegóły na seminarium.
- Program ankietujący użytkowników i podający
wyniki m.in. w postaci statystyk
kappa, szczegóły
na seminarium.
- Zbadanie przydatności gramatyki formalnej języka angielskiego
(English Resource Grammar) do
przetwarzania tekstów informatycznych.
- Zbadanie możliwości wykorzystania Redwood
treebank
do analizy
takich zjawisk, jak anafora i określoność; szczegóły na seminarium.
Uczestnicy seminarium są zobowiązani do subskrypcji zamkniętej listy
pocztowej nmtp-l
(http://lists.mimuw.edu.pl/listinfo/nmpt-l) oraz do
przedstawiania streszczeń swoich referatów na ogólnodostępnej
moderowanej liście nmpt-ann
(http://lists.mimuw.edu.pl/listinfo/nmpt-ann).
Janusz S. Bień
2008-10-23