Celem zajęć jest zapoznanie uczestników z różnymi formami dokumentów elektronicznych oraz narzędziami do ich tworzenia i konwersji. Omówione zostanie m.in. reprezentowanie w komputerze znaków piśmiennych, struktury tekstów oraz informacji lingwistycznych ułatwiających przetwarzanie tekstów. Wspomniane zostaną również specyficzne formy komunikatów i napisów stanowiących elementy interfejsu systemów komputerowych. Omawiana będzie również reprezentacja zabytków piśmiennictwa na potrzeby zachowania dziedzictwa kulturowego.
Wykładowca jest informatykiem (do 1998 r. pracownikiem Instytutu Informatyki UW) i lingwistą. Prowadzący laboratorium mgr Buczyński jest informatykiem zatrudnionym w Zespole Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN.
Warunkiem zaliczenia laboratorium będzie wykonanie dwóch zadań. Jedno proste zadanie -- obowiązkowe dla wszystkich uczestników -- dotyczyć będzie analizatora Morfeusz (http://nlp.ipipan.waw.pl/~wolinski/morfeusz/) i formatu XCES (Corpus Encoding Standard for XML, http://www.xml-ces.org/). Drugie zadanie może być wybrane z obszernej oferty lub zaproponowane przez uczestnika. Kilka zadań dotyczyć będzie standardu XLIFF (XML Localisation Interchange File Format, http://www.oasis-open.org/committees/tc_home.php?wg_abbrev=xliff), niektóre zadania mogą nawiązywać tematycznie do zadań z edycji 2005/2006 (http://duch.mimuw.edu.pl/~abuczyns/rtwsk06/).
Egzamin w formie testu będzie przeznaczony dla tych studentów, którzy będą chcieli poprawić ocenę zaproponowaną na laboratorium.
Do wyników prac studenckich wykonywanych w ramach zajęć stosowana będzie odpowiednia licencja GNU (GPL lub GFDL) lub podobna.
Planowane terminy:
Program:
1. Teksty, ich autorzy i właściciele. Rodzaje tekstów elektronicznych.
2. Wprowadzania, reprezentacja i wizualizacja tekstów. Format DVI, PS, PDF, DjVu i pokrewne. WYSIWYG i "markup".
3. Reprezentacja struktury: LaTeX i systemy pokrewne.
4. Reprezentacja struktury: HTML, SGML, DocBook, TEI P3
5. Reprezentacja struktury: XML, XHTML, TEI P4
6. Reprezentacja struktury: Relax NG, TEI P5
7. Reprezentacja informacji lingwistycznych: TEI, CES (Corpus Encoding Standard)
8. Reprezentacja znaków piśmiennych: kody 7- i 8- bitowe
9. Reprezentacja znaków piśmiennych: UCS, Unicode
10. Teksty w interfejsach programów komputerowych
Niektóre dodatkowe źródła:
Text Encoding Initiative. http://www.tei-c.org/
Projekt DjVuLibre.
http://djvulibre.djvuzone.org/
Konsorcjum Unicode.
http://www.unicode.org/
Komputery i polszczyzna.
http://www.mimuw.edu.pl/polszczyzna/
Localization Industry Standards
Association. http://www.lisa.org/
Janusz S. Bień: Standard Unicode 4.0. Wybrane pojęcia i terminy.
Biuletyn GUST z. 20, r. 2004, s. 9-14.
Tekst dostępny
w formacie PDF
Janusz S. Bień, Krzysztof
Szafran. Analiza
morfologiczna języka polskiego w praktyce. Biuletyn
Polskiego Towarzystwa Językoznawczego LVII (2001), s. 171-184.
Za zgodą redaktora Biuletynu Prof. Kazimierza Polańskiego
autoryzowana wersja tekstu jest udostępniona w Internecie w formacie
PDF
i
Postscript
Janusz S. Bień. GNU Emacs 21 i LATEX2e: piszemy artykuł naukowy.
XIII European TEX Conference,
April 29-May 3, 2002,
Bachotek, Poland,
pp 105-111 (ISBN 83-910954-2-8).
Także Biuletyn GUST
z 18,
s. 21-27 .
Tekst dostępny
w formacie PDF
i
Postscript.
Janusz S. Bień: Teksty wielojęzyczne w edytorze GNU Emacs.
Biuletyn GUST z. 16, r. 2001, s. 3-13. Tekst dostępny
w formacie PDF
i
Postscript.
Janusz S. Bień: Jak powstaje polska norma. Transliteracja
cyrylicy (PN-ISO 9-2000). Elektroniczny Biuletyn Informacyjny
Bibliotekarzy, nr 8/2000 (16), wrzesień
2000. Wersja
autoryzowana dostępna w formacie
Postscript,
PDF
i
HTML.
Janusz S. Bień.
Język polski w sieciach komputerowych.
ftp://ftp.mimuw.edu.pl/pub/users/polszczyzna/ogonki/rjp.ps.