Choć zajęcia przeznaczone są przede wszystkim dla studentów informatyki, sam wykład -- po zarejestrowaniu się w systemie USOS (http://rejestracja.usos.uw.edu.pl/) -- może być na podstawie obecności zaliczany jako zajęcia ogólnouniwersyteckie. Studenci Studiów Filologiczno-Kulturoznawczych Europy Zachodniej mogą zaliczać wykład i ewentualnie laboratorium jako odrębne moduły na podstawie pracy semestralnej.
Celem zajęć jest zapoznanie uczestników z różnymi formami dokumentów elektronicznych oraz narzędziami do ich tworzenia i konwersji. Omówione zostanie m.in. reprezentowanie w komputerze znaków piśmiennych, struktury tekstów oraz informacji lingwistycznych ułatwiających przetwarzanie. Wspomniane zostaną również specyficzne formy tekstów stanowiących elementy interfejsu systemów komputerowych.
Program:
1. Teksty, ich autorzy i właściciele. Rodzaje tekstów elektronicznych.
2. Wprowadzania, reprezentacja i wizualizacja tekstów. Format DVI, PS, PDF, DjVu i pokrewne. WYSIWYG i "markup".
3. Reprezentacja struktury: LaTeX i systemy pokrewne.
4. Reprezentacja struktury: HTML, SGML, DocBook, TEI P3
5. Reprezentacja struktury: XML, XHTML, TEI P4
6. Reprezentacja struktury: Relax NG, TEI P5
7. Reprezentacja informacji lingwistycznych: TEI, CES (Corpus Encoding Standard)
8. Reprezentacja znaków piśmiennych: kody 7- i 8- bitowe
9. Reprezentacja znaków piśmiennych: UCS, Unicode
10. Teksty w interfejsach programów komputerowych
Ważniejsze źródła:
Text Encoding Initiative. http://www.tei-c.org/
Projekt DjVuLibre.
http://djvulibre.djvuzone.org/
Konsorcjum Unicode.
http://www.unicode.org/
Komputery i polszczyzna.
http://www.mimuw.edu.pl/polszczyzna/
Localization Industry Standards
Association. http://www.lisa.org/
Janusz S. Bień: Standard Unicode 4.0. Wybrane pojęcia i terminy.
Biuletyn GUST z. 20, r. 2004, s. 9-14.
Janusz S. Bień, Krzysztof
Szafran. Analiza
morfologiczna języka polskiego w praktyce. Biuletyn
Polskiego Towarzystwa Językoznawczego LVII (2001), s. 171-184.
Za zgodą redaktora Biuletynu Prof. Kazimierza Polańskiego
autoryzowana wersja tekstu jest udostępniona w Internecie w formacie
PDF
i
Postscript
Janusz S. Bień. GNU Emacs 21 i LATEX2e: piszemy artykuł naukowy.
XIII European TEX Conference,
April 29-May 3, 2002,
Bachotek, Poland,
pp 105-111 (ISBN 83-910954-2-8).
Także Biuletyn GUST
z 18,
s. 21-27 .
Tekst dostępny
w formacie PDF
i
Postscript.
Janusz S. Bień: Teksty wielojęzyczne w edytorze GNU Emacs.
Biuletyn GUST z. 16, r. 2001, s. 3-13. Tekst dostępny
w formacie PDF
i
Postscript.
Janusz S. Bień: Jak powstaje polska norma. Transliteracja
cyrylicy (PN-ISO 9-2000). Elektroniczny Biuletyn Informacyjny
Bibliotekarzy, nr 8/2000 (16), wrzesień
2000. Wersja
autoryzowana dostępna w formacie
Postscript,
PDF
i
HTML.
Janusz S. Bień.
Język polski w sieciach komputerowych.
ftp://ftp.mimuw.edu.pl/pub/users/polszczyzna/ogonki/rjp.ps.
Skrócona wersja niniejszego zawiadomienia jest również dostępna
w formacie PDF
i
PostScript