Rok akademicki 2007/2008 (semestr zimowy)


Wykład monograficzny

Reprezentacja tekstów
w systemach komputerowych
    

dr hab. Janusz S. Bień, prof. UW
Katedra Lingwistyki Formalnej
jsbien@uw.edu.pl


Laboratorium: mgr Aleksander Buczyński     



Celem zajęć jest zapoznanie uczestników z różnymi formami dokumentów elektronicznych oraz narzędziami do ich tworzenia i konwersji. Omówione zostanie m.in. reprezentowanie w komputerze znaków piśmiennych, struktury tekstów oraz informacji lingwistycznych ułatwiających przetwarzanie tekstów. Wspomniane zostaną również specyficzne formy komunikatów i napisów stanowiących elementy interfejsu systemów komputerowych. Omawiana będzie również reprezentacja zabytków piśmiennictwa na potrzeby zachowania dziedzictwa kulturowego.

Wykładowca jest informatykiem (do 1998 r. pracownikiem Instytutu Informatyki UW) i lingwistą. Prowadzący laboratorium mgr Buczyński jest informatykiem zatrudnionym w Zespole Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN.

Warunkiem zaliczenia laboratorium będzie wykonanie dwóch zadań. Jedno proste zadanie -- obowiązkowe dla wszystkich uczestników -- dotyczyć będzie analizatora Morfeusz (http://nlp.ipipan.waw.pl/~wolinski/morfeusz/) i formatu XCES (Corpus Encoding Standard for XML, http://www.xml-ces.org/). Drugie zadanie może być wybrane z obszernej oferty lub zaproponowane przez uczestnika. Kilka zadań dotyczyć będzie standardu XLIFF (XML Localisation Interchange File Format, http://www.oasis-open.org/committees/tc_home.php?wg_abbrev=xliff), niektóre zadania mogą nawiązywać tematycznie do zadań z edycji 2005/2006 (http://duch.mimuw.edu.pl/~abuczyns/rtwsk06/).

Egzamin w formie testu będzie przeznaczony dla tych studentów, którzy będą chcieli poprawić ocenę zaproponowaną na laboratorium.

Do wyników prac studenckich wykonywanych w ramach zajęć stosowana będzie odpowiednia licencja GNU (GPL lub GFDL) lub podobna.


Planowane terminy:

Program:

1. Teksty, ich autorzy i właściciele. Rodzaje tekstów elektronicznych.

2. Wprowadzania, reprezentacja i wizualizacja tekstów. Format DVI, PS, PDF, DjVu i pokrewne. WYSIWYG i "markup".

3. Reprezentacja struktury: LaTeX i systemy pokrewne.

4. Reprezentacja struktury: HTML, SGML, DocBook, TEI P3

5. Reprezentacja struktury: XML, XHTML, TEI P4

6. Reprezentacja struktury: Relax NG, TEI P5

7. Reprezentacja informacji lingwistycznych: TEI, CES (Corpus Encoding Standard)

8. Reprezentacja znaków piśmiennych: kody 7- i 8- bitowe

9. Reprezentacja znaków piśmiennych: UCS, Unicode

10. Teksty w interfejsach programów komputerowych

Niektóre dodatkowe źródła:

Text Encoding Initiative. http://www.tei-c.org/
Projekt DjVuLibre. http://djvulibre.djvuzone.org/
Konsorcjum Unicode. http://www.unicode.org/
Komputery i polszczyzna. http://www.mimuw.edu.pl/polszczyzna/
Localization Industry Standards Association. http://www.lisa.org/

Janusz S. Bień: Standard Unicode 4.0. Wybrane pojęcia i terminy. Biuletyn GUST z. 20, r. 2004, s. 9-14. Tekst dostępny w formacie PDF
Janusz S. Bień, Krzysztof Szafran. Analiza morfologiczna języka polskiego w praktyce. Biuletyn Polskiego Towarzystwa Językoznawczego LVII (2001), s. 171-184. Za zgodą redaktora Biuletynu Prof. Kazimierza Polańskiego autoryzowana wersja tekstu jest udostępniona w Internecie w formacie PDF i Postscript
Janusz S. Bień. GNU Emacs 21 i LATEX2e: piszemy artykuł naukowy. XIII European TEX Conference, April 29-May 3, 2002, Bachotek, Poland, pp 105-111 (ISBN 83-910954-2-8). Także Biuletyn GUST z 18, s. 21-27 . Tekst dostępny w formacie PDF i Postscript.
Janusz S. Bień: Teksty wielojęzyczne w edytorze GNU Emacs. Biuletyn GUST z. 16, r. 2001, s.  3-13. Tekst dostępny w formacie PDF i Postscript.
Janusz S. Bień: Jak powstaje polska norma. Transliteracja cyrylicy (PN-ISO 9-2000). Elektroniczny Biuletyn Informacyjny Bibliotekarzy, nr 8/2000 (16), wrzesień 2000. Wersja autoryzowana dostępna w formacie Postscript, PDF i HTML.
Janusz S. Bień. Język polski w sieciach komputerowych. ftp://ftp.mimuw.edu.pl/pub/users/polszczyzna/ogonki/rjp.ps.





Janusz S. Bień 2008-01-16