Na przykładzie tak zwanych korpusów tekstów oraz wybranych słowników elektronicznych przedstawione zostaną sposoby reprezentowania tekstów na potrzeby badań filologicznych. Omówione zostanie między innymi reprezentowanie morfologicznych własności tekstów.
Szczegółowo zostaną przedstawione tzw. wyrażenia regularne. Służą one do wyszukiwania informacji w tekstach, a także do ich przekształcania. Są one dostępne w wielu edytorach tekstów i innych programach. Zagadnienie to będzie prezentowane przede wszystkim na przykładzie systemu Poliqarp, który został stworzony na potrzeby korpusu języka polskiego, ale może być stosowany również do samodzielnie stworzonych korpusów w innych językach. Jedną z wielu zalet systemu jest fakt, że stanowi on tzw. oprogramowanie swobodne (jest dostępny na zasadach licencji GNU GPL).
Wśród innych wspomnianych na zajęciach narzędzi znajdą się m.in. analizatory syntaktyczne, takie jak Świgra i English Resource Grammar.
Warunkiem zaliczenia jest aktywny udział w zajęciach oraz przygotowanie (w formie elektronicznej) pracy zaliczeniowej.