Konwersatorium WNE - narzędzia eksploracji danych

Modele matematyczne w ekonomii - konwersatorium

NARZĘDZIA MATEMATYCZNE W EKSPLORACJI DANYCH

Sprawdzian Poprawkowy

Termin poprawki dla osób, które chciałyby uzyskać zaliczenie lub poprawić swój stopień to 28 lutego (poniedziałek), godzina 15:00-16:30 sala 205 na WNE. Zasady te same co w terminie podstawowym - czyli trzeba pisać sprawdzian.

Zaliczenia i wpisy - wysłałem do wszystkich zainteresowanych osób informację (e-mailem) o wynikach sprawdzianu i proponowanych ocenach.
Jeśli ktoś tej informacji nie otrzymał, proszę się upomnieć.
Poza tym można mnie łapać pod koordynatami podanymi poniżej.

dr Marcin Szczuka

Instytut Matematyki UW
Banacha 2, pok. 1240
tel. 55 44 124
E-mail: szczuka@mimuw.edu.pl
konsultacje w semestrze zimowym: czwartki 10-12

Materiały do wykładów

Slajdy do wykładu 1 - Wprowadzenie
- wersja PDF
- wersja PDF do druku (4 slajdy na strone)
Slajdy do wykładu 2 - Pojęcia podstawowe
- wersja PDF
- wersja PDF do druku (12 stron A4)
Slajdy do wykładu 3 - Drzewa decyzyjne
- Część 1 - wersja PDF
- Część 1 - wersja PDF do druku
- Część 2 - wersja PDF
- Część 2 - wersja PDF do druku
Slajdy do wykładu 4 - Ocena modelu
- wersja PDF
- wersja PDF do druku
Slajdy do wykładu 5 - Reguły decyzyjne
- wersja PDF
- wersja PDF do druku
Slajdy do wykładu 6 - Reguły asocjacyjne
- wersja PDF
- wersja PDF do druku
Slajdy do wykładu 7 - Grupowanie pojęciowe
- wersja PDF do druku
Slajdy do wykładu 8 - Metody probabilistyczne
- wersja PDF
- wersja PDF do druku
Slajdy do wykładu 9 - Klasyfikacja w oparciu o dane
- wersja PDF
- wersja PDF do druku

Informacje o zajęciach (Uwaga - zmiany w trybie zaliczania)

Cel zajęć:

Celem konwersatorium jest zapoznanie studentów z wybranymi metodami matematycznymi wykorzystywanymi w burzliwie rozwijającej się w ostatnich latach dziedzinie eksploracji danych (ang. Data Mining). W ramach zajęć przedstawione zostaną zagadnienia eksploracji i analizy danych połączone z podstawowymi informacjami o wykorzystywanych do tego modelach i narzędziach matematycznych. Metody, które zostaną omówione podczas zajęć dotykają takich dziedzin matematyki i informatyki jak statystyka, rachunek prawdopodobieństwa, teoria informacji, teoria maszynowego uczenia, systemy wspomagania decyzji, teoria aproksymacji, teoria złożoności obliczeniowej.

Program szczegółowy:

1. Dane, informacja i wiedza.

Przyczyny i cele prowadzenia eksploracji danych. Przykłady zastosowań w gospodarce i innych dziedzinach życia. Informacja jako towar i jako półprodukt. Wiedza jako towar rynkowy. Wydobywanie wiedzy z danych. Typowy schemat eksploracji danych i jego podstawowe składniki. Zadania decyzyjne, klasyfikacyjne i modelowanie.

2. Formalne podejście do obróbki danych

Przestrzeń doświadczeń, próbka treningowa i testowa, pojęcia i hipotezy. Rodzaje błędów dla hipotez. Przybliżanie błędu rzeczywistego. Miary jakości hipotezy i indukcyjna poprawność. Pojęcie metody (systemu) uczącego się.

3. Metody automatycznego odkrywania wiedzy

Zagadnienia przydatności, stosowalności, skalowalności i złożoności metody odkrywania wiedzy. Problem złożoności obliczeniowej (pesymistycznej), złożoności średniej i złożoności praktycznej. Miary złożoności i hierarchia asymptotyczna.

4. Przykładowe zagadnienia i metody odkrywania wiedzy (automatycznego uczenia):

a) Zagadnienia wstępne, przygotowywanie, ocena i normalizacja danych. Wybór próbki. Wybór kryteriów oceny.

b) Drzewa decyzyjne – pojęcie miary informacji i zysku informacyjnego, entropia informacji. Miara entropijna przyrostu informacji. Kryteria entropijne w tworzeniu drzew decyzyjnych. Algorytmy tworzenia drzew decyzyjnych i istniejące systemy komputerowe, które je wykorzystują. Analiza algorytmów tworzenia drzew pod kątem złożoności i stosowalności.

c) Reguły decyzyjne i reguły asocjacyjne. Algorytmy wydobywania reguł z danych. Algorytm Apriori i jego własności, algorytmy pokryciowe. Złożoność zadania konstruowania i wykorzystywania reguł.

d) Wnioskowanie probabilistyczne. Rozkłady częstościowe w danych, niezależność cech klas decyzyjnych. Reguła Bayesa i wnioskowanie bayesowskie. Ogólny i naiwny klasyfikator bayesowski: zastosowania, ograniczenia, złożoność.

e) Metody klasyfikacji i wnioskowania na podstawie przykładów. Metody „najbliższych sąsiadów” i lokalna regresja liniowa. Metody grupowania, klasteryzacja (clustering).

Uwaga: Tematy z pkt. 4 będą z realizowane w zakresie, na jaki pozwoli ograniczona objętość konwersatorium (30 godz.). W związku z tym niektóre zagadnienia mogą zostać potraktowane skrótowo lub pominięte.

Literatura:

Cichosz P., Systemy uczące się, WNT, Warszawa, 2000

Bolc L., Zaremba J., Wprowadzenie do uczenia się maszyn, Akademicka Oficyna Wydawnicza RM, Warszawa, 1992

Brandt S., Analiza danych, Wydawnictwo naukowe PWN, Warszawa, 1998

Mitchell T.M., Machine Learning, McGraw-Hill, 1997, Link do stony z materiałami

Berry M.J.A, Linoff G. Data Mining Techniques : For Marketing, Sales, and Customer Relationship Management (wydanie 2), Wiley Computer Publishing, 2004

Witten I., Frank E., Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 1999 Link do strony z materiałami

Forma zaliczenia:

Dla malej części grupy (max 5 osób) będzie możliwe zaliczenie na stopień na podstawie krótkiej prezentacj (30 min.), na uzgodniony z wykładowcą, związany z zajęciami temat. Prezentacje będą przedstawiane pod koniec semestru. Pozostali uczestnicy zostaną ocenieni na podstawie frekwencji (zaliczenie za obecność = 3) i wyników sprawdzianu (pisemnego) przeprowadzonego na koniec semestru dla osób, które chcą otrzymać stopień wyższy niż 3.