TunedIT: Automated evaluation and collaborative benchmarking of data mining algorithms
- Prelegent(ci)
- Marcin Wojnarski
- Termin
- 2 października 2009 14:15
- Pokój
- p. 5820
- Seminarium
- Seminarium badawcze Zakładu Logiki: Wnioskowania aproksymacyjne w eksploracji danych
Tematem referatu będzie nowopowstały system TunedIT
(http://tunedit.org/), służący do zautomatyzowanej i
reprodukowalnej ewaluacji algorytmów data mining. TunedIT
składa się z 3 powiazanych ze sobą modułów: aplikacji
testujacej (TunedTester), Repozytorium i Bazy Wiedzy
(Knowledge Base).
TunedTester to aplikacja Javowa do automatycznej ewaluacji
algorytmów, zapewniajaca reprodukowalnosc uzyskanych
wyników. Dziala lokalnie na komputerze uzytkownika.
Wszystkie zasoby potrzebne do uruchomienia danego testu sa
automatycznie sciagane z Repozytorium. Na zyczenie
uzytkownika TunedTester moze wyslac wyniki testów do Bazy
Wiedzy, aby mogli z nich skorzystac inni. Dzieki
automatyzacji testów, wyniki wygenerowane przez róznych
uzytkowników sa poprawne i porównywalne, moga wiec byc
laczone i wspólnie analizowane w Bazie Wiedzy. Moga byc tez
latwo odtworzone i zweryfikowane przez innych badaczy.
Repozytorium to publicznie dostepna kolekcja zasobów
(plików) zwiazanych z data mining, zlokalizowana na serwerze
TunedIT. Zasoby to miedzy innymi algorytmy, zbiory danych i
procedury ewaluacji, które moga byc przetestowane za pomoca
TunedTestera. Dzieki istnieniu Repozytorium, wyniki
wygenerowane przez TunedTestera i zapisane w Bazie Wiedzy sa
powiazane z konkretnymi testowanymi zasobami, a dzieki temu
sa w pelni interpretowalne. Repozytorium pozwala tez na
latwa wymiane zasobów miedzy naukowcami i uzytkownikami
technik data mining.
Baza Wiedzy to zbiór wyników testów wygenerowanych przez
TunedTestera i przeslanych na serwer TunedIT. Baza Wiedzy
laczy wyniki nadeslane przez róznych uzytkowników, dzieki
czemu stanowi jedyne tak bogate i wszechstronne zródlo
wiedzy o skutecznosci róznych algorytmów, testowanych na
wielu róznych zbiorach danych. Uzytkownicy moga przegladac
zawartosc Bazy Wiedzy za pomoca wygodnego interfejsu
uzytkownika. Mozliwe jest tez pobranie danych w formie
plików CSV, w celu dalszej analizy "off-line".
Obecnie Baza Wiedzy zawiera pomiary wydajnosci niemal 100
róznych algorytmów - m.in. z bibliotek Weka i Rseslib -
testowanych na kilkudziesieciu zbiorach danych, m.in.
pochodzacych z repozytorium UCI. Zawartosc zarówno Bazy
Wiedzy jak i Repozytorium moze byc rozszerzana przez
wszystkich uzytkowników.
Moduly systemu TunedIT posiadaja liczne mechanizmy
bezpieczenstwa, zapewniajace ze wszystkie wyniki zgromadzone
w Bazie Wiedzy sa poprawne, bez wzgledu na to, który
uzytkownik je nadeslal. Baza Wiedzy nie moze byc
zanieczyszczona ani omylkowo - przez bledy uzytkowników -
ani celowo.