Uniwersytet Warszawski University of Warsaw
Wyszukiwarka
 W bieżącym katalogu
Powrót do listy seminariów

Seminarium Zakładu Logiki Matematycznej

Seminarium badawcze poświęcone tematyce wnioskowań aproksymacyjnych, w szczególności problemom i metodom aproksymacji złożonych pojęć z danych eksperymentalnych i wiedzy dziedzinowej.

Prowadzą: Hung Son Nguyen i Andrzej Skowron

Seminarium posiada własną stronę internetową.


2013-05-24, godz. 14:15, s. 5820
Paweł Gora
Inducing models of vehicular traffic complex vague concepts by interaction with domain experts
Na seminarium opowiem o badaniach, które przeprowadzam wspólnie z Piotrem 
Wasilewskim. Zaprezentuję opracowaną przez nas metodę pozyskiwania wiedzy 
dziedzinowej dotyczącej ruchu pojazdów w mieście poprzez dialog z ekspertem. 
Interakcja z ekspertem jest realizowana poprzez graficzny interfejs użytkownika 
prezentujący wygenerowane wcześniej (i odpowiednio przetworzone) symulacje 
komputerowe ruchu pojazdów na niedużym fragmencie rzeczywistej sieci drogowej. 
Pozyskana w ten sposób wiedza i dane sensoryczne zostaną wykorzystane do 
konstrukcji klasyfikatorów wykrywających stany ruchu drogowego celem 
przeciwdziałania niepożądanym sytuacjom, np. formowaniu się korków w pobliżu 
dużego skrzyżowania.
2013-05-17, godz. 14:15, s. 5820
Sinh Hoa Nguyen
Layered learning for exploring textual data in interaction with users
Prezentacja i dyskusja nad planami badawczymi, które będą realizowane w obecnych projektach zakładu oraz w projekcie złożonym do programu Samsung GRO (Global Research Outreach).
2013-04-26, godz. 14:15, s. 5820
Sasa Moilanen (Zoined Oy )
How are retail companies taking advantage of advanced analytics?

Examples from the retail industry highlighting current analytics trends and specific use cases for data mining, machine learning and predictive analytics. Thoughts on how to maximize business value through smart analytics initiatives related to better customer segmentation, targeted marketing, assortment optimization etc. and how to ensure usability of such solutions for different kind of business end users.

Agenda:

·  Business intelligence evolution

·  Business drivers for retail analytics

o Seeking for the competitive advantage

o Examples of business areas and processes being optimized with analytics

o Current IT trends in analytics

·  Examples of Zoined retail analytics

o Analytics architecture

o Customer Segmentation

o Market Basket Analysis

o Sales Forecasting

·  From data to decisions

o Decision management systems

o Role based dashboards, notifications/alerts and recommendations

·  Lessons learned and future directions

2013-04-19, godz. 14:15, s. 5820
Michał Kapałka (Instytut Systemów Informatycznych, Wydział Cybernetyki, Wojskowa Akademia Techniczna)
model tłumu - wykorzystane mechanizmy, możliwe zastosowania
W referacie przedstawiony zostanie symulacyjny model tłumu opracowany na potrzeby symulacji przemieszczania się dużych grup ludzi w aglomeracji. W pierwszej części poruszone zostaną aspekty modelu formalnego głownie w zakresie wykorzystanych mechanizmów związanych z przemieszczaniem się jednostek oraz mechanizmów odwzorowujących relacje "nie fizyczne" miedzy jednostkami. W części drugiej omówione zostaną przykładowe zastosowania wytworzonego modelu oraz wyniki przeprowadzonych eksperymentów na tle istniejących rozwiązań  wykorzystywanych w obszarach związanych z bezpieczeństwem ruchu pieszych.
2013-04-12, godz. 14:15, s. 5820
Ivo Duentsch (Brock University, Kanada)
Extension properties of Boolean contact algebras
Boolean contact algebras (BCAs) arise in spatial--temporal reasoning, and are hybrid algebraic--relational structures. Their history goes back to the 1920's, augmenting Leśniewski's mereology --whose models may be regarded as Boolean algebras with the least element removed -- with a binary predicate of ``being in contact''. A contact relation on a Boolean algebra B is, loosely speaking, a symmetric and reflexive relation C on the nonzero elements of B with additional compatibility properties. Standard models are Boolean algebras of regular closed sets of some topological space  X where two such sets are in contact if their intersection is not empty. Continuing last year's seminar, I will explore extension properties of BCAs: I will show that the class of Boolean contact algebras has the joint embedding property and the amalgamation property, and that the class of connected Boolean contact algebras has the joint embedding property but not the amalgamation property. By  Fraïssé's theorem, there is a unique countable homogeneous BCA. I will exhibit some properties of  this algebra and the relation algebra generated by its contact relation. It turns out that the algebra can be partitioned into four sets {0}, {1}, K, and L, which are the only orbits of the group of base automorphisms of the algebra, and that the contact relation algebra of this algebra is finite. This is the first non--trivial extensional BCA we know which has this property.
2013-03-22, godz. 14:15, s. 5820
Piotr Wasilewski (Uniwersytet Warszawski)
O maszynach stanów abstrakcyjnych Jurija Gurevicha

2013-03-15, godz. 14:15, s. 5820
Łukasz Puławski
Indeksowanie grafów
Grafy sa stosowane jako modele zjawisk badanych w bardzo wielu
obszarach nauki. Dlatego metody efektywnego wyszukiwania roznych
wzorcow strukturalnych w grafach maja ogromne znaczenie praktyczne.
Jednym z podstawowych problemow jest przeszukiwanie baz danych grafow
pod katem wystpienia w nich wzorca rozumianego jako zadany podgraf.
Z punktu widzenia zlozonosci obliczeniowej czescia tego zgadnienia
jest problem SUBGRAPH-ISOMORPHISM - problem NP-zupelny, dlatego tez
bardzo istotne sa metody heurystyczne pozwalajace  znalezc chocby
przyblizone rozwiazanie.

W moim referacie omowie *indeksowanie grafow*  -  pewna klase metod,
ktore pozwalaja w sposob heurystyczny przyblizac zbior grafow,
zawierajaacych zadany podgraf.  Istnieje pewna analogia miedzy
indeksami w relacyjnej bazie danych a indeksami w bazie grafow. Tak
jak w relacyjnej bazie indeks pozwala ogranicyc liczbe blokow
niezbednych do przeczytania aby odpowiedziec na zadane zapytanie, tak
indeks w bazie grafow pozwala ograniczyc liczbe grafow, w ktorych
nalezy szukac wzorca. 
2013-03-08, godz. 14:15, s. 5820
Andrzej Janusz
Algorytmy uczenia się relacji podobieństwa z wielowymiarowych zbiorów danych
Pojęcie podobieństwa pełni istotną rolę w dziedzinach uczenia maszynowego i sztucznej inteligencji. Jest ono powszechnie wykorzystywane w zadaniach dotyczących nadzorowanej klasyfikacji, grupowania, wykrywania nietypowych obiektów oraz planowania. Ponadto w dziedzinach takich jak wyszukiwanie informacji (ang. information retrieval) lub wnioskowanie na podstawie przykładów (ang. case-based reasoning) pojęcie podobieństwa jest kluczowe ze względu na jego obecność na wszystkich etapach wyciągania wniosków. Jednakże samo podobieństwo jest pojęciem niezwykle złożonym i wymyka się próbom ścisłego zdefiniowania. Stopień podobieństwa między dwoma obiektami może być różny w zależności od kontekstu w jakim się go rozpatruje. W praktyce trudno jest nawet ocenić jakość otrzymanych stopni podobieństwa bez odwołania się do zadania, któremu mają służyć. Z tego właśnie powodu modele oceniające podobieństwo powinny być wyuczane na podstawie danych, specjalnie na potrzeby realizacji konkretnego zadania. W moim wystąpieniu opiszę model uczenia się podobieństwa zwany Podobieństwem Opartym na Regułach (ang. Rule-Based Similarity). Wykorzystuje on elementy teorii zbiorów przybliżonych do konstruowania funkcji podobieństwa pozwalającej aproksymować podobieństwo w zadanym kontekście. Zaproponowany model uczenia się podobieństwa i funkcja podobieństwa, która jest jego wynikiem, mogą być wykorzystane do klasyfikacji nowych obiektów oraz do łączenia dokumentów tekstowych w semantycznie spójne grupy. Eksperymenty przeprowadzone na wielu zbiorach danych dowodzą, że zaproponowane modele mogą skutecznie konkurować nawet z powszechnie uznanymi rozwiązaniami.
2013-03-01, godz. 12:15, s. 2180
Hans-Dieter Burkhard, Monika Domanska (Humboldt University Berlin)
RoboNewbie: Simulated Robots for (e-)Learning

Experiences by own experiments are an important prerequisite for studies in Robotics and Artificial Intelligence. Experimenting with real robots is difficult because of expensive hardware, maintaining the robots and time consuming set ups. Hence, simple hardware is still broadly used, which is far behind the recent technical developments.

 

Simulated robots in simulated environments can be used as an alternative for complex hardware. The RoboCup community has 15 years of experiences with real and simulated robots in the field of soccer playing robots.

It is a challenging test field for the progress in scientific research and technical developments. Robots have to control their bodies and their motions, they must perceive a dynamically changing environment, and they have to choose from many possible options in real time. They have to cooperate with team mates and to pay attention to opponents. The RoboCup 3D simulator SimSpark provides a physical simulation of the soccer environment with the simulated humanoid robot Nao of the French Company Aldebaran.

 

The talk reports on the RoboNewbie project developed at Humboldt University Berlin. It is a basic framework written in JAVA for the development of simulated humanoid robots running in the SimSpark simulation. It provides easy understandable interfaces to simulated sensors and effectors of the robot as well as a simple control structure. It serves as an inspiration for beginners, and behinds that it provides room for many challenging experiments. Users can develop their own motions, e.g. for dancing, gymnastics or kicking a ball. They will get insights into the complex phenomena of coordinated limb control, of kinematics and sensor-actor control. They can experiment with problems of perception, action planning, and coordination with other robots. The framework can also be used for Machine Learning, where many runs can be performed to train behaviors – much more than ever possible with real robots.

2013-02-22, godz. 14:15, s. 5820
Część 1: Adam Krasuski; Część 2: Andrzej Janusz (SGSP / MIMUW)
Część 1: Wykrywanie przypadków nietypowych - próba formalizacji problemu dla zdarzeń PSP; Część 2: JRS Data Mining Competition

Seminarium 22 lutego składać się będzie z trzech części.

 

W pierwszej części przedstawiony zostanie referat pt. „Wykrywanie przypadków nietypowych - próba formalizacji problemu dla zdarzeń PSP” autorstwa Dr Adama Krasuskiego. W czasie wystąpienia przedstawione zostaną rozważania w zakresie wykrywania przypadków nietypowych w dziedzinie pożarnictwa, jak również powiązania problemu z innymi dziedzinami. Dokonana zostanie formalizacja problemu. Przedstawiona zostanie wreszcie propozycja platformy do modelowania problemu.

 

W drugiej części Mgr Andrzej Janusz przedstawi założenia tegorocznego konkursu pt. „JRS Data Mining Competition” organizowanego we współpracy z firmą TunedIT przy konferencji JRS 2013 (Halifax, Kanada, 11-14 października). Referat zostanie uzupełniony podstawowymi informacjami o JRS 2013, jako najważniejszej w tym roku konferencji z zakresu teorii i zastosowań zbiorów przybliżonych, obejmującej też takie dziedziny jak eksploracja danych, obliczenia nieostre, czy technologie wiedzy.

 

Trzecią część zajmie dyskusja dotycząca dalszych referatów planowanych na seminarium w tym semestrze.
2013-01-25, godz. 14:15, s. 5820
Mateusz Adamczyk i Paweł Betliński
Lokalne uczenie sieci bayesowskich pod kątem szybkości obliczeń (kontynuacja)
Referat będzie poświęcony przedstawionemu już kiedyś na  
tym seminarium podejściu wnioskowania globalnej opartej na wszystkich  
atrybutach sieci bayesowskiej na bazie wyuczonych lokalnych struktur  
ilustrujących zależności na losowych podzbiorach atrybutów. Tym razem  
nacisk będzie położony na wskazaniu specyficznych warunków, przy  
których wyuczenie sieci na bazie lokalnych struktur ma szansę być  
mniej złożone czasowo w porównaniu z bezpośrednim uczeniem się pełnej  
sieci, przy zachowaniu pewnych cech precyzji wyniku. Ponadto poruszony  
tez będzie aspekt możliwości efektywnego zrównoleglenia procedury  
wnioskowania pełnej sieci z otrzymanych lokalnych grafów.
2013-01-18, godz. 14:15, s. 5820
Mateusz Adamczyk, Paweł Betliński
Lokalne uczenie sieci bayesowskich pod kątem szybkości obliczeń
Referat będzie poświęcony przedstawionemu już kiedyś na  
tym seminarium podejściu wnioskowania globalnej opartej na wszystkich  
atrybutach sieci bayesowskiej na bazie wyuczonych lokalnych struktur  
ilustrujących zależności na losowych podzbiorach atrybutów. Tym razem  
nacisk będzie położony na wskazaniu specyficznych warunków, przy  
których wyuczenie sieci na bazie lokalnych struktur ma szansę być  
mniej złożone czasowo w porównaniu z bezpośrednim uczeniem się pełnej  
sieci, przy zachowaniu pewnych cech precyzji wyniku. Ponadto poruszony  
tez będzie aspekt możliwości efektywnego zrównoleglenia procedury  
wnioskowania pełnej sieci z otrzymanych lokalnych grafów.
2013-01-11, godz. 14:15, s. 5820
Dominik Ślęzak
Dalsze Perspektywy dla Grantu Naukowego 2011/01/B/ST6/03867 pt. „Wybrane Aspekty Skalowalności Metod Eksploracji Danych i Odkrywania Wiedzy w Bazach Danych”
Celem wystąpienia jest przedstawienie dotychczasowych badań prowadzonych w ramach wyżej wymienionego grantu, takich jak np. wstępne grupowanie atrybutów prowadzące do przyspieszenia procesu selekcji cech oraz wykorzystanie języka SQL w konstrukcji modeli decyzyjnych z dużych zbiorów danych przechowywanych w relacyjnych bazach danych. Wystąpienie obejmie też najbliższe plany badawcze związane np. z wykorzystaniem algorytmów biredukcji w selekcji cech dla strumieni danych oraz adaptację dla celów analitycznych alternatywnych interfejsów bazodanowych.
2012-12-21, godz. 13:00, s. 4770
Choinka (Uniwersytet Warszawski)
Spotkanie świąteczne
Serdecznie zapraszamy na  świąteczne (opłatkowe) seminarium, które odbędzie się w piątek 21 grudnia w godzinach 13-15 w klubie pracowniczym na wydziale MIM.
W programie przewidziana prelekcja (życzenia), dyskusja (skromny poczęstunek) i miła atmosfera.

Wesołych Świąt

2012-12-14, godz. 15:00, s. 5820
Wojciech Świeboda (Uniwersytet Warszawski)
Walidacja semantyczna wyników wyszukiwania
Podczas referatu przypomnimy definicje zewnętrznych miar jakości grupowań (ogólniej -- miar podobieństwa dla grupowań) i zaproponujemy nowe podejście do problemu walidacji semantycznej.
2012-12-14, godz. 14:15, s. 5820
Michał Meina, Wojciech Świeboda (Uniwersytet Warszawski)
Rozszerzenie wyników zapytania za pomocą modelu TRSM
Tolerance Rough Set Model (TRSM) to model często wykorzystywany do definicji rozszerzonych reprezentacji dokumentów.  Jest to uogólniona przestrzeń aproksymacji wzbogacona o wagi podobne do TF-IDF w modelu wektorowym.
   Podczas referatu zaprezentujemy metodę poprawy wag (uczenie bez nadzoru) w tym modelu, przedstawimy plany związane z prowadzonymi eksperymentami w zakresie rozszerzania wyników wyszukiwania i nawiążemy do problemu klasyfikacji wieloetykietowej.
2012-12-07, godz. 14:15, s. 5820
Paweł Góra (Uniwersytet Warszawski)
Adaptacyjna optymalizacja złożonych procesów
Na seminarium opowiem o postępach w moich badaniach nad metodami adaptacyjnej optymalizacji ruchu drogowego. Przedstawię również plany najbliższych badań, m.in. pomysł wykorzystania obliczeń granularnych i interakcyjnych do konstrukcji adaptacyjnych algorytmów sterowania tym złożonym procesem.
2012-11-23, godz. 14:15, s. 5820
Stanisław Łazowy (Szkoła Główna Służby Pożarniczej)
Wykrywanie przypadków nietypowych w bazie meldunków Państwowej Straży Pożarnej
System EWID gromadzi meldunki z wszystkich akcji
ratowniczo-gaśniczych. Meldunki mogą zawierać błędy trudne do wykrycia przez zbiór nałożonych reguł.
Istnieje potrzeba wykrywania takich meldunków.

W czasie seminarium przedstawię metody znajdowania nietypowych meldunków, podjęte przeze mnie próby jak i plan dalszych prac w tym zakresie.
2012-11-16, godz. 14:15, s. 5820
Karol Kreński (Szkoła Główna Służby Pożarniczej)
Wprowadzenie spójnego języka opisu akcji ratowniczo-gaśniczych

Straż Pożarna używa systemu EWID, w którym są gromadzone meldunki z akcji ratowniczo-gaśniczych. Fragment systemu stanowi sekcja, w której strażacy opisują akcje w języku naturalnym. System od zawsze posiadał bardzo ograniczoną walidację wprowadzanych danych (nie ma nawet kontroli ortografii) przez co opisy wyrażane są w bardzo zróżnicowany sposób.

 

W czasie seminarium przedstawię scenariusz ujednolicenia opisów (szablony opisów) oraz omówię zastosowane metody czyszczenia danych.

2012-11-09, godz. 10:30, s. 2180
Ogólnopolskie warsztaty zbiorów przybliżonych
OGÓLNOPOLSKIE WARSZTATY ZBIORÓW PRZYBLIŻONYCH
9 XI 2012,
Wydział MIM UW, Banacha 2, Warszawa, SALA 2180, GODZ. 10:30-16:00

PROGRAM
10:30-10:40    Powitanie prelegentów i uczestników warsztatów
        dr hab. Dominik Ślęzak (Prezes IRSS)
10:40-11:20    Wykład plenarny pt.:
Wspomaganie decyzji w oparciu o dominacyjną teorię zbiorów przybliżonych
prof. dr hab. inż. Roman Słowiński (Politechnika Poznańska)
11:20-11:30    Przerwa
11:30-12:10    Wykład plenarny pt.: Nowe zastosowania multimodalnych interfejsów
człowiek-komputer, wykorzystujących inteligentne przetwarzanie danych
prof. dr hab. inż. Andrzej Czyżewski (Politechnika Gdańska)
12:10-12:20    Przerwa
12:20-13:00    Wykład plenarny pt.:
Perspektywy rozwoju teorii i zastosowań zbiorów przybliżonych
prof. dr hab. inż. Andrzej Skowron (Uniwersytet Warszawski)
13:00-14:00    Lunch
14:00-15:30    Dyskusja na temat inicjatyw związanych ze zbiorami przybliżonymi w Polsce
Prowadzący: dr hab. Hung Son Nguyen & dr Marcin Szczuka (Uniwersytet Warszawski)
KONTAKT
Dominik Ślęzak        slezak@mimuw.edu.pl
Hung Son Nguyen    son@mimuw.edu.pl
Marcin Szczuka        szczuka@mimuw.edu.pl
2012-10-26, godz. 15:00, s. 5820
Wojciech Świeboda (Uniwersytet Warszawski)
Skalowalne metody wyznaczania krótkich reduktów
Głównym tematem referatu będzie problem wyznaczania (możliwie różnymi metodami) krótkich reduktów, ale w taki sposób, aby nie wyznaczać jawnie całej macierzy rozróżnialności. 

Mam nadzieję także pokazać drobne pomysły dla kilku innych problemów związanych ze zbiorami przybliżonymi. 

2012-10-26, godz. 14:15, s. 5820
Marcin Wojnarski
Rewolucja Open Access (kontynuacja)

2012-10-19, godz. 14:15, s. 5820
Krzysztof Stencel (MIM, Uniwersytet Warszawski)
Robust Query Processing

Streszczenie:

Systemy zarządzania relacyjnymi bazami danych zajmują swoja pozycje rynkową m.in. ze względu na skuteczność swoich aparatów wykonawczych zapytań. Abstrakcyjność SQL sprawia, że jedno zapytanie może mieć bardzo wiele różnych planów wykonania. W przypadku wielokierunkowych złączeń liczba planów jest większa niż wykładnicza względem liczby złączanych tabel. Optymalizator zapytań ma za zadanie wybrać jak najlepszy plan wykonania. Udowodniono, że wybór optymalnego planu jest problemem NP-trudnym. Z tego powodu optymalizatory realizują algorytmy heurystyczne, które metodami sztucznej inteligencji przeszukują przestrzeń dostępnych planów wykonania. Dotychczas oczekiwano, aby optymalizator jak najczęściej znalazł jak najlepszy plan. To może jednak oznaczać, że dopuszczamy, aby od czasu do czasu wybrano plan beznadziejny. Koncepcja Robust Query Processing (RQP) to oczekiwanie by optymalizator ZAWSZE znajdował plan AKCEPTOWALNY. W swoim wystąpieniu omówię metody i pomysły na RQP, m.in. te, o których dyskutowano na seminarium w Schloss Dagstul w sierpniu 2012.

2012-10-19, godz. 14:15, s. 5820
Krzysztof Stencel (MIM, Uniwersytet Warszawski)
Robust Query Processing

Streszczenie:

Systemy zarządzania relacyjnymi bazami danych zajmują swoja pozycje rynkową m.in. ze względu na skuteczność swoich aparatów wykonawczych zapytań. Abstrakcyjność SQL sprawia, że jedno zapytanie może mieć bardzo wiele różnych planów wykonania. W przypadku wielokierunkowych złączeń liczba planów jest większa niż wykładnicza względem liczby złączanych tabel. Optymalizator zapytań ma za zadanie wybrać jak najlepszy plan wykonania. Udowodniono, że wybór optymalnego planu jest problemem NP-trudnym. Z tego powodu optymalizatory realizują algorytmy heurystyczne, które metodami sztucznej inteligencji przeszukują przestrzeń dostępnych planów wykonania. Dotychczas oczekiwano, aby optymalizator jak najczęściej znalazł jak najlepszy plan. To może jednak oznaczać, że dopuszczamy, aby od czasu do czasu wybrano plan beznadziejny. Koncepcja Robust Query Processing (RQP) to oczekiwanie by optymalizator ZAWSZE znajdował plan AKCEPTOWALNY. W swoim wystąpieniu omówię metody i pomysły na RQP, m.in. te, o których dyskutowano na seminarium w Schloss Dagstul w sierpniu 2012.

2012-10-12, godz. 14:15, s. 5820
Marcin Wojnarski
Rewolucja Open Access

System komunikacji naukowej przechodzi dziś największą transformację od
czasów Gutenberga. Pierwszym impulsem do zmiany było upowszechnienie
internetu, które pozwoliło na udostępnianie artykułów naukowych w wersji
elektronicznej: w serwisach www wydawców, na stronach domowych autorów
czy w repozytoriach typu arXiv lub CiteseerX. Niestety, pomimo ogromnych
możliwości jakie daje internet i łatwości, z jaką można byłoby wymieniać
się wynikami badań, zdecydowana większość treści naukowych pozostaje
zamknięta za tzw. "pay wall": uzyskanie dostępu jest możliwe jedynie po
wykupieniu kosztownych subskrypcji instytucjonalnych lub równie drogiego
zakupu pojedynczych artykułów. "Pay wall" stanowi barierę dla
upowszechniania odkryć naukowych, która w dramatyczny sposób zmniejsza
"impact" artykułów i niejednokrotnie stawia pod znakiem zapytania sens
prowadzenia badań, do których wyników mało kto będzie miał dostęp. Co
gorsza, "Pay wall" skutecznie zablokował rozwój nowych dodatkowych
usług, typu Web 2.0, które mogłyby w zasadniczy sposób podnieść jakość i
efektywność komunikacji w środowisku naukowym, a także komunikacji
naukowców ze światem poza-akademickim, np. z przemysłem.

Wielu naukowców dostrzega ten problem. 10 lat temu powstała inicjatywa
BOAI: Budapest Open Access Initiative, która jako pierwsza sformułowała
pojęcie Otwartego Dostępu (Open Access, OA) do wyników badań: zasadą OA
jest darmowe udostępnianie w internecie pełnotekstowych wersji
recenzowanych (!) artykułów naukowych, na licencjach typu Creative
Commons, zezwalających na swobodną redystrybucję. Koszty publikacji
pokrywane są bądź przez autorów, bądź przez zewnętrzne instytucje (np.
towarzystwa naukowe redagujące dane czasopismo). Mimo dużego oporu ze
strony tradycyjnych wydawców, którzy w obecnym systemie posiadają
pozycję oligopolistyczną i nie są zainteresowani jego zmianą, z roku na
rok rośnie liczba czasopism OA: nowotworzonych lub przekształconych z
wersji zamkniętych (TA, Toll Access); często publikowanych samodzielnie
przez zespoły redakcyjne, bez pomocy wydawców, wyłącznie w wersji
elektronicznej. W ciągu 10 lat rozwinęło się też kilka nowych
wydawnictw, publikujących całkowicie w formie OA, których journale
zyskały bardzo dużą popularność, zwłaszcza w naukach biomedycznych
(PLoS, BioMed Central). Również tradycyjni wydawcy zaczęli oferować
odpłatnie "na życzenie" tryb OA dla artykułów w istniejących zamkniętych
journalach, prawdopodobnie pod wpływem zmian w polityce instytucji
grantodawczych, z których niektóre zaprzestały finansowania publikacji
zamkniętych.

Myślę, że warto poznać szerzej ideę Open Access i przyjrzeć się z bliska
zmianom, które mają obecnie miejsce, tak aby móc w nich aktywnie
uczestniczyć i wykorzystać je z pożytkiem we własnej pracy naukowej. O
tym postaram się opowiedzieć w moim referacie.

2012-10-05, godz. 14:15, s. 5820
Michal Pietal (Międzynarodowy Instytut Biologii Molekularnej i Komórkowej Warszawa)
"Wykorzystanie nowej funkcji odleglosci w algorytmie przewidywania trzeciorzedowej struktury bialka z mapy kontaktów"
Zapraszam na pierwsze seminarium zakladu logiki w roku akademickim 2012-2013.

Tytul:
"Wykorzystanie nowej funkcji odleglosci w algorytmie przewidywania trzeciorzedowej struktury bialka z mapy kontaktów"

Referuje: Michal Pietal

Streszczenie:
Mapy kontaktów bialek i struktur RNA od lat stanowia pomocne narzedzie do analiz i wizualizacji makroczasteczek.  Informacja z mapy kontaktów jest ponadto pomocna w przewidywaniu nieznanych struktur 3D bialek lub RNA.  Spotyka sie rózne metodologie, które na podstawie mapy kontaktów bialka odtwarzaja pelnoatomowa strukture 3D z nieznacznym bledem.  Jednym z podejsc do modelowania nieznanych struktur bialek na podstawie sekwencji aminokwasowej jest przewidywanie mapy kontaktów, a nastepnie odtwarzanie struktury 3D z mapy 2D.  Podczas referatu, poza niezbednym wprowadzeniem, zostanie ukazany nowy algorytm, który na podstawie mapy kontaktów tworzy mape odleglosci w oparciu o nowa funkcje odleglosci, nastepnie z wykorzystaniem algorytmu MDS (Multi-Dimensional Scaling), tworzy euklidesowa mape odleglosci oraz proponuje zgrubny, zredukowany model atomowy.  Na koniec przedstawione zostana typowe narzedzia do modelowania, które owocuja uzyskaniem pelnoatomowego modelu 3D, w oparciu o uzyskany wczesniej zredukowany model.  Rzeczony algorytm zostal uogólniony na rozmyte mapy kontaktów, co pozwala na odtwarzanie struktur przestrzennych z sekwencji, w polaczeniu z dowolna metoda predykcji map kontaktów.  Referat bedzie ilustrowany przykladami.
2012-06-05, godz. 10:15, s. 5820
Professor Hamido Fujita (Iwate Prefectural University, Japan)
FUZZY REASONING FOR MEDICAL DIAGNOSIS BASED AGGREGATION ON DIFFERENT ONTOLOGIES
In this seminar I will discuss on issues related to reasoning application for decision making in medical diagnosis. This is to reason on medical concepts that are viewed on two type ontologies; namely physical and mental. I will highlight issues on fuzzy reasoning by aggregating two types of ontologies that are used to formalize a patient state: mental ontology reflecting the patient mental behavior due to certain disorder and physical ontology reflecting the observed physical behavior exhibited through disorder. Similarity matching is used to find the similarity between fuzzy set reflected to mental fuzzy ontology, and physical fuzzy ontology. The alignment is projected on medical ontology to rank attributes for decision making. We apply aggregate function for ranking attributes related to physical object.  In the same time, we apply aggregate function for ranking attributes related to mental objects.  The alignment of these two aggregate functions produce weighted ranking order fuzzy set for medical decision making for diagnosis. The paper highlights these issues as new challenges extending intelligence reasoning of Virtual Doctor System called as VDS.
2012-06-01, godz. 14:15, s. 5820
Tru Cao (HCMUT and JVN Institute - VNUHCM)
Ontology-based and entity-centered text processing

Recognition and identification of entities, including both named entities and generic concepts, are one of the important issues in realization of 
semantic text processing, as they form essential elements in defining the meaning of a text. 
This talk presents our recent proposed ontology-based models and methods for entity recognition and disambiguation, and semantic query processing and text retrieval. Some application tools and systems using them are demonstrated.
2012-05-25, godz. 14:15, s. 5820
Alfredo Cuzzocrea (University of Calabria)
Supporting Compression and Accuracy in Multidimensional OLAP Data Cubes
In this talk, we will present some techniques for 
supporting compression and accuracy in multidimensional OLAP data cubes. The 
proposed techniques can be efficiently used in Quality-of-Answer-based OLAP 
tools, where OLAP users/applications and Data Warehouse servers are allowed to 
mediate on the compression and accuracy of (approximate) answers. Two techniques 
are presented: LCS-Hist (EDBT’09), which is able to deal with high-dimensional 
data cubes, and D-Syn (SSDBM’06), which exploits an analytical interpretation of 
data cubes for making the intrinsic data cube compression more flexible.

2012-05-25, godz. 12:15, s. 2180
Piotr Wisniewski (Uniwersytet Mikolaja Kopernika)
Enhanced Count Trees In Hibernate View
Counting trees are binary trees having the 
property that a node has a value representing the sum of the child nodes. The 
authors extend this concept to the trees that are not necessarily binary, in 
which each node apart the interesting source value has a value which is an 
aggregation of values of the whole subtree starting from that node. Aggregations 
can be arbitrary expressions, that can be computed from partial aggregations, 
such as SUM, COUNT, MIN, MAX, but not AVG. In the case of large hierarchical 
structures, obtaining grouping query for a group being a subtree, classically 
requires a recursive tabular expression, that is consumed by the grouping query. 
With aggregation proposed by the authors, the query reduces to reading a single 
value. The paper presents example of such an approach, then a sample interface 
for Hibernate, an object-relational mapping system, which allows you to easily 
define the relevant tables with aggregations and triggers keeping them up to 
date. The proposed interfaces retain Hibernate standards making the solution 
transparent for the programmer.

2012-05-18, godz. 14:15, s. 5820
Paweł Betliński
Proste spojrzenie na NP-trudność szukania rzadkich sieci bayesowskich

Celem referatu jest pokazanie NP-trudności problemu szukania sieci 
bayesowskiej o minimalnej liczbie krawędzi. Należy podkreślić, że 
NP-trudność wyznaczania najrzadszej sieci bayesowskiej była już od 
dawna rozważana i jest obecnie powszechnie znanym faktem - ale dla 
istotnie innego kryterium rzadkości.
2012-05-11, godz. 15:00, s. 5820
Anna Gomolińska (Uniwersytet w Białymstoku)
ANALIZA I ROZWIĄZYWANIE KONFLIKTÓW ZE SZCZEGÓLNYM UWZGLĘDNIENIEM METODY ZBIORÓW PRZYBLIŻONYCH

W każdym niemal środowisku, gdzie mają miejsce interakcje między występującymi tam obiektami, dochodzi do konfliktów. Tematyka konfliktów, niemal tak stara jak świat, była tradycyjnie badana w naukach społecznych i przyrodniczych. Od wielu lat jest też w kręgu zainteresowań informatyki, szczególnie w dziedzinie systemów rozproszonych, współbieżnych i wielo-agentowych. 

 

W swoim referacie dokonam krótkiego przeglądu problematyki analizy i rozwiązywania konfliktów. Szczególne miejsce zamierzam poświęcić podejściu do analizy konfliktów opartemu na teorii zbiorów przybliżonych. Podejście to zostało zaproponowane przez

Zdzisława Pawlaka w latach 80. XX w., a następnie rozwinięte, m.in., przez Andrzeja Skowrona i Rafała Deję. 
2012-05-11, godz. 14:15, s. 5820
Anna Gomolińska (Uniwersytet w Białymstoku)
ZBIORY PRZYBLIŻONE W OBLICZENIACH GRANULARNYCH: Wybrane zagadnienia

W swoim wystąpieniu zamierzam przedstawić wybrane aspekty obliczeń granularnych z perspektywy teorii zbiorów przybliżonych.

 

Obliczenia granularne (ang. granular computing) stanowią podejście w informatyce do rozwiązywania problemów obliczeniowych, w którym danym (także informacji i wiedzy)  nadaje się strukturę granularną, a następnie odpowiednio przetwarza się tak reprezentowane dane (informacje, wiedzę) w celu rozwiązania badanego problemu. Podstawowym pojęciem, wprowadzonym Lotfi A. Zadeha w latach 70. ubiegłego wieku, jest tutaj granula informacyjna (w skrócie, infogranula). Chociaż obliczenia granularne jako odrębna tematyka są dość młode, sama idea skupiania obiektów w granule i  wykorzystywania tych skupień w dalszych etapach rozwiązywania problemów badawczych lub praktycznych jest dobrze znana i stosowana nie tylko w informatyce i matematyce, ale też w wielu innych dziedzinach aktywności człowieka.

 

W prezentowanym podejściu idea obliczeń granularnych jest realizowana metodami i środkami oferowanymi przez teorię zbiorów przybliżonych zapoczątkowaną przez Zdzisława Pawlaka w latach 80. XX wieku. W referacie w syntetyczny sposób przedstawię wyniki moich badań nad dwoma następującymi zagadnieniami przetwarzania infogranul:

(A)  porównywanie infogranul pod względem ich wzajemnego zawierania się,  

(B)  tworzenie infogranul spełniających dane warunki.      

2012-04-20, godz. 14:15, s. 5820
Sebastian Stawicki ( )
Biredukty i biklastry - dualizm wierszowo-kolumnowy
Na seminarium przedstawię rozszerzenia klasycznych pojęć z teorii
zbiorów przybliżonych i eksploracji danych - reduktów i klastrów.
Rozszerzenia te polegają na wykorzystaniu dualizmu występującego
pomiędzy obiektami i ich atrybutami (dualizm wierszowo-kolumnowy).
Klaster w ogólności, to zbiór obiektów, które są do siebie podobne
względem zadanego kryterium. Zadanie szukania biklastrów
(biclustering, co-clustering, two-way clustering, subspace clustering)
to jednoczesne grupowanie wierszy i kolumn tablicy, tak aby
zoptymalizować pewną funkcję jakości. Dla lepszego zobrazowania możemy posłużyć się przykładem systemu informacyjnego o atrybutach binarnych, w którym szukanym biklastrem może jest "kwadratowy" (modulo permutacje kolumn i wierszy) fragment tablicy
(podzbiór obiektów i podzbiór atrybutów) wypełniony samymi jedynkami.
Redukt to nieredukowalny podzbiór atrybutów, który zachowuje
informację całego systemu lub tablicy decyzyjnej. Biredukt to para -
nieredukowalny podzbiór atrybutów (B) i nierozszerzalny podzbiór
obiektów (X), która zachowuje rozróżnialność w podzbiorze obiektów X
względem atrybutów z B.
Podczas wystąpienia spróbuję przybliżyć zarówno praktyczne aspekty
wykorzystania bireduktów i biklastrów, jak również zwrócić uwagę na
ich właściwości teoretyczne.
2012-04-13, godz. 14:15, s. 5820
Paweł Gora (Uniwersytet Warszawski)
Strategie adaptacyjne w optymalizacji złożonych procesów

Na seminarium przedstawię plan dalszych prac nad adaptacyjnym planowaniem złożonych procesów na przykładzie ruchu ulicznego.
Zaprezentuję algorytmy optymalizacji, które mam zamiar wykorzystać w swoich dalszych badaniach oraz sposób walidacji stosowanych przeze mnie metod.
2012-03-30, godz. 14:15, s. 5820
Hung Son Nguyen (Uniwersytet Warszawski)
Rough Classifiers and Support Vector Machines using Boolean Kernels

Rough Sets (RS) and Support Vector Machine (SVM) are the two big and 
independent research areas in AI. Originally, rough set theory is 
dealing with the concept approximation problem under uncertainty. The 
basic idea of RS is related to lower and upper approximations, and it 
can be applied in classification problem. At the first sight RS and 
SVM offer different approaches to classification problem. Most RS 
methods are based on minimal decision rules, while SVM converts the 
linear classifiers into instance based classifiers. This paper 
presents a comparison analysis between these areas and shows that, 
despite differences, there are quite many analogies in the two 
approaches. We will show that some rough set classifiers are in fact 
the SVM with Boolean kernel and propose some hybrid methods that 
combine the advantages of those two great machine learning approaches.
2012-03-23, godz. 15:00, s. 5820
Paweł Góra (Uniwersytet Warszawski)
Postępy w modelowaniu i symulacji ruchu ulicznego
Na seminarium opowiem o najnowszych postępach w modelowaniu i symulacji ruchu ulicznego, czyli o rozwijanym przeze mnie narzędziu Traffic Simulation Framework (TSF). Zaprezentuję m.in. funkcjonalności, które w ostatnim czasie dodałem do tworzonego przeze mnie programu. Wyniki te będą niebawem przedstawione na konferencji UKSim2012 (International Conference on Modelling and Simulation) na University of Cambridge.
2012-03-23, godz. 14:15, s. 5820
Professor Ivo Duentsch (Brock University, Kanada)
Remarks on contact relations on Boolean algebras
The paradigmatic example for a contact relation is that of having non-disjoint closures for regions in  n-dimensional space. Generally, a contact relation is a binary relation on a Boolean algebra reflecting some of the properties of this example. I will exhibit a topological and an algebraic representation theorem for contact algebras, and present a solution to two problems due to Düntsch and Winter and to Dimov and Vakarelov, respectively.
2012-03-09, godz. 14:15, s. 5820
Jonas Poelmans (Katholieke Univ. Leuven, Belgia)
Text and process mining with Formal Concept Analysis
Text mining scientific papers, process mining healthcare data and CORDIET software
system.
 
In the first part of this talk we show how we used Formal Concept Analysis (FCA) to analyze recent literature on FCA and some closely related disciplines using FCA. We collected 1072 papers published between 2003-2011 mentioning FCA in the abstract. We developed a knowledge browsing environment to support our literature analysis process. The pdf-files containing the papers were converted to plain text and indexed by
Lucene using a thesaurus containing terms related to FCA research. We use the
visualization capabilities of FCA to explore the literature, to discover and
conceptually represent the main research topics in the FCA community. We zoom
in on and give an overview of the papers published between 2003 and 2011 on
using FCA for knowledge discovery and ontology engineering in various
application domains. We also give an overview of the literature on FCA
extensions such as pattern structures, logical concept analysis, relational
concept analysis, power context families, fuzzy FCA, rough FCA, temporal and
triadic concept analysis and discuss scalability issues.
 
In the second part of this talk we analyze a dataset consisting of the activities performed to 148 patients during hospitalization for breast cancer treatment in a hospital in
Belgium. Hospitals increasingly use process models for structuring their care
processes. Activities performed to patients are logged to a database but these
data are rarely used for managing and improving the efficiency of care
processes and quality of care. In this talk, we propose a synergy of process
mining with data discovery techniques. We expose multiple quality of care
issues that will be resolved in the near future, discover process variations
and best practices and we discover issues with the data registration system.
For example, 25 % of patients receiving breast-conserving therapy did not
receive the key intervention "revalidation''. We found this was caused by
lowering the length of stay in the hospital over the years without modifying
the care process. Whereas the process representations offered by Hidden Markov
Models are easier to use than those offered by FCA, this data discovery
technique has proven to be very useful for analyzing process anomalies and
exceptions in detail. 
 
In the third part of this talk we introduce a novel human-centered data mining software system CORDIET which was designed to gain intelligence from unstructured textual data. The architecture takes its roots in several case studies which were a collaboration
between the Amsterdam-Amstelland Police, GZA hospitals and KU Leuven. It is
currently being implemented by bachelor and master students of Moscow Higher
School of Economics. At the core of the system are concept lattices which can
be used to interactively explore the data. They are combined with several other
complementary statistical data analysis techniques such as Emergent Self
Organizing Maps and Hidden Markov Models.  
 
We round up this presentation with a discussion on the potential of human centered knowledge discovery and scalability issues. We give some avenues for future research and possibilities for collaboration.
 

 
2012-03-02, godz. 15:00, s. 5820
Krzysztof Sopyła (Uniwersytet Warmińsko-Mazurski, Olsztyn)
Akceleracja procesu treningu alg. SVM dla dużych i rzadkich zbiorów danych

Praca skupia się na przyspieszeniu procesu treningu algorytmu SVM dla dużych zbiorów danych (>100k instancji). Poruszany problem rozwiązywany jest przy pomocy znanych algorytmów z teorii optymalizacji w rozwiązywaniu zadania optymalizacji kwadratowej pojawiającego się przy treningu SVM (zarówno w formie pierwotnej jak i dualnej). Zostaną zaprezentowane także własne wyniki na podstawie opracowanych zrównoleglonych wersji powyższych algorytmów oraz implementacji ich na procesorach graficznych (GPU).

2012-03-02, godz. 14:15, s. 5820
Jonas Poelmans (Katholieke Univ. Leuven, Belgia)
Text mining police data, 4 case studies on identifying domestic violence, human trafficking, terrorism and pedophile suspects in an overload of textual information

In the first part of this talk we introduce a human-centered process for knowledge discovery from unstructured text that makes use of Formal Concept Analysis and Emergent Self Organizing Maps. The knowledge discovery process is conceptualized and interpreted as successive iterations through the Concept-Knowledge (C-K) theory design square. To illustrate its effectiveness, we report on a real-life case study of using the process at the Amsterdam-Amstelland police in the Netherlands aimed at distilling concepts to identify domestic violence from the unstructured text in actual police reports. The case study allows us to show how the process was not only able to uncover the nature of a phenomenon such as domestic violence, but also enabled analysts to identify many types of anomalies in the practice of policing. We will illustrate how the insights obtained from this exercise resulted in major improvements in the management of domestic violence cases.

 

In the second part of this talk we describe the successful application of our innovative FCA-based semi-automated knowledge discovery in databases approach for extracting and profiling unknown suspects involved in forced prostitution from observational police reports. 700 000 to 2 000 000 women and children are trafficked across international borders each year and the majority of them is forced to work in the sex industry. Police organizations in the Netherlands dispose of a continuously increasing amount of unstructured text reports describing observations made by police officers during their work in the field. Based on guidelines of the Attorney Generals of the Netherlands we defined multiple early warning indicators that were used to index the 266 157 police reports. Using FCA lattices we revealed numerous unknown human trafficking and loverboy suspects. In depth investigation by the police resulted in a confirmation of their involvement in illegal activities resulting in actual arrestments been made. Our human-centered approach was embedded in to operational policing practice and is now successfully used on a daily basis to cope with the vastly growing amount of unstructured information.

 

In the third part of this talk we use Formal Concept Analysis to extract and visualize potential jihadists in the different phases of radicalisation from a large set of reports describing police observations.  The National Police Service Agency of the Netherlands developed a model to classify (potential) jihadists in four sequential phases of radicalism. The goal of the model is to signal the potential jihadist as early as possible to prevent him or her to enter the next phase. This model has up till now, never been used to actively find new subjects. We employ Temporal Concept Analysis to visualize how a possible jihadist radicalizes over time. The combination of these instruments allows for easy decision-making on where and when to act.

 

In the fourth part of this talk we propose a novel KDD methodology based on Temporal Relational Semantic Systems, the main structure in the temporal and relational version of Formal Concept Analysis. Grooming is the process by which pedophiles try to find children on the internet for sex-related purposes. In chat conversations they may try to establish a connection and escalate the conversation towards a physical meeting. Till date no good methods exist for quickly analyzing the contents, evolution over time, the present state and threat level of these chat conversations. For rapidly gaining insight into the topics of chat conversations we combine a linguistic ontology for chat terms with conceptual scaling and represent the dynamics of chats by life tracks in nested line diagrams. To showcase the possibilities of our approach we used chat conversations of a public American organization which actively searches for pedophiles on the internet.


 

2012-02-24, godz. 14:15, s. 5820
Sinh Hoa Nguyen (Uniwersytet Warszawski)
Wielowarstwowe uczenie relacji. Podejście zbiorów przybliżonych.

W wielu algorytmach eksploracji danych zakłada się, że dane do analizy są jednorodne pod względem typu i struktury. Dane w rzeczywistych aplikacjach są na ogół bardziej złożone. Mogą być one różnych typów (np. dokumenty, autorzy, afiliacja w systemach wyszukiwania informacji, sytuacje na drodze w danych z symulatorów drogowych) lub/i są ze sobą związane pewnymi relacjami dokładnymi lub przybliżonymi (np. cytowania między dokumentami, bycie autorem dokumentu).

Odkrywanie relacji występujących w tych danych jest wielkim wyzwaniem w uczeniu maszynowym i eksploracji danych.  Aproksymacja relacji bezpośrednio z danych w wielu przypadkach napotka na różnorakie  trudności. Wynikają one między innymi z tego, że: (1) Właściwy język opisu relacji docelowej jest na wyższym poziomie abstrakcji niż język opisu danych, (2) Relacja docelowa jest zbyt złożona i nie da się skutecznie aproksymować bezpośrednio za pomocą cech danych dostępnych na niskim poziomie, (3) Przestrzeń przeszukiwań jest zbyt duża i bez interakcji z użytkownikami/ ekspertami oraz wzbogacenia wiedzą dziedzinową aproksymacje relacji okazują się być niskiej jakości.

W referacie  przedstawione będzie podejście wielowarstwowego uczenia relacji wraz z przykładami  użycia tego podejścia. Dyskutowana będzie możliwość zastosowania wielowarstwowego uczenia  w  grupowaniu dokumentów i przypisywania dokumentów do autorów (ang. matching problem).

2012-02-17, godz. 14:15, s. 5820
Paweł Betliński (Uniwersytet Warszawski)
"No free lunch" na przykładzie prostej gry logicznej

Tematem referatu będzie Sokoban - ciekawa jednoosobowa gra logiczna, łącząca w sobie prostotę i elegancję reguł z potencjalnie dużym i urozmaiconym intelektualnym wyzwaniem. Gra stanowi interesujący materiał badawczy dla sztucznej inteligencji, wziąwszy pod uwagę, że człowiek (w miarę doświadczony gracz) potrafi niezwykle wręcz efektywnie w porównaniu do najlepszych obecnie automatycznych solverów rozwiązywać masę Sokobanowych problemów. Ponad dekadę temu badania pokazały jak bardzo odporny jest Sokoban na klasyczne metody przeszukiwania przestrzeni w celu znalezienia rozwiązania nie korzystające bądź korzystające w znikomym stopniu z wiedzy dziedzinowej. Przewagą człowieka jest to, że myśli abstrakcyjnie, potrafi z łatwością dekomponować pełen problem na szereg charakterystycznych dla tej gry niezależnych podproblemów, a dalej rozkładać poszczególne podproblemy na jeszcze mniejsze podzadania, i tak dalej, w efekcie całą trudność przeszukiwania przestrzeni możliwych stanów zrzucając na rozwiązywanie tych najniżej poziomowych celów.
2011-12-16, godz. 14:15, s. 5820
Marcin Kowalski (Uniwersytet Warszawski)
Wykorzystanie rachunku granularnego w opymalizacji relacyjnego silnika bazodanowego

W trakcie seminarium przedstawię zagadnienia, nad którymi dotychczas pracowałem, a które w założeniu będą podstawą mojej pracy doktorskiej.

Zagadnienia opierają się na wykorzystaniu paradygmatu obliczeń granularnych (ang. granular computing) w optymalizacji przechowywania i wykorzystania danych w relacyjnym silniku bazodanowym. Na przykładzie jednego z dostępnych rozwiazań typu open source (Infobright) chciałbym przedstawić 3 główne tematy badawcze: problem organizacji danych w trakcie ich ładowania do bazy, problem szybkich obliczeń dających wyniki przybliżone oraz problem wykorzystania wiedzy o kolumnach alfanumerycznych, których wartości posiadają pewną (znaną) strukturę. W trakcie spotkania chciałbym zaprezentować wypracowane podejścia oraz przedyskutować plany dalszego ich wykorzystania np. w kontekście trwającego obecnie projektu tworzenia wyszukiwarki semantycznej.

2011-12-09, godz. 14:15, s. 5820
Paweł Kierat (Uniwersytet Mikołaja Kopernika w Toruniu)
Interpretacja zapytań w języku naturalnym do wyszukiwarki semantycznej

Celem mojego referatu jest prezentacja przykładu zastosowania
gramatyki kategorialnej dla języka polskiego jako narzędzia do
parsowania zapytań do wyszukiwarki semantycznej zadawanych w języku
naturalnym. Omówię w jaki sposób kluczowe pojęcia składni
współczesnego języka polskiego przekładają się na konstrukcje formalne
gramatyki kategorialnej. Pokażę również, jak, na podstawie poprawnych
zdań lub fraz w języku polskim, efektywnie generować zapytania w
postaci formuł logiki deskrypcyjnej, które następnie mogą zostać
przekształcone do języka zapytań dowolnego systemu baz danych (np.
SQL). Na koniec przedstawię przykładową implementację, przetwarzającą
wybrane zapytania w oparciu o skonstruowany przeze mnie leksykon
ontologię dziedzin nauki dla projektu SYNAT.

2011-12-02, godz. 14:15, s. 5820
Łukasz Puławski (Uniwersytet Warszawski)
Wybrane problemy wykrywania wzorców w procesie wytwarzania oprogramowania
W referacie chciałbym przedstawić kilka problemów związanych z tematyką mojej pracy doktorskiej, która dotyczy wykrywania wzorców strukturalno-czasowych w rocesie wytwarzania oprogramowania. Podczas wystąpienia postaram się odpowiedzieć na następujące pytania:

    * Jaką strukturę mają dane dotyczące historii wytwarzania oprogramowania i w jaki sposób można je pozyskać?

    * Dlaczego warto poszukiwać wzorców w tych danych?

    * Czym się różnią wzorce strukturalne, temporalne (czasowe) i strukturalno-czasowe w tej konkretnej dziedzinie?

    * Jak można wykrywać tego typu wzorce i z jakimi obszarami badań jest to związane?

Ponadto chciałbym zaprezentować kilka ciekawych wyników z tej dziedziny, zarówno własnych jak i znalezionych w literaturze.
2011-11-25, godz. 14:15, s. 5820
Adam Krasuski
Obliczenia analityczne w hurtowni dokumentów tekstowych o modelu relacyjnym

W architekturze wyszukiwarki semantycznej SONCA rozwijanego w ramach projektu SYNAT wyodrębnione zostały cztery podstawowe moduły:

1. "Hurtownia lokalna": repozytorium informacji o dostępnych dokumentach.

2. Serwer indeksów analitycznych.

3. Serwer indeksów transakcyjnych.

4. Interfejs z użytkownikiem.

W ramach prac nad systemem SONCA, zajmowałem się obliczeniami mającymi na celu przejście z postaci indeksów analitycznych na indeksy transakcyjne. W trakcie mojego wystąpienia zaprezentuję rozważania odnośnie przydatności wykorzystania różnych technologii do realizacji powyższego celu a także zaprezentuję eksperymenty z zaproponowanej przeze mnie metody realizacji tych obliczeń.

 

2011-11-18, godz. 14:15, s. 5820
Andrzej Janusz (Uniwersytet Warszawski)
Learning of a Similarity Relation from Highly Dimensional Data - omówienie projektu rozprawy doktorskiej

W czasie wystąpienia chciałbym zaprezentować konspekt mojej rozprawy doktorskiej. Dotyczy ona problemu uczenia się relacji podobieństwa z danych, z szczególną uwagą poświęconą na przypadek, gdy dane są wielowymiarowe (liczba atrybutów przekracza dziesiątki tysięcy). Przykładem takich danych mogą być np. zbiory mikromacierzy lub tekstów. Nauka relacji podobieństwa dla tego typu danych stanowi duże wyzwanie ze względu na zawodność najczęściej stosowanych metod.
W rozprawie pragnę zaprezentować nowy model aproksymacji podobieństwa, oparty o obserwacje psychologów oraz teorie zbiorów przybliżonych. Oprócz samego planu rozprawy, zaprezentuje również wybrane wyniki doświadczeń służących ewaluacji zaproponowanego modelu.

2011-11-04, godz. 16:15, s. 5440
Mikhail Moshkov, Beata Zielosko
King Abdullah University of Science and Technology as a Place for Studies, Work and Life
2011-11-04, godz. 14:15, s. 5820
Beata Zielosko
Dynamic Programming Approach for Optimization of Approximate Decision Rules

We consider the notion of approximate decision rule, describe a way
for representation of the whole set of irredundant approximate decision rules
based on directed acyclic graph with nodes that are subtables of the
initial decision table, and present a way for sequential optimization
of approximate decision rules relative to the length, coverage, and number
of misclassifications. We present also results of experiments with decision
tables from UCI ML Repository.

Inhibitory Rules in Machine Learning and Data Mining
Mikhail Moshkov

We consider known results about possibilities to use inhibitory rules
in classifiers and for knowledge representation, and also consider new
algorithms for inhibitory rule optimization based on extensions of
dynamic programming.

2011-10-28, godz. 14:15, s. 5820
Dominik Ślęzak (Uniwersytet Warszawski)
SKALOWALNOŚĆ METOD EKSPLORACJI DANYCH I ODKRYWANIA WIEDZY W BAZACH DANYCH, ZE SZCZEGÓLNYM UWZGLĘDNIENIEM PRZYBLIŻONYCH ZALEŻNOŚCI POMIĘDZY ZBIORAMI ATRYBUTÓW

W dziedzinach Odkrywania Wiedzy w Bazach Danych i Systemów Uczących się, opracowano wiele metod uczenia się klasyfikatorów o dużej skuteczności. Jednak wciąż konieczne są dalsze badania nad skalowalnością tych metod dla dużych zbiorów danych. Nowe narzędzia potrzebne są zarówno dla analizy, jak i podsumowań danych. Narzędzia te muszą działać przy ograniczeniach ze względu na czas i pamięć. Powinny także umieć generować uproszczone reprezentacje danych, które byłyby zrozumiałe dla użytkowników.

Głównym celem nowo przyznanego grantu NCN pt. Wybrane Aspekty Skalowalności Metod Eksploracji Danych i Odkrywania Wiedzy w Bazach Danych będzie rozwój nowych skalowalnych metod eksploracji danych odnoszących się do znanych podejść, takich jak uczenie się drzew decyzyjnych, czy pokrywanie danych regułami decyzyjnymi, w połączeniu z wyznaczaniem podzbiorów cech i zespołów klasyfikatorów działających na podzbiorach zdekomponowanych danych. Szczególny nacisk zostanie położony na klasyfikatory oraz wyuczone z danych modele wspierające decyzje łatwo interpretowalne dla użytkowników i możliwe do przeliczenia, jeśli dane ulegną zmianie.

Grant obejmować będzie między innymi: 1. Algorytmy eksploracji dużych zbiorów danych poprzez automatycznie generowane analityczne kwerendy SQL, w tym kwerendy aproksymacyjne; 2. Metody uczenia się zespołów klasyfikatorów, zbiorów cech i wzorców dekompozycji dla dużych zbiorów danych zmieniających się w czasie; 3. Algorytmy eksploracji dużych zbiorów danych działające interakcyjnie na statystycznych podsumowaniach granul danych i na danych szczegółowych. Lista zadań związanych z różnymi aspektami skalowalności jest jednak otwarta.

W swoim wystąpieniu nawiążę także do wyników zawartych w rozprawie habilitacyjnej pt. Przybliżone Zależności Zbiorów Atrybutów w Eksploracji Danych i Wnioskowaniach Aproksymacyjnych, które – oprócz zapewnienia matematycznych i algorytmicznych podstaw dla stosowania szerokiej gamy metod wyrażania i posługiwania się przybliżonymi zależnościami funkcyjnymi oraz przybliżonymi niezależnościami warunkowymi – prowadzić mogą ku nowym metodom skalowalnej selekcji zbiorów cech. W istocie, metody wyrażania przybliżonych zależności pomiędzy zbiorami atrybutów mogą być inspirowane nie tylko samą naturą danych bądź chęcią wyznaczania konkretnych rodzajów modeli decyzyjnych, ale także koniecznością analizy dużych zbiorów danych w sposób aproksymacyjny.

W miarę możliwości, wystąpienie obejmie również inne materiały wchodzące w skład kolokwium habilitacyjnego, które wiążą się z zagadnieniami skalowalności metod eksploracji i przetwarzania danych: 1. Kolumnowe i granularne silniki RDBMS; 2. Analiza skupień dla danych strumieniowych; 3. Aproksymacyjne rozszerzenia języka SQL.

2011-10-14, godz. 16:15, s. 5820
Dr Marianna Nicolosi Asmundo (University of Catania, Italy)
Decision procedures based on dual tableaux for some logics of binary relations
Seminarium organizowane wspólnie przez Zaklad Logiki Matematycznej Wydziału Matematyki, Informatyki i Mechaniki UW oraz Instytut Łączności 
We consider four fragments of the relational logic RL(1) obtained by posing  some constraints on the terms constructed with the composition operator. In particular, the first argument of the composition can only be a relational variable in the first fragment, a positive Boolean term in the second one, a positive Boolean term involving the inverse operator in the third one, and any term not containing the composition operator in the latter fragment. These logics may serve as formalisms for the representation of various theories, in particular of some non-classical logics including modal and description logics. We show how relational dual tableaux can be used to provide decision procedures for each of them. 
This is joint work with Ewa Orlowska and Domenico Cantone.
2011-10-07, godz. 15:45, s. 5820
Sebastian Stawicki
Two rough set based feature ranking methods
I briefly overview two rough set based feature ranking methods along with a new algorithm called Rough Attribute Ranker (RAR). RAR assesses the usefulness of features by measuring their impact on the reducts  that contain them. The quality of the developed method was evaluated experimentally on both artificial and real-life datasets.
2011-10-07, godz. 14:15, s. 5820
Wojciech Jaworski (Uniwersytet Warszawski)
Gramatyka Kategorialna Języka Polskiego
Celem referatu jest prezentacja formalizmu gramatycznego opartego na niekomutatywnej intuicjonistycznej logice liniowej. Formalizm ten utożsamia wywody gramatyczne z twierdzeniami w logice liniowej. Przedstawię pełny system dowodowy dla mojej logiki a następnie pokażę w jaki sposób można go aproksymować systemem słabszym ale za to pozwalającym  efektywnie parsować (dowodzić) za pomocą parsera tablicowego. Jedną z zalet prezentowanego formalizmu jest zdolność do reprezentowania w zwarty sposób niejednoznaczności pojawiających się podczas analizy morfologicznej oraz składniowej. Pozwala to zastąpić dezambiguację morfosyntaktyczną przez ujednoznacznianie sensów słów w oparciu o bazę wiedzy. Następnie pokażę w jaki sposób w oparciu o analizator morfologiczny "Morfeusz" można zbudować prosty leksykon umożliwiający przetwarzanie wypowiedzi w języku polskim. Na koniec zaprezentuję wstępną wersję programu generującego drzewa rozbioru składniowego za pomocą opisanego formalizmu.
2011-10-04, godz. 14:15, s. 5820
prof. Manfred Kudlek (University of Hamburg)
Universality of automata below Turing Machines
In the talk it is shown that there exist universal machines of the same kind for any primitive recursive space complexity function, and that there don't exist universal finite automata. The existence of universal pushdown automata is discussed too.
2011-09-26, godz. 14:15, s. 5820
Beata Zielosko (Uniwersytet Warszawski)
Dynamic Programming Approach for Optimization of Decision Rules
We are interested in the construction of short rules which cover many objects. In particular, the choice of short rules is connected with the Minimum Description Length principle. The rule coverage is important to discover major patterns in the data. Unfortunately, the problems of minimization of length and maximization of coverage of decision rules are NP-hard. We present an approach for decision rules optimization based on extensions of dynamic programming.  This approach allows us to describe the whole set of irredundant decision rules and optimize these rules sequentially relative to the length and coverage or relative to the coverage and length. We consider also results of experiments with decision tables from UCI Machine Learning Repository.We prove that by removal of some conditions from the left-hand side of each decision rule which is not irredundant, we can obtain an irredundant decision rule which length is at most the length of initial rule and coverage is at least the coverage of initial rule. It means that we work not only with optimal rules among irredundant decision rules but with optimal among all decision rules.
2011-06-17, godz. 14:15, s. 5820
Shahid Hussain (KAUST)
On relationships among various cost functions and with an uncertainty measure for decision trees
This talk is devoted to the design of new tools for studying exact and approximate decision trees (α-decision trees). We present algorithms to study the relationships between number of misclassification and number of nodes with the depth of an exact decision tree. We also present an algorithm that describes relationships between these and other cost functions (such as average depth, number of terminal nodes, etc) with a measure of uncertainty for approximate decision tree α -decision trees). Furthermore, we provide results of experiments conducted with these algorithms on decision tables (datasets) acquired from UCI ML Repository.
2011-06-10, godz. 14:15, s. 5820

Rozpoznawanie formuł matematycznych

Grzegorz Materna


Techniki automatycznego rozpoznawania tekstów w plikach graficznych (OCR) są szeroko stosowane w dostępnych aplikacjach. Dokumenty uzyskane w trakcie takiej konwersji pozwalają na automatyczne przeszukiwanie tekstów w celu wyszukiwania interesujących fraz. Wzory matematyczne powstałe w trakcie takiej konwersji najczęściej przechowywane są jako obrazy całości lub obrazy poszczególnych elementów bez ustalonej struktury i relacji pomiędzy nimi.

Na seminarium omówię tematykę związaną z rozpoznawaniem formuł matematycznych z obrazów cyfrowych.
Rozpoznawanie formuł matematycznych rozbić można na kilka podstawowych kroków:
- konwersja dokumentu do formatu docelowego,
- dekompozycja dokumentu na obiekty składowe,
- detekcja obiektów zawierających formuły matematyczne,
- detekcja elementów matematycznych w obiektach,
- strukturalizacja elementów,
- generowanie prezentacji formuły.

W trakcie prezentacji opiszę algorytmy i aplikację, które są w tej chwili przeze mnie rozwijane oraz omówię przyszłe kierunki mojej pracy badawczej w tej dziedzinie.

 

 

Strukturalne podobieństwo dokumentów XML

Arkadiusz Konior

W prezentacji przedstawię metodę klasteryzacji dokumentów w formacie XML. Zaprezentuję kilka metod porównywania struktury: Tree-Editing Distance, Discrete Fourier Transformation oraz miara podobieństwa oparta na entropii struktury.  Pokażę różne sposoby ekstrakcji struktury z dokumentu i wpływ na wyniki. W referacie przedstawię wyniki eksperymentów, porównanie metod,
możliwe zastosowania oraz plany przyszłego rozwoju.

2011-06-03, godz. 14:15, s. 5820
Mikhail Moshkov (KAUST)
Extensions of Dynamic Pogramming for Design and Analysis of Decision Trees and Rules
The presentation is devoted to the description of new tools for decision tree study based on extensions of dynamic programming: sequential optimization of decision trees relative to different criteria, study of relationships between two cost functions, and between a cost function and uncertainty of decision trees. We consider one application - comparison of 16 heuristics for decision tree optimization relative to different cost functions. We discuss extensions of  some of these results to the case of decision rules.
2011-05-27, godz. 14:15, s. 5820
Piotr Kosiuczenko (Instytutu Systemów Informatycznych WAT)
Metody inżynierii oprogramowania w konstrukcji systemu wspierającego diagnostykę i leczenie pacjenta
Systemy informatyczne stały się nieodłączną częścią współczesnej
medycyny. Diagnozowanie chorób i leczenie pacjenta wymagają zwykle
przeprowadzenia badań, czasem rozlicznych i skomplikowanych, oraz
interpretacji ich wyników. Konieczna jest tu odpowiednia interpretacja
wyników i zarządzanie danymi pacjenta.
W tym referacie przedstawiona zostanie konstrukcja innowacyjnego systemu
wspomagania diagnostyki i leczenia pacjenta. W szczególności omówiony
zostanie model biznesowy tego systemu oraz generyczna metoda konstrukcji
GUI spełniającego wymagania personelu medycznego.
2011-05-20, godz. 14:15, s. 5820
Dominik Ślęzak, Sebastian Widz
Zespoły Klasyfikatorów Regułowych: Podejście Inspirowane Metodami Zbiorów Przybliżonych
We consider a rough-set-inspired framework for deriving feature subset ensembles from data. Each of feature subsets yields a single classifier, basically by generating its corresponding if-then decision rules from the training data. Feature subsets are extracted according to a simple randomized algorithm, following the filter (rather than wrapper or embedded) methodology. Classifier ensemble is built from single classifiers by defining aggregation laws on top of decision rules. We investigate whether rough-set-inspired methods can help in the steps of formulating feature subset optimization criteria, feature subset search heuristics, and the strategies of voting among classifiers. Comparing to our previous research, we pay a special attention to synchronization of the filter-based criteria for feature subset selection and extraction of rules basing on the obtained feature subsets. The overall framework is not supposed to produce the best-ever classification results, unless it is extended by some additional techniques known from the literature. Our major goal is to illustrate in a possibly simplistic way some general interactions between the above-mentioned criteria.
2011-05-19, godz. 10:30, s. 5070
John Oommen (Carleton University, Kanada)
Learning Automata-based Intelligent Tutorial-like Systems

Learning Automata-based Intelligent Tutorial-like Systems

 

John Oommen

Chancellor's Professor
School of Computer Science
Carleton University
Ottawa ON K1S 5B6 Canada

 

CZWARTEK, 19 MAJA, GODZ. 10:30, SALA 5070

 

 

STRESZCZENIE

 

The aim of this pioneering research is to study, design, and implement systems that could tutor other sub-systems using techniques that traditional real-life Teachers use when they teach real-life Students. The research undertaken is a result of merging the fields of Intelligent Tutoring Systems (ITS) and Learning Automata (LA), and leads to a paradigm referred to as Intelligent Tutorial-like systems. In our proposed novel approach, every component incorporates the fundamental principles of LA. Thus, we model the Student (i.e., the learning mechanism) using an LA, and a Classroom of Students, in which each of them is individually represented by a distinct (and possibly different) LA. We also model the Domain and the Teacher using LA paradigms.

 

Our research also works within a new philosophical perspective. We relax the constraint that “traditional” Tutorial systems have, namely that of assuming that the Teacher is infallible. Rather, we assume that the Teacher is inherently uncertain of the domain knowledge, and is thus of a stochastic nature. However, although he is not absolutely certain about the material being taught, he is also capable of improving his own “teaching skills” even while the operation of the system proceeds. Finally, we also attempt to model a realistic learning framework, where the Students can learn not only from the Teacher, but also from other colleague Students in the Classroom.

 

O PRELEGENCIE

 

Dr. John Oommen was born in Coonoor, India on September 9, 1953. He obtained his B.Tech. degree from the Indian Institute of Technology, Madras, India in 1975. He obtained his M.E. from the Indian Institute of Science in Bangalore, India in 1977. He then went on for his M.S. and Ph. D. which he obtained from Purdue University, in West Lafayettte, Indiana in 1979 and 1982 respectively. He joined the School of Computer Science at Carleton University in Ottawa, Canada, in the 1981-82 academic year. He is still at Carleton and holds the rank of a Full Professor. Since July 2006, he has been awarded the honorary rank of Chancellor's Professor, which is a lifetime award from Carleton University. His research interests include Automata Learning, Adaptive Data Structures, Statistical and Syntactic Pattern Recognition, Stochastic Algorithms and Partitioning Algorithms. He is the author of more than 345 refereed book chapters, journal and conference publications, and is a Fellow of the IEEE and a Fellow of the IAPR. Dr. Oommen has also served on the Editorial Board of the IEEE Transactions on Systems, Man and Cybernetics, and Pattern Recognition.

2011-05-13, godz. 14:15, s. 5820
Sinh Hoa Nguyen, Grzegorz Jaśkiewicz, Wojciech Świeboda (Uniwersytet Warszawski)
Grupowanie wyników wyszukiwania
Podczas prezentacji omówimy algorytm LINGO zaimplementowany
w systemie Carrot2, pokażemy jak w modelu wektorowym uwzględnić dodatkowe
informacje o dokumentach i pokażemy wyniki wtępnych eksperymentów
gdy te dodatkowe informacje dotyczą cytowań prac.
2011-05-12, godz. 16:15, s. 5440
Prof. dr hab. inż. Witold Pedrycz (University of Alberta, Edmonton, Canada)
ZARZĄDZANIE WIEDZĄ W MODELOWANIU SYSTEMÓW

ZAPRASZAMY NA ODCZYT

 

12 maja (CZWARTEK) 2011 roku, Banacha 2 , MIMUW, sala 5440, godz. 16:15

 

ZARZĄDZANIE WIEDZĄ W MODELOWANIU SYSTEMÓW

Optymalizacja alokacji informacji ziarnistej

 

Prof. dr hab. inż. Witold Pedrycz

Department of Electrical and Computer Engineering, University of Alberta, Edmonton, Canada

oraz

Instytut Badań Systemowych PAN

 

Streszczenie

Z poznawczego jak i aplikacyjnego punktu widzenia intrygującym jest zagadnienie budowy modeli o charakterze globalnym, które realizowane są poprzez realizację współdziałania pomiędzy modelami lokalnymi odzwierciedlającymi indywidualne aspekty modelowanego systemu. Interesującym przykładem są tutaj modele decyzyjne.  Wysoka złożoność systemu, różnorodność używanych zmiennych oraz istotne znaczenie elementu ludzkiego stanowią ważne aspekty, które w sposób przekonywujący motywują konieczność budowy modeli globalnych i wykorzystanie mechanizmów współdziałania. 

 

Modele mogą być traktowane jako indywidualne źródła wiedzy. Model o charakterze globalnym tworzony jest w rezultacie negocjacji/współdziałania pomiędzy źródłami wiedzy. Efektem współdziałania są struktury sformułowane na wyższym poziomie abstrakcji - modele ziarniste. Ziarnistość informacji umożliwia realizacje współdziałania jak również pozwala na kwantyfikację różnorodności wykorzystywanych źródeł wiedzy.  

Rozpatrzymy trzy główne kategorie schematów wykorzystania modeli traktowanych jako źródła wiedzy: (a)  konstrukcja modelu ziarnistego umiejscowionego na wyższym poziomie hierarchii w stosunku do indywidualnych źródeł wiedzy, (b) jednopoziomowe współdziałanie pomiędzy lokalnymi źródłami wiedzy,  (c) transfer wiedzy.

Ziarnistość informacji  jest ważnym aspektem modelowania. Alokacja przyjętego poziomu  ziarnistości pozwala na efektywną realizację modeli ziarnistych i zrealizowana jest w procesie optymalizacji.

Przedstawiony zostanie szereg reprezentatywnych przykładów ilustrujących każdą z powyższych kategorii zaproponowanej taksonomii. Wprowadzimy pojecie ziarnistych modeli rozmytych, ziarnistych modeli regresyjnych, ziarnistych sieci neuronowych, itp.  Szczegółowo omówimy zadania alokacji ziarnistości informacji w grupowym modelu decyzyjnym AHP (Analytic Hierarchy Process) oraz w problemach konstrukcji ziarnistych sieci rozmyto-neuronowych.

2011-05-09, godz. 14:15, s. 5820
Guoyin Wang (Chongqing University of Posts and Telecommunications)
3DM: DOMAIN-ORIENTED DATA-DRIVEN DATA MINING

ZAPRASZAMY NA WYKŁAD

9 maja (PONIEDZIAŁEK) 2011, godz. 14:15, sala 4420, Wydział MIMUW, Banacha 2

3DM: DOMAIN-ORIENTED DATA-DRIVEN DATA MINING

Guoyin Wang

Institute of Computer Science and Technology, Chongqing University of Posts and Telecommunications

Chongqing, 400065, China P. R. , e-mail: wanggy@ieee.org

ABSTRACT

Recent developments in computing, communications, digital storage technologies, and high-throughput data-acquisition technologies, make it possible to gather and store incredible volumes of data. It creates unprecedented opportunities for knowledge discovery large-scale database. Data mining technology is a useful tool for this task. It is an emerging area of computational intelligence that offers new theories, techniques, and tools for processing large volumes of data, such as data analysis, decision making, etc. There are countless researchers working on designing efficient data mining techniques, methods, and algorithms. Unfortunately, most data mining researchers pay much attention to technique problems for developing data mining models and methods, while little to basic issues of data mining. What is data mining? What is the product of data mining process? What are we doing in a data mining process? What is rule we would obey in a data mining process? What is the relationship between the prior knowledge of domain experts and the knowledge mind from data? In this talk, these basic issues of data mining are analyzed from the viewpoint of informatics. Data is taken as a manmade format for encoding knowledge about the nature world. Data mining is taken as a process of knowledge transformation. A domain-oriented data-driven data mining (3DM) model based on a conceptual data mining model is introduced. Some data-driven default rule generation algorithms are also introduced to show the validity of this model.

 

Brief biography:

Professor Guoyin Wang was born in Chongqing, China, in 1970. He received the bachelor’s degree in computer software, the master’s degree in computer software, and the Ph.D. degree in computer organization and architecture from Xi’an Jiaotong University, Xi’an, China, in 1992, 1994, and 1996, respectively. He worked at the University of North Texas, USA, and the University of Regina, Canada, as a visiting scholar during 1998-1999. Since 1996, he has been working at the Chongqing University of Posts and Telecommunications, where he is currently a professor and PhD supervisor, the Chairman of the Institute of Computer Science and Technology (ICST), and the Dean of the College of Computer Science and Technology. He is also a part-time professor with the Xi’an Jiaotong University, Shanghai Jiaotong University, Southwest Jiaotong University, Xidian University, and University of Electronic Science and Technology of China. Professor Wang is the Chairman of the Steering Committee of International Rough Set Society (IRSS), Chairman of the Rough Set Theory and Soft Computation Society, Chinese Association for Artificial Intelligence. He served or is currently serving on the program committees of many international conferences and workshops, as program committee member, program chair or co-chair. He is an editorial board member of several international journals. Professor Wang has won many governmental awards and medals for his achievements. He was named as a national excellent teacher and a national excellent university key teacher by the Ministry of Education, China, in 2001 and 2002 respectively. Professor Wang was elected into the Program for New Century Excellent Talents in University by the Ministry of Education of P R China in 2004, and won the Chongqing Science Fund for Distinguished Young Scholars in 2008. He has delivered many invited talks at international and national conferences, and has given many seminars in USA, Canada, Poland, and China. The institute (ICST) directed by Professor Wang was elected as one of the top ten outstanding youth organizations of Chongqing, China. Professor Wang is the author of 2 books, the editor of many proceedings of international and national conferences, and has over 200 research publications. His books and papers have been cited over 5000 times. His research interests include rough set, granular computing, knowledge technology, data mining, machine learning, neural network, soft computing, cognitive computing, etc.

2011-05-06, godz. 14:15, s. 5820
Andrzej Janusz
Semantyczne grupowanie dokumentow o tematyce zbiorow przyblizonych przy uzyciu wiedzy z DBPedii
Tematem mojej prezentacji bedzie problem semantycznego grupowania
dokumentow tekstowych. W czasie wystapienia omowie metode
reprezentacji tekstow przez wektory asocjacji z pojeciami pochodzacymi
z zewnetrznej bazy wiedzy (Explicit Semantic Analysis). Przedstawie
rowniez wyniki eksperymentu, w ktorym metoda ta zostala wykorzystana
do reprezentacji prac naukowych wspolpracownikow Zakladu Logiki
Matematycznej, na potrzeby grupowania tematycznego. Eksperyment
przeprowadzono na korpusie kilkuset dokumentow z ostatnich kilkunastu
lat, a jako baze wiedzy wykorzystano DBpedie. Oprocz analizy samych
wynikow grupowania, postaram sie rowniez zarysowac plan rozwoju i
wykorzystania opisanej metody w ramach projektu SYNAT.
2011-04-08, godz. 14:15, s. 5820
Marcin Szczuka (Uniwersytet Warszawski)
Crowdsourcing - czyli jak skłonić tłum by pracował dla Ciebie?

Crowdsourcing, termin pochodzący od angielskiego "Outsourcing to the Crowd" to relatywnie młody paradygmat realizacji obliczeń (zadań obliczeniowych). Główna idea to wykorzystanie wyspecjalizowanych serwisów   internetowych do przekazywania grupie osób (Crowd) zadań obliczeniowych, które dla komputera są zbyt skomplikowane, jak np. rozpoznawanie pisma ręcznego.  Dzięki wykorzystaniu ludzi w procesie obliczenia uzyskujemy pozytywne sprzężenie zwrotne między ludzką zdolnością do rozumowania i decydowania przy informacji niepewnej a możliwościami komputerów w zakresie automatyzacji, powtarzalności i precyzji obliczeń.

W referacie przedstawione zostanie omówienie zjawiska crowdsoucing wraz z informacją o istniejących rozwiązaniach (platformach) i przykładami udanych zastosowań. Szczególny nacisk zostanie położony na potencjalne zastosowania Crowdsourcing w zagadnieniach związanych z realizowanymi w Zakładzie projektami dotyczącymi  obliczeń interaktywnych i wydobywania informacji i wiedzy (IR).

 

 

2011-04-01, godz. 14:15, s. 5820
Marek Krótkiewicz (Uniwersytet Opolski)
Szkieletowy System Semantycznej Bazy Wiedzy

     Celem referatu jest przedstawienie aktualnego stanu prac nad pewnym systemem z dziedziny inżynierii wiedzy, w której szczególny nacisk położono na aspekty semantyczne bazy wiedzy. Z założenia system ten jest systemem szkieletowym tzn. nie odnosi się on do konktretnej dziedziny wiedzy, w obszarze której będzie operował.       

Zostanie przedstawiona struktura bazy wiedzy w modelu obiektowym składająca się z kilku modułów. Podziału na moduły dokonano w celu zoptymalizowania sposobu przechowywania oraz przetwarzania wiedzy o różnym charakterze. Omówione zostaną wybrane moduły:

  a.. rdzeń ontologiczny przechowujący elementarne informacje o pojęciach oraz binarnych powiązaniach między nimi,

  b.. moduł sieciowy, będący pewnym rozszerzeniem klasycznego podejścia do sieci semantycznych, a służący do zapisu bardziej złożonych faktów i reguł,

  c.. moduł struktur obiektowych zapewniający możliwość przechowywania informacji o obiektowych powiązaniach między pojęciami.

Ponadto, przedstawiona zostanie pewna, pochodząca od autorów, koncepcja silnika bazy obiektowej stanowiącego najniższą warstwę przechowywania informacji. Silnik ten został zaprojektowany z uwagi na  optymalizcję sposobu odwzorowania wiedzy na struktury obiektowe oraz wydajność operacji wykonywanych na bazie danych. W tym celu dokonano pewnych rozszerzeń modelu obiektowego, które zapewniają maksymalne dopasowanie warstwy bazy obiektowej i warstwy bazy wiedzy.

2011-03-25, godz. 14:15, s. 5820
dr inż. Adam Krasuski
System decyzyjny dla Państwowej Straży Pożarnej z modułem adaptacji rozwiązań
W pierwszej części wystąpienia zaprezentowany zostanie system ewidencji zdarzeń (EWID)  wykorzystywany obecnie przez Państwową Straż Pożarną (PSP). Omówiona zostanie struktura  bazy danych oraz problemy z szerszym wykorzystaniem omawianego systemu.  W kolejnej części zaprezentowane zostaną założenia projektowe dla systemu decyzyjnego z modułem adaptacji  rozwiązań bazującego na zasobach EWID. Proponowany system służyłby do wspomagania podejmowania  decyzji w czasie akcji ratowniczych. W trzeciej części omówione zostaną metody oraz narzędzia wykorzystane  do osiągnięcia założonego celu oraz wykonane eksperymenty badawcze. 
2011-03-18, godz. 14:15, s. 5820
Jan Doroszewski
SEMANTYCZNY MODEL WIEDZY MEDYCZNEJ

1) Definicja, cele, charakterystyka
Semantyczny model wiedzy medycznej jest to opis hipotetycznej struktury wiedzy medycznej i stosowanego w medycynie sposobu rozumowania za pomocą uproszczonego i uporządkowanego języka typu naturalnego ukazujący podstawowe znaczenie twierdzeń medycznych w różnych dziedzinach i zastosowaniach oraz łączące je związki.
Przez pojęcie wiedzy medycznej (poznanie lekarskie)rozumiem to, co aktualnie wiemy o stanie zdrowia człowieka i uznajemy za właściwe sposoby postępowania dotyczące tego stanu.
 Opracowanie modelu ma na celu lepsze poznanie wiedzy medycznej i działania medycznego; może to mieć znaczenie dla doskonalenia tworzenia, wykorzystywania, sprawdzania i nauczania teoretycznej i praktycznej wiedzy medycznej oraz kształcenia w tych dziedzinach. Zwłaszcza chodzi o zrozumienie człowieka jako całości ze zdrowotnego punktu widzenia, czyli poznanie jednocześnie obejmujące zjawiska związane zarówno z ciałem, jak z psychiką oraz relacje z elementami otoczenia. Analiza modelowa dąży do znalezienia elementów, które są z jednej strony podobne, z drugiej odmienne dla opisu zjawisk somatycznych, wrażeń, emocji, rozumowania i decyzji oraz zachowania człowieka.
Obecnie są szeroko stosowane modele wiedzy i praktyki w medycynie opierające  się  przede wszystkim na metodach matematycznych i statystycznych..
 Charakterystyka języka medycznego. Obiektem, którego uproszczoną reprezentację stanowi model wiedzy medycznej jest naturalny fachowy język używany w medycynie; pośrednio jest to model wybranych aspektów wiedzy medycznej.
Język medyczny wykazuje następujące cechy.
Jest konkretny, tj. nie stosuje zbyt daleko posuniętej abstrakcji. 
Stanowi fachową odmianę języka naturalnego wzbogaconego o elementy języków stosowanych w innych naukach ścisłych i humanistycznych.
Opisuje zasadniczo różne obiekty łącząc elementy biologii, psychologii i nauk społecznych.
Dotyczy człowieka zdrowego i chorego, z czego wynika nierozłączny związek z konkretnymi i abstrakcyjnymi wartościami.
Wspomaga podejmowanie naukowych i codziennych decyzji i ich realizację.
Służy do komunikacji zarówno naukowej jak powszechnej.
Jest narzędziem złożonych i precyzyjnych rozumowań.
 
2) Analiza naukowego języka medycznego jako podstawa modelu wiedzy medycznej
 Język stosowany w różnych  teoretycznych i praktycznych dziedzinach medycyny wykazuje pewne odmienności. Najważniejsze cechy charakterystyczne tego języka występują jednak zarówno w naukach podstawowych jak w praktyce klinicznej.
 Model opiera się przede wszystkim na analizie autentycznych tekstów stanowiących  fragmenty (rozdziały) systemu wiedzy medycznej; są to zbiory (podsystemy) zdań (twierdzeń) o wspólnej treści pojęć przy różnym ich zakresie znaczeniowym i sposobie wyrażania czasu, stopnia pewności i innych czynników.
 Naturalny charakter języka medycznego powoduje, że większość tekstów podręcznikowych odznacza się wieloznacznością; w poszczególnych zdaniach i w ich zespołach można jednak wyróżnić i sformułować treść główną. 
 Zdania, z których składają się fragmenty wiedzy mają różne zakresy znaczeniowe typu rodzajowego i systemowego (reprezentują różne typy hierarchii), w różny sposób reprezentują aspekty tematu i rematu oraz rozmaite cechy konwencjonalne.
 W naukach typu fizjologicznego twierdzenia wyrażają przede wszystkim zależności między zjawiskami z uwzględnieniem (często entymematycznym) czynnika czasu, prawdopodobieństwa i różnych rodzajów relacji, m. in. przyczynowo-skutkowych. 
 Sposób opisu zjawisk somatycznych, psychicznych i relacji środowiskowych jest podobny.
Dokładniejsza analiza struktury twierdzeń fizjologicznych wymaga uwzględnienia elementów nie wyrażonych explicite, tj. opartych na postulowanej wiedzy odbiorcy.

3) Analiza medycznej wiedzy praktycznej jako podstawa modelu rozwiązywania problemów diagnostycznych i terapeutycznych
Wnioskowanie medyczne opiera się na wiedzy typu morfologicznego, fizjologicznego i metodycznego dotyczącej człowieka w stanie zdrowia i choroby i środków działania. Podstawy deontologiczne wykraczają poza zakres tej pracy.
Twierdzenia diagnostyczne opisują – w powiązaniu ze stanami normalnymi – zjawiska  patologiczne, które są bądź zmienionymi zjawiskami normalnymi, bądź zjawiskami  odmiennymi od normalnych. Wyróżnienie cech patologicznych opiera się na ich stosunku do zjawisk typowych oraz na czynniku wartości dla organizmu somatycznego, człowieka jako całości, stanu psychicznego i stosunków społecznych. W twierdzeniach typu terapeutycznego sprawa wartości ma szczególne znaczenie; twierdzenia takie zawierają opis stosowanych środków i skutków ich zastosowania (somatycznych i psychicznych) wraz z elementami dyrektywnymi.
W odróżnieniu od opisu wiedzy w naukach podstawowych, czynnik czasu i stopień pewności twierdzeń jest zwykle wyrażony explicite; prawdopodobieństwo zdarzeń ma charakter częstościowy, prawdopodobieństwo zdań jest typu logicznego.
Twierdzenia opisujące stany patologiczne i środki działania stanowią treść typowych podręczników klinicznych; nowoczesne wydawnictwa typu dydaktycznego zawierają ponadto opisy problemów typu egzaminacyjnego, które mogą być podstawą analizy lub ilustracji autentycznych sposobów rozumowania.  Podobnie jak przy badaniu wiedzy podstawowej, konieczne jest uzupełnienie treści opisu przez uwzględnienie elementów domyślnych.
Model rozumowania mającego charakter wyjaśniania i dowodzenia opiera się na połączeniu metody sylogistycznej w rozumowaniach wielopoziomowych z zastosowaniem bezpośredniej (jednopoziomowej) implikacji.

2011-03-11, godz. 14:15, s. 5820
Anna Gomolińska (Instytut Matematyki Uniwersytetu w Białymstoku)
ZBIORY PRZYBLIŻONE W OBLICZENIACH GRANULARNYCH
Teoria zbiorów przybliżonych, zapoczątkowana przez Zdzisława Pawlaka w latach 80. ubiegłego wieku i rozwijana przez szereg lat przez jej twórcę Z. Pawlaka i wielu innych badaczy, stanowi teoretyczną podstawę różnych metod i narzędzi informatycznych dla przybliżonej analizy i syntezy pojęć, odkrywania wiedzy z danych, wnioskowania aproksymacyjnego czy też modelowania inteligentnych systemów mono- i wieloagentowych, procesów i interakcji.     Obliczenia granularne (ang. granular computing) to dość ogólne podejście w informatyce do rozwiązywania pewnych problemów obliczeniowych, w którym podstawowym pojęciem jest  granula informacyjna (w skrócie, infogranula). Pojęcie granuli informacyjnej zostało wprowadzone przez Lotfi A. Zadeha w latach 70. XX w., termin obliczenia granularne jest jeszcze nowszy, jednak sama idea grupowania (granulacji) obiektów w celu użycia otrzymanych granul do modelowania zjawisk i rozwiązywania problemów jest znana od dawna (patrz np. metoda dziel i rządź, pokrycie i podział zbioru, otoczenia punktów w przestrzeni, skupienia obiektów). Ideę obliczeń na granulach i z ich użyciem można realizować w ramach różnych podejść jak np. analiza przedziałowa, analiza skupień, zbiory przybliżone oraz zbiory rozmyte.    W referacie w syntetyczny sposób przedstawię główne rezultaty swoich badań z zakresu teorii zbiorów przybliżonych, a dotyczących takich zagadnień jak: (a) uogólnienia modelu Pawlaka zbiorów przybliżonych,  (b) przybliżanie zbiorów z uwzględnieniem oprócz podobieństwa także niepodobieństwa obiektów, (c) miary zawierania się infogranul, (d) przybliżone spełnianie formuł i zbiorów formuł (na przykładzie języka deskryptorów systemu informacyjnego Pawlaka), (e) potencjalne części ,,w stopniu’’ pewnej całości.  Z punktu widzenia tematyki obliczeń granularnych, wymienione zagadnienia dotyczą takich podstawowych, lecz niełatwych problemów badawczych jak porównywanie infogranul pod względem bliskości czy podobieństwa, tworzenie infogranul spełniających zadaną specyfikację oraz stabilność infogranul. Proponowane rozwiązania mają znaczenie nie tylko dla rozwoju teorii zbiorów przybliżonych i podstaw obliczeń granularnych. Można je zastosować, np. do modelowania zachowań grupowych w systemach wieloagentowych, w odkrywaniu wiedzy z danych, do tworzenia przybliżonych ontologii pojęć i we wnioskowaniu aproksymacyjnym.
2011-03-04, godz. 14:15, s. 5820
Andrzej Skowron (Uniwersytet Warszawski)
Sprawozdanie z warsztatów: "Hot trends in CS" / Podstawy obliczeń bazujących na percepcji.
2011-02-25, godz. 14:15, s. 5820
Piotr Wasilewski (Uniwersytet Warszawski)
Ku semantycznej ocenie wyszukiwania informacji
W pierwszej części referatu zostaną omówione podstawowe pojęcia wyszukiwania informacji wraz z elementami oceniania efektywności wyszukiwania informacji (WI). Następnie zostaną przedstawione wybrane niesemantyczne miary oceny efektywności WI. W drugiej części referatu zostanie zaproponowane podejście do semantycznego oceniania efektywności wyszukiwania informacji w oparciu o ontologie. Prezentowane podejście istotnie wykorzystuje kraty pojęć do ustalania semantycznej istotności dokumentów. Następnie zostanie przedstawionych kilka semantycznych miar oceny efektywności WI. na koniec referatu zostanie zarysowane pojęcie opartej o wiedzę oceny efektywności WI jako kolejna perspektywa badawcza.
2011-02-18, godz. 14:15, s. 5820
Joanna Świetlicka
Automatyczne streszczanie tekstów
Pierwsza część prezentacji poświęcona będzie wprowadzeniu do tematyki
automatycznego streszczania. Omówię ogólną architekturę systemów
streszczających, kolejne etapy ich działania oraz najczęściej
stosowane techniki. Druga część referatu dotyczyć będzie
zaimplementowanego przeze mnie systemu, opierającego się głównie na
płytkiej analizie tekstu i wykorzystaniu algorytmów maszynowego
uczenia. Dokładniej przedstawię wykorzystane przeze mnie metody oraz
osiągnięte wyniki.

2011-01-21, godz. 14:15, s. 5820
Piotr Grochowalski (Uniwersytet Rzeszowski)
O reprezentacji wiedzy i metodach automatycznego wyszukiwania informacji w bibliograficznych bazach danych
Na seminarium zaprezentowane zostanie nowe podejście do wyszukiwania informacji w bibliograficznych bazach danych oparte na teorii zbiorów przybliżonych i wiedzy dziedzinowej. Dodatkowa wiedza o poszukiwanej informacji jest reprezentowana w postaci dwóch rodzajów ontologii:  ontologii ogólnej i ontologii szczegółowej. Ontologia ogólna budowana jest przez eksperta dziedzinowego. W prowadzonych badaniach ontologia ta zawiera informacje o podstawowych pojęciach z zakresu teorii zbiorów przybliżonych i jej zastosowań, a także informacje o istotnych relacjach pomiędzy tymi pojęciami. Ontologia szczegółowa dostarcza dodatkową wiedzę o poszukiwanym w bazie danych opisie bibliograficznym publikacji. Wiedza ta jest pozyskiwana automatycznie z danych zgromadzonych w systemie bibliograficznym RSDS (ang. Rough Set Database System). System ten oprócz przeznaczenia typowo użytkowego stanowi środowisko do przeprowadzania eksperymentów w celu weryfikacji poprawności proponowanych metod i algorytmów związanych z wyszukiwaniem informacji w jego bazie danych.
2011-01-14, godz. 14:15, s. 5820
Paweł Betliński
Aproksymacja otoczki Markowa
Referat będzie poświęcony istotnemu pojęciu w dziedzinie sieci 
bayesowskich i nie tylko - otoczce Markowa (ang. Markov blanket, w 
języku polskim najczęściej spotykane jest bezpośrednie tłumaczenie: 
koc Markowa). Dla wektora zmiennych losowych A, a w praktyce dla A - 
zbioru atrybutów systemu informacyjnego, otoczka Markowa zmiennej X 
należącej do A to minimalny podzbiór M zbioru A \ {X} taki, że X jest 
niezależne od (A \ {X}) \ M pod warunkiem M. Pojęcie to zostało 
zaproponowane w 1988 roku, ale dopiero w ostatniej dekadzie nastąpił 
istotny rozwój metod aproksymacji otoczki Markowa. Przygniatająca 
większość powstałych metod należy do typu Constraint-Based Approach, 
tzn. opiera się na testach statystycznych badających warunkową 
niezależność atrybutów. Docelowo będę chciał przedstawić propozycję 
nowej metody, która leży poza tym głównym nurtem, ale czerpie 
inspiracje z algorytmu do niego należącego: IAMB (Incremental 
Association Markov Blanket). Metoda IAMB, o której szerzej będzie mowa 
na seminarium, jest modyfikacją wcześniejszej metody Grow-Shrink 
polegającą na dodaniu sprytnej heurystyki. Pozwala ona w praktyce 
zmniejszyć liczbę koniecznych do przeprowadzenia testów 
statystycznych. Moje podejście całkowicie eliminuje konieczność użycia 
testów, starając się w zamian szerzej wykorzystać zastosowaną w IAMB 
heurystykę i pewne jej interesujące właściwości. Potencjalne skutki 
tej modyfikacji zilustruję na przykładzie wstępnych eksperymentów 
porównujących zaproponowaną metodę z kilkoma znanymi podejściami.
2011-01-07, godz. 14:15, s. 5820
Dyskusja o projekcie SYNAT
Seminarium poświęcone będzie dyskusji nad wyszukiwarką internetową rozwijaną w ramach projektu SYNAT.
2010-12-22, godz. 12:00, s. 5820
Spotkanie Świąteczne

Szanowni Uczestnicy i Sympatycy Seminarium,

 Mam przyjemność zaprosić Państwa na spotkanie świąteczne, które odbędzie się we środę 22 grudnia 2010, w klubie pracowniczym Wydziału MIM UW, w godzinach 12-15.

Spotkanie dla uczestników seminarium i wydziałowej części projektu SYNAT.

Planowana jest sesja specjalna składająca się z (około) 12 dań, a także, przy odrobinie szczęścia, wystąpienie gościa zaproszonego (Ś.M.).

Liczymy na Wasz Udział.

 

Wesołych Świąt

Marcin Szczuka

2010-12-10, godz. 14:15, s. 5820
Marcin Kowalski (Uniwersytet Warszawski)
Wykorzystanie wiedzy dziedzinowej w optymalizacji granularnego RDBMS
Na seminarium poruszony zostanie problem wykorzystywania wiedzy dziedzinowej w relacyjnych systemach zarządzania bazami danych (RDBMS) w optymalizacji składowania danych, dostępu do nich oraz ich użycia. W szczególności zaprezentowane zostanie nowe podejście do wykorzystywania wiedzy o strukturze wartości w kolumnach alfanumerycznych do wymienionej optymalizacji. Opiszę zaimplementowany prototyp, wyniki wstępnych eksperymentów jego użycia oraz docelowe rozwiązanie służące wykorzystaniu omawianej wiedzy w silniku bazodanowym opartym na obliczeniach granularnych (Infobright).
2010-11-26, godz. 14:15, s. 5820
Piotr Wasilewski
"Ontologia" ontologii
Ontologie są szeroko stosowane we współczesnej informatyce w tworzeniu systemów opartych na wiedzy. Stosowane są do tworzenia i transferu wiedzy oraz do ponownego jej wykorzystania, w szczególności do wykorzystywania wiedzy składowanej w istniejących już systemach do tworzenia nowych systemów opartych na wiedzy. Referat ma na celu klaryfikacje pojęcia ontologii, przedstawienie tego czym są ontologie wraz z motywacjami stającymi za ich wprowadzeniem i szerokim wykorzystywaniem wraz z historią tego pojęcia. Omówione zostaną również główne elementy składowe ontologii, ich kategoryzacje oraz  sposoby implementacji. 
2010-11-19, godz. 14:15, s. 5820
Paweł Gora
Wykorzystanie algorytmu genetycznego do optymalizacji ruchu drogowego
Na seminarium opowiem o opracowanej przeze mnie metodzie optymalizacji ruchu drogowego poprzez znajdowanie odpowiedniej konfiguracji sygnalizacji świetlnej na skrzyżowaniach przy pomocy algorytmu genetycznego. Chromosomy reprezentują początkowe stany sygnalizacji, a do ich oceny wykorzystywany jest symulator ruchu drogowego.
2010-11-12, godz. 14:15, s. 5820
Sebastian Stawicki (Uniwersytet Warszawski)
Grupowanie wartosci atrybutów symbolicznych
Pod pojęciem dyskretyzacji kryje się proces przekształcania atrybutów
numerycznych w atrybuty dyskretne. |wiadomie decydujemy się na utratę
informacji i wprowadzamy przedziały na osi rzeczywistej, które "sklejają"
wartości atrybutów. Uzyskujemy w ten sposób bardziej ogólne spojrzenie na
dane, bo nie skupiamy się na nieistotnych różnicach pomiędzy konkretnymi
wartosciami rzeczywistymi.
Dla atrybutów symbolicznych, dla których nie ma naturalnie zdefiniowanego
porządku problem grupowania wartości jest jednak trudniejszy. Podczas
prezentacji przedstawiony zostanie przegląd istniejących metod wyszukiwania
możliwie dobrego (pod pewnymi względami) z rozbicia zbioru wartości
atrybutów symbolicznych oraz aktualny stan i moje przyszłe plany badawcze
w tej dziedzinie.
2010-11-05, godz. 14:15, s. 5820
Rafał Latkowski
Wnioskowanie w oparciu o dane z brakującymi wartościami atrybutów
Tematem referatu będzie adaptacja metod wnioskowania w oparciu o  dane z niekompletnym opisem (brakującymi wartościami atrybutów) w zakresie  teorii zbiorów przybliżonych. Podczas wystąpienia przedstawię stan prac nad  wnioskowaniem w oparciu o niekompletne dane, zarówno w odniesieniu do badań  światowych, jak i badań własnych. Przedstawione zostaną problemy z adaptacją  istniejących pojęć z zakresu teorii zbiorów przybliżonych, wyniki teoretyczne i  wyniki eksperymentów dobory optymalnej semantyki brakujących wartości dla  konkretnego problemu.
2010-10-29, godz. 14:15, s. 5820
Mikhail Moshkov (KAUST, Saudi Arabia)
Extensions of Dynamic Programming as a New Tool for Rough Sets
We consider extensions of Dynamic Programming which can work with problems containing exponential number of subproblems, and allow sequential optimization relative to different criteria and inference of relationships among these criteria. We use these extensions to study and optimize exact and approximate decision trees and rules.
2010-10-22, godz. 14:15, s. 5820
Andrzej Janusz
Regułowy Model Nauki Podobieństwa dla Danych Wielowymiarowych
W czasie mojej prezentacji przedstawie stan moich badan zwiazanych z tematem nauki relacji podobienstwa z danych. Szczegolna uwage poswiece modelowi dla danych wielowymiarowych - to znaczy takich, ktore opisuja obiekty za pomoca wielu (tysiecy) atrybutow. W pierwszej czesci wystapienia skrutowo opisze dynamiczny model podobienstwa opartego na regulach (Dynamic Rule-based Similarity), a nastepnie omowie szereg zagadnien zwiazanych z dzialaniem tego modelu, takich jak filtracja niepotrzebnych atrybutow, czy wybor heurystyki do generowania reduktow. W ostatniej czesci zaprezentuje wyniki eksperymentow na zbiorach mikromacierzy, majacych na celu oszacowanie jakosci prezentowanego modelu.
2010-10-15, godz. 14:15, s. 5820
Wojciech Świeboda ( )
Redukty decyzyjne rzadkich systemów decyzyjnych
Zaprezentuję wersję heurystyki MD (Maximal Discernibility) dla problemu optymalnego reduktu decyzyjnego dla pewnych zbiorów rzadkich (dla takich, w których brakujące wartości przyjmują semantykę "atrybut domyślny").
2010-10-08, godz. 14:15, s. 5820
Łukasz Puławski
Software defect prediction based on source code metrics time series
Source code metrics have been proved to be reliable indicators of the vulnerability of the source code to bugs. Typically, a source code unit with high value of a certain metric is considered to be badly structured and thus error-prone. However, analysis of source code change history shows that there are cases when source files with low values of metrics still turn out to be buggy. Instead of introducing new metrics for such cases, I investigate the possibility of estimating the vulnerability of source code units to bugs on the basis of the history of the values of selected well-known metrics. The experiments show that we can efficiently identify bad source code units just by looking at the history of metrics, coming from only a few revisions that precede the bug fix.
2010-10-01, godz. 14:15, s. 5820
Manfred Kudlek (University of Hamburg)

Zapraszamy na pierwsze powakacyjne seminarium Zakładu Logiki Matematycznej. Prosimy o przesyłanie propozycji tematów na adres skowron@mimuw.edu.pl.

Na pierwszym seminarium planowane są wystąpienia:

 

'A Relation between Modal Logic and Formal Languages'

Manfred Kudlek

 

The talk focuses on relations between modal logic
systems and certain closure operators and complements
for subsets of topological spaces, languages of words
and other structures as sets of multisets. Such
relations can be used for alternative definitions
of languages families. In particular, Kuratowski's
theorem is presented.

 

'Calendar Systems'

Manfred Kudlek

 

There still exists a number of calendar systems different
from the well known Christian (Western) calendar. One
such is the rather cosmopolitan calendar used on Bali
in the households, with a number of different 'weeks',
lunar, lunisolar and solar calendars. The 'computs'
for Easter as a lunisolar calendar is presented, too.

2010-09-17, godz. 11:00, s. 4070
Davide Ciucci (Universita Milano Bicocca)
Dynamics in rough sets
Szanowni Państwo,   
W dniach 14-17 września 2010, przebywa na naszym wydziale 
Pan Dr Davide Ciucci z Milan-Biccoca University w ramach programu ERASMUS for teachers.  
Pan Dr Davide Ciucci będzie mial referat pod tytułem:   
"Dynamics in rough sets" 
piątek, 17/09, 11:00-12:30, sala 4070 
 Niżej  streszczenie jego wykładu. 
Serdecznie zapraszamy.  
============================================= 
Abstract:  A classification of the different dynamics which can arise in rough sets is given, starting from three different standpoints: information tables, approximation spaces and coverings. Dynamics is intended in two broad meanings: evolution in time and originated from different sources. Existing works on this topic are then categorized accordingly. Finally, given a covering of a universe, we study how time evolution of the covering influences rough approximations and covering reduction.  
=======================================================================  
2010-06-04, godz. 14:15, s. 5820
Gloria Virginia
Developing an Automatic Ontology Constructor for Indonesian Language
There are great challenges in computer linguistic and information retrieval fields which process Indonesian language. Taking advantage from implementation of Linear Model life cycle, an automatic ontology constructor (OC) is going to be generated. The natural language in emails together with the exhaustive cognitive approach argues to be essential in the process of OC generation that one may achieve deep linguistic analysis. An ontology-based information retrieval system for Indonesian choral community is going to be developed using 3000 emails of Indonesian Choral Lovers (ICL) mailing list as a tool of evaluation. Performance measure of information retrieval (recall and precision) and qualitative measure of ontology (consistency, completeness, and conciseness) are going to be used to find out the OC effectiveness through examining the automatic-thesaurus effectiveness.
2010-05-28, godz. 14:15, s. 5820
Jan Doroszewski
Semantyczny model wiedzy medycznej
Przez pojęcie semantycznego modelu wiedzy medycznej rozumiem system znaków językowych stanowiących hipotetyczną, uproszczoną i uporządkowaną reprezentację wiedzy medycznej, pośrednio – fragmentu rzeczywistości. Celem badań związanych z tym modelem jest próba stworzenia ram pojęciowych dla medycznej wiedzy i rozumowania naturalnego (ew. także formalnego) oraz pomostu łączącego matematyczne i naturalno-językowe podejście do wiedzy medycznej i rozumowania w medycynie.
Model opiera się na analizie autentycznych tekstów i dokumentów medycznych oraz reprezentacji zdań naturalnego języka medycznego przedstawiającej w uproszczeniu  podstawowe elementy formy i treści. Zespoły tych zdań tworzą modelowe sekwencje i sieci twierdzeń odpowiadające w ujęciu modelowym fragmentom wiedzy i umożliwiające przeprowadzanie różnego rodzaju wnioskowań analogicznych do naturalnego rozumowania. Procedury te opierają się na różnych rodzajach predykatów i związków między zdaniami, mogą też uwzględniać aspekty temporalne oraz ilościowy i logiczny stopień pewności sądów.
Semantyczny model wiedzy medycznej w obecnej postaci wiąże się przede wszystkim z dowodzeniem twierdzeń i wyjaśnianiem faktów oraz z dążeniem do uściślenia naturalnego języka medycznego. Podejście to może stanowić pomost łączący naturalne rozumowanie lekarskie i naukowo-eksperymentalne z zastosowaniem metod matematycznych. 
2010-05-21, godz. 14:15, s. 5820
Karol Kreński
Automatyczna annotacja opisów akcji w Państwowej Straży Pożarnej

W PSP używany jest system ewidencji meldunków zawierający m.in. sekcje opisowe w jezyku naturalnym. Przeszukiwanie takich sekcji jest kłopotliwe, a usprawnieniem może być wprowadzenie automatycznej annotacji na zasadzie bag-of-words. Pierwszym etapem badan będzie utworzenie kontrolowanego słownictwa na bazie statystycznej analizy istniejących opisów akcji. Podczas referatu zostanie m.in. zaprezentowane narzędzie AntConc służące do takiej analizy.

 

2010-05-14, godz. 14:15, s. 5820
dr Marcin Sydow (PJWSTK)
Dywersyfikacja wyników w wyszukiwaniu informacji

Podstawowym klasycznym zalozeniem przy obliczaniu porzadku wyników w wyszukiwarkach jest zalozenie o niezaleznosci przydatnosci poszczególnych wyników w odpowiedzi na zapytanie uzytkownika (ang. Independent Relevance Assumption). Wyniki prezentuje sie wtedy w nierosnacej kolejnosci dopasowania do zapytania. Podejscie takie jest efektywne, gdyz umozliwia stosowanie prostych algorytmów zachlannych do obliczania listy wyników.  Tak uproszczony model ma jednak powazne wady, gdyz moze zwracac wyniki wysoce powtarzalne albo zdominowane przez najpopularniejsza  interpretacje zapytania w przypadku zapytan wieloznacznych.

Podejscie bardziej subtelne, uwzgledniajace zaleznosci pomiedzy  zwróconymi dokumentami przy obliczaniu ich przydatnosci, które nazywac bedziemy roboczo "dywersyfikacja wyników", stanowi obecnie jeden z najgoretszych tematów w dziedzinie wyszukiwania informacji (ang. Information  Retrieval).

Na seminarium przedstawione zostana podstawy zagadnienia, rozszerzenia klasycznych miar przydatnosci wyników (NDCG), które uwzgledniaja dywersyfikacje, oraz wybrane aspekty algorytmiczne tego zagadnienia. Zreferowane zostana wybrane najnowsze prace z dziedziny oraz wymienione potencjalne kierunki dalszych badan, w tym autora, oraz pokazane beda zwiazki z podobnymi badaniami w pokrewnych dziedzinach takich jak bazy danych czy systemy rekomendacyjne.

2010-04-30, godz. 14:15, s. 5820
Nguyen Hung Son (Uniwersytet Warszawski)
On scalibility of rough set methods

We summarize some previously known scalable methods and present one of the latest scalable rough set classifiers. The proposed solution is based on the relationship between rough sets and association discovering methods, which has been described in our previous papers. In this paper, the set of decision rules satisfying the test object is generated directly from the training data set. To make it scalable, we adopted the idea of the FP-growth algorithm for frequent item-sets. The proposed method can be applied in construction of incremental rule-based classification system for stream data.

2010-04-23, godz. 14:15, s. 5820
Jan Bazan
Dyskusja o projekcie dotyczącym skalowaności RoughICE, w szczególności o metodach wykrywania procesów z danych


Najbliższe seminarium będzie poświęcone dyskusji na temat dalszego rozwoju
biblioteki RoughICE-lib.

Na początku seminarium pozwolę sobie powiedzieć kilka słów na temat
dotychczasowych projektów związanych z bibliotekami oprogramowania
realizowanymi w Zespole Pana Profesora Skowrona, w tym o bibliotece
RoughICE-lib.

Następnie zaproponuję kilka wariantów rozwoju obecnej wersji RoughICE-lib.

W ten sposób zainicjowana dyskusja, będzie miała na celu wybór odpowiedniego
wariantu rozwoju biblioteki.

Bardzo proszę osoby zainteresowane o solidne przygotowanie się do dyskusji,
w aspekcie swoich zainteresowań i planów.

2010-04-16, godz. 14:15, s. 5820
Paweł Betliński
Lokalne odkrywanie struktury sieci bayesowskiej

Referat docelowo zilustruje nowe podejście służące wspomaganiu uczenia struktury sieci bayesowskiej.
W skrócie rzecz ujmując chodzi o to, by próbować zidentyfikować strukturę sieci opartej na pełnym zbiorze atrybutów poprzez analizę wielu struktur mniejszych sieci opartych na losowych podzbiorach atrybutów. Dzięki temu jeden duży ciężar uczenia pełnej struktury sieci można zamienić na wiele ale za to lżejszych ciężarów uczenia się lokalnych struktur.

 

2010-03-19, godz. 14:15, s. 5820
Projekt nt. skalowalności metod eksploracji danych
Na nalbliższym seminarium planujemy dyskusję nad nowym projektem dotyczącym skalowalnosci metod w eksploracji danych.
2010-03-12, godz. 14:15, s. 5820
Piotr Majewski (Uniwersytet Warszawski)
Rozpoznawanie mowy ciągłej z wykorzystaniem modeli językowych specyficznych dla języka polskiego

Referat poświęcony będzie modelom językowym - rozumianym jako modele probabilistyczne określające prawdopodobieństwo wystąpienia wyrazu w kontekście wyrazów go poprzedzających - uwzględniających specyfikę języka polskiego. Modele takie są przydatne w zadaniach rozpoznawania mowy ciągłej, ze względu na powszechne wykorzystanie w rozpoznawaniu klasyfikatorów Bayesa wskazujących jako wynik rozpoznawania wyrazy o największym prawdopodobieństwie a posteriori, do którego oszacowania niezbędne jest ustalenie prawdopodobieńswa a priori poszczególnych wyrazów. Język polski w porównaniu z językami, których modelowaniu badacze poświęcają więcej uwagi (jak na przykład język angielski) odznacza się cechami, takimi jak wielość fleksyjnych form wyrazów i swobodny szyk wyrazów w zdaniu, które powodują, że bezpośrednie zastosowanie modeli stosowanych dla języka angielskiego nie przynosi zadowalających rezultatów. Podczas referatu przedstawione zostaną modele które są lepiej dostosowane do języka polskiego.


 

2010-03-05, godz. 14:15, s. 5820
Wojciech Turek (EAIiE AGH)
Agentowy system wielomodelowy do zarządzania grupą robotów mobilnych

Metody wykorzystania robotów mobilnych oraz grup współpracujących robotów mobilnych są jednymi z najbardziej obiecujących wyzwań stojących przed współczesnymi naukami technicznymi.

Mimo znaczących postępów w dziedzinie konstruowania robotów mobilnych, ich praktyczne zastosowania ciągle są bardzo ograniczone. Jedną z przyczyn takiego stanu rzeczy jest z pewnością brak odpowiednich metod projektowania złożonych systemów zarządzających grupami heterogenicznych robotów mobilnych. Istniejące podejścia do projektowania tego typu systemów charakteryzują się znaczącymi niedoskonałościami. Nacisk kładziony na autonomię pojedynczego robota mobilnego pociąga za sobą utożsamianie proaktywnego elementu oprogramowania sterującego (zwanego zazwyczaj agentem) z obiektem robota. Efektem takiego podejścia są znaczące problemy ze skalowalnością i rozszerzalnością systemów wielorobotowych, bardzo wysokie wymagania dotyczące wydajności jednostek obliczeniowych, w które wyposażone są roboty, skomplikowane protokoły komunikacyjne wymagające wydajnych urządzeń oraz brak możliwości wielokrotnego wykorzystania oprogramowania sterującego.Praca ma na celu wykazanie, że metodologia tworzenia systemów agentowych do zarządzania grupami robotów mobilnych, oparta na oddzieleniu abstrakcji agenta od obiektu robota oraz wykorzystaniu wielu modeli środowiska, pozwala na zaprojektowanie systemu zapewniającego skalowalność, rozszerzalność, odporność na awarie oraz możliwość wielokrotnego wykorzystania fragmentów oprogramowania sterującego.

Rozdzielenie abstrakcji agenta programowego od obiektu robota pozwala na zdefiniowanie przestrzeni działania agentów, która jest logicznie niezależna od wykorzystywanych przez system robotów. Przestrzeń wirtualna, w której istnieją i działają agenty, jest tworzona przez platformę agentową, łączącą wiele fizycznych komputerów w jedną maszynę wirtualną. Podejście takie pozwala na uzyskanie pożądanych cech pozafunkcjonalnych. Umożliwia dodawanie niezbędnej agentom mocy obliczeniowej, pozwala na wykorzystanie mechanizmów komunikacji platformy agentowej do przekazywania wiadomości pomiędzy wszystkimi komponentami systemu. Platforma agentowa pozwala także na dołączanie nowych komponentów bez konieczności zatrzymywania działania istniejących.Wiele istniejących rozwiązań problemów, związanych z wykorzystaniem robotów, charakteryzuje się wysoką, nieliniową złożonością obliczeniową. Powoduje to trudności ze skalowalnościa rozwiązań i ogranicza maksymalną wielkość systemów. Dotyczy to szczególnie przetwarzania modeli środowiska działania robotów oraz metod zarządzania działaniem licznych grup robotów we wspólnym środowisku. Rozwiązaniem problemu skalowalności tego typu zagadnień może być zaproponowana w pracy metoda wielomodelowa. Polega ona na definiowaniu wielu modeli tego samego aspektu systemu na różnych poziomach abstrakcji. Różne agenty wykorzystują różne modele i są w stanie rozwiązywać problemy na różnym poziomie szczegółowości. Dzięki połączeniu agentów w odpowiednią hierarchię uzyskać można dokładne rozwiązanie każdego z problemów, które jest wyznaczane przez kilka współpracujących agentów.

Zaproponowana koncepcja projektowania i implementowania systemów informatycznych zarządzających działaniem grup robotów została wykorzystana do stworzenia projektu systemu wykonującego przy pomocy robotów abstrakcyjne zadania. Analiza własności zaprojektowanego systemu pozwala sądzić, że charakteryzuje się on wszystkimi pożądanymi własnościami pozafunkcjonalnymi. W celu eksperymentalnego wykazania postawionej tezy, zrealizowany został prototypowy system zarządzający ruchem robotów. Umożliwia on bezpieczne i wydajne przemieszczanie wielu robotów w rozległym środowisku. Stosuje hierarchiczny, grafowy model środowiska do planowania optymalnych tras oraz algorytm koordynacji do zarządzania ruchem robotów w wybranych fragmentach. Wyniki przeprowadzonych badań systemu pozwalają stwierdzić, że postawiona w pracy teza jest prawdziwa.

2010-02-26, godz. 15:00, s. 5820
Jan Bazan
Wybrane metody wykorzystywania wiedzy dziedzinowej do konstrukcji algorytmów

Metody wykrywania procesów z danych.

W miarę rozwoju zastosowań gwałtownie rośnie nie tylko rozmiar gromadzonych
danych, ale również złożoność pojęć i zjawisk, których one dotyczą. W
szczególności dane te coraz częściej dotyczą złożonych procesów, które nie
poddają się klasycznym metodom modelowania. Dlatego metody eksploracji
takich danych znajdują się w centrum badań wielu silnych ośrodków badawczych
na świecie, przy czym coraz bardziej atrakcyjne dla zastosowań staje się
wykrywanie modeli procesów i ich własności z danych. Wykład poświęcony jest
omówieniu wybranych metod wykrywania procesów z danych. Tego typu metody
stosowane są często wtedy, gdy nie można uzyskać formalnego opisu procesu
innymi środkami lub kiedy jakość istniejącej dokumentacji jest niepewna. Na
przykład może to być wykrywanie  procesów z danych uzyskanych z  monitoringu
systemu obsługującego księgowość firmy,  systemu wykonującego transakcje
giełdowe lub przechowującego informacje o leczeniu pacjentów.

Metody podejmowania decyzji w oparciu o ontologie pojęć.

Jednym ze sposobów reprezentowania wiedzy dziedzinowej jest zapisywanie jej
w postaci ontologii pojęć, gdzie przez ontologię zwykle rozumie się
skończony zbiór pojęć tworzących hierarchię oraz zależności między tymi
pojęciami, które łączą pojęcia z różnych poziomów hierarchii. Potrzeba
wykorzystania wiedzy dziedzinowej wyrażonej w postaci ontologii występuje w
wielu intensywnie rozwijających się dziedzinach związanych z analizą i
przetwarzaniem danych, gdzie ontologie znajdują liczne zastosowania przy
rozwiązywaniu wielu problemów. Jednym z takich problemów jest problem
wspomagania podejmowania decyzji. Wykład poświęcony jest omówieniu wybranych
metod podejmowania decyzji w oparciu o ontologie pojęć. Jako przykłady
zastosowań będą podane przykłady z medycyny, bioinformatyki oraz eksploracji
tekstów.

Agorytmy interakcyjne.

W ostatnim czasie postulowany jest w literaturze nowy paradygmat teorii
obliczeń, który polega na wykorzystywaniu tzw. algorytmów interakcyjnych.
Cechą charakterystyczną algorytmów interakcyjnych w stosunku do algorytmów
klasycznych jest to, że w przeciwieństwie do tych ostatnich,  podczas swego
działania intensywnie wykorzystują interakcje ze środowiskiem w którym  są
uruchamiane. Dzięki tej interakcji algorytmy uzyskują dodatkowe wsparcie,
które może spowodować zwiększenie ich efektywności i jakości uzyskanych
wyników. Celem wykładu jest pokazanie czym różnią się algorytmy interakcyjne
od algorytmów klasycznych (tj. nieinterakcyjnych) oraz pokazanie na kilku
przykładach, że algorytmy interakcyjne rzeczywiście mogą być znacznie
efektywniejsze obliczeniowo od algorytmów nieinterakcyjnych.

2010-02-26, godz. 14:15, s. 5820
Piotr Ejdys (GEMIUS, Warszawa)
A note from real-world: Gemius and large databases, parallel processing, data-mining and compression

Referat bedzie dotyczył nastepujacych zagadnień:

- census data (czyli dane pochodzące z pomiaru wszystkich użytkowników (danej witryny, kampanii itp.).

- skala działalności (100 000 zapisów do bazy danych w ciągu sekundy)

- kompresja

- trudność niektórych selektów (nieaddytywność statystyk -> samplowanie)

- praktyczne problemy algorytmiczne/data mining

- jak lepiej składować dane

- jak lepiej dostarczać klientom statystyki (szybkość vs dokładność)

- jak optymalizować wyświetlanie reklam graficznych (tzw. targetowanie behavioralne)

 

 
2010-02-19, godz. 14:15, s. 5820
Wojciech Jaworski
Identyfikacja użytkowników portalu internetowego na podstawie schematów zachowań
Referat poświęcony będzie zagadnieniu indentyfikacji użytkowników portalu internetowego na podstawie określania podobieństwa pomiędzy sekwencjami stron internetowych odwiedzonych przez indentyfikowanego użytkownika, a zachowaniem znanych użytkowników. Sekwencje odwiedzeń sprowadzam do postaci wektorów wartości cech korzystając z wiedzy dziedzinowej oraz metod teorii automatów. Z uwagi na to, że jednoznaczne wskazanie konkretnego użytkownika nie zawsze jest możliwe grupuję nierozróżnialnych użytkowników i ograniczam identyfikację do wskazania grupy. Metoda ta pozwala uzyskać bardzo wysoką wiarygodność identyfikacji.
2010-01-15, godz. 14:15, s. 5080
Krzysztof Sopyła
Klasyfikacja polskich tekstów w oparciu o preferencje użytkownika
Najczęstszym zadaniem klasyfikacji tekstów jest przypisanie danego dokumentu do klasy zawierającej informację czego ten tekst dotyczy (sportu, medycyny itp.) W swojej pracy postanowiłem zbadać czy nowoczesne algorytmy jak SVM (suport vector machines) potrafią dobrze klasyfikować tekst na podstawie subiektywnych ocen ludzi - tak aby w automatyczny sposób weryfikować, czy tekst jest interesujący z punktu widzenia danego użytkownika? Próbowano także odpowiedzieć na pytanie jakie jądra w tej sytuacji będą działały dobrze oraz wybrać stosowną reprezentację tekstu. Jako dane testowe posłużyły polskie artykuły z wikipedii.
2010-01-08, godz. 14:15, s. 5820
Piotr Wasilewski
Systemy wieloagentowe w modelowaniu procesów poznawczych
W referacie zostaną omówione zastosowania podejścia wieloagentowego w modelowaniu procesów poznawczych na przykładzie systemów sztucznej inteligencji: ACT-R i Soar. W prezentacji szczególna uwaga zostanie poświęcona mechanizmom odpowiadającym w omawianych systemach za uczenie się i adaptację.
2009-12-11, godz. 14:15, s. 5820
Sylwia Czuma i Jan Bazan
Wykrywanie wzorców czasowych w danych mikromacierzowych dotyczących leczenia wirusowego zapalenia wątroby typu C
W ostatnim czasie ukształtował się paradygmat oparty na molekularnym mechanizmie choroby. Opiera się on na założeniu, że techniki nowoczesnej biologii pozwolą na zrozumienie molekularnych mechanizmów chorób i w konsekwencji na identyfikację genów powodujących zapoczątkowanie, nasilanie i podtrzymywanie procesu chorobowego. W związku z tym wzrosła ranga badań bioinformatycznych prowadzonych w oparciu o tzw. mikromacierze DNA określające intensywność ekspresji poszczególnych genów. Eksperymenty mikromacierzowe prowadzą do powstawania dużych zbiorów danych. W literaturze można znaleźć opisy wielu podejść do analizy takich danych, ale pojawiające się stale nowe zastosowania wymagają dostosowania istniejących i opracowania nowych metod. Obecnie, szczególnie intensywnie prowadzone są badania w zakresie konstrukcji metod analizy danych reprezentujących szeregi czasowe, które w przeciwieństwie do danych statycznych, zawierają nie tylko informacje o aktualnej ekspresji genów badanego pacjenta, ale także informacje o zmianach ekspresji w czasie. Wykorzystanie tego rodzaju danych do prowadzenia wnioskowań np. na temat efektywności leczenia określonych leków, cały czas stanowi duże wyzwanie badawcze. Proponujemy metodę identyfikacji zmian ekspresji genów, w której zmiany ekspresji są opisywane przez złożone pojęcia czasowo-przestrzenne wyrażone w języku naturalnym a zwane wzorcami zachowania. Wzorce zachowania należy rozumieć jako pojęcia związane ze specyficznymi zmianami stanu pacjenta obserwowanymi w pewnym okresie czasu. Dla przykładu, niektóre wzorce zachowania mogą opisywać efektywne leczenie a inne nieskuteczną terapię. Tego rodzaju złożone pojęcia są trudne do automatycznej identyfikacji, ponieważ wymagają obserwacji badanego pacjenta przez dłuższy okres czasu i opisywania za pomocą mniej złożonych pojęć czasowo-przestrzennych. Ponadto pojęcia te wymagają aproksymacji za pomocą klasyfikatorów w oparciu o zbiory danych wygenerowane za pomocą mikromacierzy DNA, oraz wiedzę medyczną wyrażoną głównie w postaci ontologii pojęć. Omówione zostaną wyniki badań mikromacierzowych pacjentów z wirusowym zapaleniem wątroby typu C przeprowadzonych w kilku punktach czasowych. Celem analizy było umożliwienie wczesnego przewidywania skutecznego leczenia i w konsekwencji uniknięcie efektów ubocznych terapii. Na podstawie ekspresji wybranych genów zdefiniowano pojęcia czasowe, a obserwacja pacjentów doprowadziła do utworzenia wzorców zachowania. Uzyskane wzorce przedstawione w postaci grafów były odmienne w grupie pacjentów ze skutecznym leczeniem, od tych w grupie pacjentów z nieskuteczną terapią. Predykcja oparta na obu grafach zachowania charakteryzuje się wysoką czułością i wysoką specyficznością.
2009-12-04, godz. 14:15, s. 5820
Grzegorz Materna
Mammografia cyfrowa - ontologie
Badanie mammograficzne jest jedną z najskuteczniejszych metod wykrywania zmian patologicznych w piersi. Obecnie bardzo często do takich badań używane są aparaty mammograficzne, które pozwalają na coraz dokładniejszy zapis wyników w formie cyfrowej. Podczas prezentacji na seminarium postaram się przedstawić: * informacje o tematyce poruszonej przeze mnie w poprzednim semestrze, * różne ontologie pojęć używane podczas opisu zdjęć mammograficznych, * informacje na temat przeprowadzonych projektów tworzenia baz zdjęć mammograficznych, * oraz zidentyfikowane problemy i przyszłe plany związane z przeprowadzanymi badaniami.
2009-11-27, godz. 14:15, s. 5820
Adam Krasuski
Usługi katalogowe w architekturze rozproszonej bazy danych w procesie wspomagania decyzji w Państwowej Straży Pożarnej
Codzienie w Polsce dochodzi do ponad tysiąca interwencji Państwowej Straży Pożarnej (PSP). W większości zdarzeń decyzja odnośnie wyboru sposobu likwidacji zagrożenia podejmowana jest przez Kierującego Działaniami Ratowniczymi na miejscu akcji. Implikuje to, iż wypracowanie zamiaru taktycznego odbywa się w bardzo skomplikowanym środowisku decyzyjnym. Jako podstawowe czynniki charakteryzujące środowisko decyzyjne podczas akcji ratowniczej można wymienić: - złożoność problemu -- podjęcie zamiaru taktycznego wymaga przeprowadzania analiz z uwzględnieniem wielu aspektów z dziedziny fizykochemii spalania i wybuchów, mechaniki, medycyny oraz innych; - ograniczony czas na podjęcie decyzji -- występowanie na miejscu akcji substancji palnych i wybuchowych wymaga szybkiego i prawidłowego pojęcia działań; - presja psychiczna -- obecność na miejscu akcji ofiar oraz duża odpowiedzialność za podejmowane decyzje utrudniają racjonalne wnioskowanie; - niepełny opis sytuacji -- w wyniku między innymi zadymienia oraz niepewności źródeł informacji dowódca nie dysponuje pełnym opisem zdarzenia; - niepewność -- w wyniku niepełnego opisu sytuacji dowódca nie może mieć pewności czy dane działanie przyniesie oczekiwany skutek. Wymienione wyżej czynniki charakteryzują zdefiniowaną w literaturze sytuację nadzwyczajną (ang. emergency). Złożoność sytuacji nadzwyczajnej powoduje trudności w opracowaniu właściwej metody do wyznaczenia rozwiązania. Wykorzystanie klasycznych metod podejmowania decyzji, w~problemach nie w~pełni zdefiniowanych oraz w warunkach niepewności, skutkuje bardzo niską trafnością proponowanych rozwiązań. W skrajnych sytuacjach, klasyczne metody podejmowania decyzji stają się wręcz bezużyteczne. Obecnie jedną z proponowanych metod rozwiązania problemu wspomagania podejmowania decyzji w PSP jest wykorzystanie teorii gier. Jednakże trudno jest je wykorzystać bezpośrednio do wspomagania podejmowania decyzji w sytuacjach nadzwyczajnych. Ich dyskwalifikacja jako podstawy systemu wspomagania decyzji w sytuacjach nadzwyczajnych wynika między innymi z tego, iż wymagają one wykonania dość czasochłonnego procesu przygotowawczego przed uzyskaniem wyników działania. Środowisko decyzyjne jakim jest sytuacja nadzwyczajna uniemożliwia natomiast wykonywanie dłuższych analiz. Dodatkowo zaangażowanie emocjonalne podmiotów decyzyjnych w zaistniałe zdarzenia w dużym stopniu wpływa negatywnie na poprawność przeprowadzonych analiz wstępnych. Alternatywę dla modeli decyzyjnych wykorzystujących teorię gier stanowią modele bazujące na naukach kognitywistycznych. Proces decyzyjny wykorzystywany w modelach kognitywistycznych jest bardzo skuteczny w sytuacjach nadzwyczajnych. Jednakże słabością tych modeli jest relatywnie niska jakość proponowanych rozwiązań. Modele kognitywistyczne naśladują procesy decyzyjne stosowane przez ludzi oraz decyzje podjęte w przeszłości. Jakość tak wypracowanych decyzji jest zatem dyskusyjna i zawierać może bardzo poważne błędy. Odpowiedni system komputerowy może ułatwić ratownikom podejmowanie decyzji w czasie akcji ratowniczej. W literaturze systemy takie określane są jako "Systemy wspomagania decyzji" (SWD). Ze względu na to, iż system wspomagania decyzji dla służb ratowniczych funkcjonować będzie w~środowisku decyzyjnym jakim jest sytuacja nadzwyczajna, budowa takiego systemu jest procesem skomplikowanym oraz jak dotąd nie rozwiązanym. Podczas seminarium zaprezentowany zostanie System Wspomagania Podejmowania Decyzji (SWPD) dla służb ratowniczych. Analiza potrzeb oraz wymagań dla systemu, przeprowadzona została na przykładzie Państwowej Straży Pożarnej (PSP). System wykorzystuje kognitywistyczny model decyzyjny -- decydowania na podstawie rozpoznania (ang. Recognition Primed Decision , RPD). Model ten w celu eliminacji błędów wynikających z niskiej jakości proponowanych rozwiązań, uzupełniony został przez autora, wiedzą ekspercką oraz elementami teorii gier. Do realizacji modelu RPD w~systemie komputerowym, wykorzystana została metoda wnioskowania na podstawie przypadków (ang. Case-Based Reasoning, CBR). Jednakże, oprócz wyboru odpowiedniego modelu decyzyjnego dla akcji ratowniczych, wymagane było również zaproponowanie odpowiedniej technologii bazodanowej do przechowywania zdarzeń będących podstawą działania aplikacji CBR. Autor dokonał analizy technologii bazodanowych wykorzystywanych obecnie jako warstwa danych systemu CBR i wykazał, iż posiadają one wady, uniemożliwiające ich bezpośrednie wykorzystanie w systemie wspomagania decyzji dla służb ratowniczych. Przeprowadzona analiza ilustruje, iż rozwiązanie uznawane obecnie za najlepsze -- zapis przypadków w~systemach relacyjnych lub plikach XML -- nie jest optymalne dla służb ratowniczych. Do rozwiązania tego problemu autor zaproponował nowe rozwiązanie -- wykorzystanie katalogowych baz danych jako bazy przypadków aplikacji CBR. Wykorzystując podstawowe zalety katalogowych baz danych, w postaci szybkości wyszukiwania i porównywania informacji, natywnej struktury hierarchicznej oraz prostej konstrukcji, autor zaproponował wykorzystanie katalogowych baz danych oraz metody CBR wspomaganej wiedzą ekspercką i elementami teorii gier, jako podstawę systemu wspomagania decyzji dla służb ratowniczych. Dodatkowo, w celu zwiększenia wydajności i niezawodności systemu autor zaproponował architekturę rozproszoną dla bazy przypadków systemu wspomagania decyzji.
2009-11-20, godz. 14:15, s. 5820
dr Nguyen Thi Sinh Hoa, Marcin Kowalski, Sebastian Stawicki, Wojciech Świeboda
Eksploracja wzorców i reguł temporalnych (cz. 2)
Kontynuacja wystąpienia z 13.11.2009. Wielkie ilości danych są zbierane każdego dnia przez różne instytucje i firmy. Odkrywanie wiedzy z tak uzyskanej, wielkiej ilości danych, to podstawowe zadanie data mining. Istniejące algorytmy nie biorą jednak najczęściej pod uwagę aspektu temporalnego zawartego w danych i albo zupełnie ignorują czas (w bardzo ogólnym rozumieniu znaczenia tego słowa) albo traktują go jako zwykły atrybut. Temporal data mining natomiast stawia sobie za zadanie, nie tylko odkrywanie relacji pomiędzy statycznymi obiektami (jak w data mining), ale przede wszystkim eksplorację relacji związanych z "temporalnością" analizowanych danych. Podczas referatu postaramy się przedstawić ogólne wprowadzenie do zagadnienia, a skupimy się głównie na aspekcie wykrywania reguł temporalnych w danych sekwencyjnych. Pod pojęciem sekwencji rozumiemy uporządkowaną listę zdarzeń, które mają przyporządkowany czas ich zaistnienia, przy czym może to być punkt w czasie lub pewien przedział czasu, w którym zdarzenie miało miejsce. Nasze wystąpienie będzie oparte o treści zawarte w książce pt. "Knowledge Discovery from Interval Sequence Data" (Edi Winarko).
2009-11-13, godz. 14:15, s. 5820
dr Nguyen Thi Sinh Hoa, Marcin Kowalski, Sebastian Stawicki, Wojciech Świeboda
Eksploracja wzorców i reguł temporalnych
Wielkie ilości danych są zbierane każdego dnia przez różne instytucje i firmy. Odkrywanie wiedzy z tak uzyskanej, wielkiej ilości danych, to podstawowe zadanie data mining. Istniejące algorytmy nie biorą jednak najczęściej pod uwagę aspektu temporalnego zawartego w danych i albo zupełnie ignorują czas (w bardzo ogólnym rozumieniu znaczenia tego słowa) albo traktują go jako zwykły atrybut. Temporal data mining natomiast stawia sobie za zadanie, nie tylko odkrywanie relacji pomiędzy statycznymi obiektami (jak w data mining), ale przede wszystkim eksplorację relacji związanych z "temporalnością" analizowanych danych. Podczas referatu postaramy się przedstawić ogólne wprowadzenie do zagadnienia, a skupimy się głównie na aspekcie wykrywania reguł temporalnych w danych sekwencyjnych. Pod pojęciem sekwencji rozumiemy uporządkowaną listę zdarzeń, które mają przyporządkowany czas ich zaistnienia, przy czym może to być punkt w czasie lub pewien przedział czasu, w którym zdarzenie miało miejsce. Nasze wystąpienie będzie oparte o treści zawarte w książce pt. "Knowledge Discovery from Interval Sequence Data" (Edi Winarko).
2009-11-06, godz. 14:15, s. 5820
Andrzej Janusz
Wykrywanie (nowych) istotnych cech obiektów - wstęp do zagadnienia na podstawie książki "Feature Extraction: Fundations and Applications"
W czasie dzisiejszego wystapienia chcialbym opowiedziec o problemie wykrywania istotnych cech obiektow na podstawie dostepnych danych. Problem ten jest szczegolnie istotny poniewaz bardzo czesto napotyka sie go wybierajac odpowiednia reprerezentacje na potrzeby budowy klasyfikatorow, konstrukcji modeli podobienstwa, czy wizualizacji danych. Typowo proces wykrywania istotnych cech dzieli sie na etapy konstrukcji oraz selekcji cech, ktore moga wystepowac kolejno lub rownoczesnie jako czesc globalnego problemu optymalizacji. W mojej prezentacji postaram sie przedstawic przeglad klasycznych podejsc do tego tematu jak i zaprezentowac kilka rzadziej spotykanych technik.
2009-10-30, godz. 14:15, s. 5820
Paweł Gora, Paweł Betliński, Mateusz Adamczyk
Wykrywanie procesów z danych na przykładzie symulacji ruchu drogowego
Przedstawione zostaną najważniejsze aspekty modelu symulacji ruchu drogowego oraz jego implementacji w postaci programu komputerowego TSF (Traffic Simulation Framework), a także planowane zastosowania programu do wykrywania modeli procesów z danych i konstrukcji inteligentnego systemu zarządzania ruchem drogowym. Referat podsumowuje dotychczasowe próby automatycznego modelowania procesu powstawania korków ulicznych. Jedna opierała się na modelowaniu możliwych stanów zagrożenia za pomocą sieci bayesowskich. Dla drugiej została opracowana ontologia, której część zaimplementowano w środowisku RoughICE.
2009-10-23, godz. 14:15, s. 5820
Wojciech Froelich (Uniwersytet Śląski)
Odkrywanie zależności przyczynowo-skutkowych z wykorzystaniem rozmytych sieci kognitywnych
W referacie zostanie przedstawiony przegląd metod odkrywania zależności przyczynowo skutkowych w danych, ze szególnym uwzględnieniem rozwiązania opartego na modelu rozmytych sieci kognitywnych (ang. FCM). Reprezentacja wiedzy w formie FCM uwzględnia zależności między pojęciami w sposób aproksymacyjny, pojęcia reprezentowane są poprzez zbiory rozmyte, a zależności między nimi przez relacje rozmyte. Referat podejmuje próbę odpowiedzi na pytanie, czy istniejące metody uczenia FCM (adaptacyjne i ewolucyjne) pozwalają na faktyczne odkrywanie zależności przyczynowo-skutkowych, mogących znaleźć zastosowania praktyczne. Przedstawione zostaną wyniki eksperymentalne w zakresie zastosowań modelu FCM do predykcji wielowymiarowych szeregów czasowych.
2009-10-16, godz. 14:15, s. 5820
Dyskusja na temat realizowanych projektów
2009-10-09, godz. 14:15, s. 5820
Łukasz Puławski ( )
Mining Software Repositories
Na najblizszym seminarium zamierzam opowiedziec o nowej, zyskujacej duza popluarnosc dziedzinie zwanej po angielsku "Mining Software Repositories (MSR)" (nie jest mi znany dobry polski odpowiednik). Istota tego podejscia jest znajdowanie wiedzy w historii procesow wytwarzania oprogramowania. W swoim wystapieniu planuje miedzy innymi wspomniec o: - Glownych kierunkach badan nad MSR oraz ich zastosowaniami - Dostepnych zrodlach danych - Typowych problemach zwiazanych z analiza tego typu danych Czescia wystapienia bedzie prezentacja wygloszona na warsztatach CS&P09 w Krakowie, ktora bedzie dotyczyc bedzie znajdowania zaleznosci w programu na podstawie analizy historii uzywania systemu SCM.
2009-10-02, godz. 15:00, s. 5820
prof. Manfred Kudlek (Uniwersytet w Hamburgu)
Concurrent finite automata
1. Concurrent finite automata. Replacing the control of a(n)(finite) automaton by a Petri net one can define new word language classes. The relation between each and to other language classes is presented. 2. De computo paschae. It is shown how Easter was and is computed. For that some historical and the present two methods for the Orthodox and Western churches is given.
2009-10-02, godz. 14:15, s. 5820
Marcin Wojnarski
TunedIT: Automated evaluation and collaborative benchmarking of data mining algorithms
Tematem referatu będzie nowopowstały system TunedIT (http://tunedit.org/), służący do zautomatyzowanej i reprodukowalnej ewaluacji algorytmów data mining. TunedIT składa się z 3 powiazanych ze sobą modułów: aplikacji testujacej (TunedTester), Repozytorium i Bazy Wiedzy (Knowledge Base). TunedTester to aplikacja Javowa do automatycznej ewaluacji algorytmów, zapewniajaca reprodukowalnosc uzyskanych wyników. Dziala lokalnie na komputerze uzytkownika. Wszystkie zasoby potrzebne do uruchomienia danego testu sa automatycznie sciagane z Repozytorium. Na zyczenie uzytkownika TunedTester moze wyslac wyniki testów do Bazy Wiedzy, aby mogli z nich skorzystac inni. Dzieki automatyzacji testów, wyniki wygenerowane przez róznych uzytkowników sa poprawne i porównywalne, moga wiec byc laczone i wspólnie analizowane w Bazie Wiedzy. Moga byc tez latwo odtworzone i zweryfikowane przez innych badaczy. Repozytorium to publicznie dostepna kolekcja zasobów (plików) zwiazanych z data mining, zlokalizowana na serwerze TunedIT. Zasoby to miedzy innymi algorytmy, zbiory danych i procedury ewaluacji, które moga byc przetestowane za pomoca TunedTestera. Dzieki istnieniu Repozytorium, wyniki wygenerowane przez TunedTestera i zapisane w Bazie Wiedzy sa powiazane z konkretnymi testowanymi zasobami, a dzieki temu sa w pelni interpretowalne. Repozytorium pozwala tez na latwa wymiane zasobów miedzy naukowcami i uzytkownikami technik data mining. Baza Wiedzy to zbiór wyników testów wygenerowanych przez TunedTestera i przeslanych na serwer TunedIT. Baza Wiedzy laczy wyniki nadeslane przez róznych uzytkowników, dzieki czemu stanowi jedyne tak bogate i wszechstronne zródlo wiedzy o skutecznosci róznych algorytmów, testowanych na wielu róznych zbiorach danych. Uzytkownicy moga przegladac zawartosc Bazy Wiedzy za pomoca wygodnego interfejsu uzytkownika. Mozliwe jest tez pobranie danych w formie plików CSV, w celu dalszej analizy "off-line". Obecnie Baza Wiedzy zawiera pomiary wydajnosci niemal 100 róznych algorytmów - m.in. z bibliotek Weka i Rseslib - testowanych na kilkudziesieciu zbiorach danych, m.in. pochodzacych z repozytorium UCI. Zawartosc zarówno Bazy Wiedzy jak i Repozytorium moze byc rozszerzana przez wszystkich uzytkowników. Moduly systemu TunedIT posiadaja liczne mechanizmy bezpieczenstwa, zapewniajace ze wszystkie wyniki zgromadzone w Bazie Wiedzy sa poprawne, bez wzgledu na to, który uzytkownik je nadeslal. Baza Wiedzy nie moze byc zanieczyszczona ani omylkowo - przez bledy uzytkowników - ani celowo.