Nie jesteś zalogowany | Zaloguj się

Łączenie metody bazującej na instancjach z metodą indukcji reguł dla danych niezbalansowanych

Prelegent(ci)
Grzegorz Góra
Afiliacja
MIMUW
Termin
3 czerwca 2022 14:15
Informacje na temat wydarzenia
5820 & online https://meet.google.com/jbj-tdsr-aop
Seminarium
Seminarium badawcze „Systemy Inteligentne”

Chciałbym przestawić główne wyniki z mojej rozprawy doktorskiej (kontynuacja).
Rozprawa przedstawia metody i systemy uczenia się pojęć z przykładów dla danych zbalansowanych i niezbalansowanych ze szczególnym uwzględnieniem tych drugich.

 Algorytm RIONA łączy podejście oparte na instancjach i regułach. Stosuje on reguły z warunkami grupującymi wartości dla atrybutów numerycznych, jak i symbolicznych. Dzięki użyciu otoczenia obiektu testowego (zamiast całego zbioru uczącego) z właściwie dobranym rozmiarem, jest on zarówno szybki, jak i skuteczny (w klasyfikacji). Także wyszukiwanie optymalnego rozmiaru otoczenia jest szybkie. Algorytm RIONA wykazuje skuteczność porównywalną ze znanymi systemami.

Algorytm RIONIDA jest rozszerzeniem algorytmu RIONA dla danych niezbalansowanych. Łączy on podejście oparte na instancjach i regułach w nowy sposób stosując specjalne reguły, bardziej ogólne niż w RIONA. RIONIDA realizuje kilka dodatkowych idei w porównaniu do RIONA: optymalizację jawnie podanej miary jakości, wagi dla dwóch klas, skalowane reguły, a także optymalizację parametrów dla dwóch poprzednich idei. Algorytm RIONIDA jest stosunkowo szybki i daje istotnie lepsze wyniki niż znane algorytmy analizowane w pracy.

Wyniki teoretyczne pomagają w: (i) tworzeniu klasyfikatorów z własnością wyjaśnialności dla obu algorytmów oraz (ii) przyspieszeniu algorytmu RIONIDA.

Chciałbym się skupić na teoretycznych wynikach z pracy:

- twierdzenie o równoważności algorytmu RIONA do algorytmu korzystającego ze zbioru wszystkich, niesprzecznych, maksymalnie uogólnionych reguł. Przy tej równoważności mamy jednakże praktyczne przyspieszenie: z wykładniczej do (niskiej) wielomianowej

- o twierdzeniach o optymalnych wagach dla klasyfikatorów kNN z wagami, udowodnionych dla specyficznych zbiorów danych. Chociaż użyte w twierdzeniach zbiory danych są specyficzne, chciałbym powiedzieć o ciekawych implikacjach praktycznych.
 

Combining instance-based learning and rule-based methods for imbalanced data

Abstract:

I would like to present main results of my PhD dissertation (continuation). The thesis presents methods and systems for learning concepts from examples considering two levels of data difficulty represented by balanced and imbalanced data. However, we focus more on imbalanced data.

The RIONA algorithm combines instance- and rule-based approaches. It uses rules with conditions expressing groups of values for both numerical and symbolic attributes. Using the neighbourhood of a test case (instead of the whole training set) of appropriate size, it is both fast and effective (in classification). Additionally, searching for the optimal neighbourhood size is also done efficiently. RIONA is showing the accuracy comparable to the well-known systems.

RIONIDA is an extension of RIONA for imbalanced data. Additionally, RIONIDA combines instance- and rule-based approaches in another aspect, namely by using special rules that are more general than in RIONA. RIONIDA realises a few additional ideas compared to RIONA: optimisation of the explicitly given performance measure, weights for two classes, the idea of scaled rules, optimisation of parameters related to two latter ideas. RIONIDA is relatively fast and significantly outperforms state-of-the-art algorithms analysed in the thesis.

Presented and proved theoretical results for RIONA and RIONIDA help: (i) to make the produced classifiers explainable, and (ii) to accelerate RIONIDA.

I would like to focus on the theoretical results from my PhD:

- theorem showing equivalence of the RIONA algorithm to the algorithm using the set of all, consistent, maximally generalised rules. With this equivalence, however, we have a practical acceleration: from exponential to (low) polynomial

- theorems on optimal weights for kNN classifiers (with weights), proved for specific datasets. Although used in theorem datasets are specific, I would like to mention some interesting practical implications.

---------------------------------------

Plan wystąpień w tej edycji jest dostępny tutaj

The schedule of presentations can be checked here