Tematyka seminarium obejmuje teorię i praktykę przetwarzania danych i reprezentacji wiedzy. Interesują nas wyzwania związane z przetwarzaniem danych, zapytań i metadanych (schematów, więzów, zależności, ontologii) - od projektowania i analizy abstrakcyjnych formalizmów aż po architekturę systemów i rozpraszanie obliczeń na dużych danych. Rozważamy różne rodzaje danych: nie tylko dane relacyjne, ale również semistrukturalne (XML, JSON), grafowe (RDF, LPG), obiektowe, tekstowe, temporalne, strumieniowe, aż po systemy informacji geograficznej (GIS).
Podejmujemy zarówno zagadnienia teoretyczne, wykorzystujące warsztat algorytmiki, kombinatoryki, logiki (np. teorii modeli skończonych) i teorii automatów, jak i praktyczne, opierające się na narzędziach inżynierii oprogramowania i wiedzy o systemach. Prace magisterskie powstające w ramach seminarium mogą badać rozstrzygalność i złożoność abstrakcyjnych problemów decyzyjnych, projektować algorytmy i heurystyki, implementować i testować istniejące rozwiązania teoretyczne, czy też analizować, porównywać i rozszerzać istniejące systemy.
Spotykamy się również i dyskutujemy z badaczami z innych dziedzin, którzy czasami dostarczają nam pomysłów na tematy prac magisterskich. Współpracowaliśmy już lub nadal współpracujemy z astronomami, chemikami, geografami. Jesteśmy nadal otwarci na inne obszary zastosowań.
Referaty seminaryjne są zwykle wygłaszane na podstawie wybranych prac z głównych międzynarodowych konferencji poświęconych bazom danych i reprezentacji wiedzy, takich jak VLDB, PODS, SIGMOD i KR.
Przykładowe zagadnienia:
* Data models, semantics, query languages
* Data provenance
* Databases for emerging hardware
* Distributed and parallel databases
* Graph data management, RDF, social networks, Semantic Web
* Knowledge discovery, clustering, data mining
* Machine learning for data management and vice versa
* Model theory, logics, algebras, computational complexity
* Ontology-based data access, data integration and exchange, metadata management
* Ontology formalisms and models, description logics
* Privacy, security, ethics
* Query processing and optimization
* Scientific databases
* Semi-structured data
* Small data, end-user programming
* Storage, indexing, and physical database design
* Streams, sensor networks, complex event processing
* Transaction processing
* Uncertainty, incompleteness, and inconsistency in data management
Organizatorzy
- dr hab. Filip Murlak, prof. ucz.
- dr Jacek Sroka
- prof. dr hab. Krzysztof Stencel
- prof. dr hab. Jerzy Tyszkiewicz
Informacje
wtorki, 10:15 , sala: 4060Strona domowa
https://sites.google.com/view/sembdmimuw?pli=1&authuser=1Dziedziny badań
Lista referatów
-
27 maja 2025 10:15
Damian Werpachowski (MIMUW)
Implementation of UDP network stack for Java using ef_vi (Implementation of UDP network stack for Java using ef_vi)
Podczas ostatniego referatu opowiadałem o implementacji stosu sieciowego UDP w Javie z wykorzystaniem biblioteki ef_vi. W najbliższym referacie skupię się na zagadnieniach związanych z optymalizacją opóźnień. Przedstawię różne techniki programistyczne oraz przeanalizuję wpływ czynników środowiskowych …
-
20 maja 2025 10:15
Bartosz Ruszewski (MIMUW)
Evaluation and Enumeration of Regular Simple Path and Trail Queries (Evaluation and Enumeration of Regular Simple Path and Trail Queries)
Podczas referatu przybliżę problem dotyczący ewaluacji zapytań RPQ w semantyce Simple Paths i Trails. Opowiem o tym, jak często w praktyce pojawiają się trudne do ewaluacji zapytania i czy istnieją jakieś sposoby na radzenie sobie …
-
13 maja 2025 10:15
Piotr Ulanowski (MIMUW)
Ewaluacja zapytań ścieżkowych w językach GQL i SQL/PGQ z wykorzystaniem różnych algorytmów przeszukiwania grafów
Wraz z rosnącym znaczeniem aplikacji opartych na danych, niezbędne jest projektowanie algorytmów, które potrafią efektywnie przetwarzać zapytania dotyczące przechowywanych danych. Wraz z wydaniem standardu GQL w kwietniu 2024 roku, pojawia się możliwość opracowania nowych algorytmów …
-
6 maja 2025 10:15
Michał Molas (MIMUW)
ALEX: Cardinality Estimation of LIKE Predicate Queries using Deep Learning (ALEX: Cardinality Estimation of LIKE Predicate Queries using Deep Learning)
Szacowanie wielkości wyników zapytań jest kluczowe do stworzenia dobrego planu zapytania. W moim referacie omówię pracę "Cardinality Estimation of LIKE Predicate Queries using Deep Learning" (https://dl.acm.org/doi/10.1145/3709670), której autorzy proponują model CLIQUE łączący klasyczne metody z …
-
29 kwietnia 2025 10:45
Zuzanna Surowiec (MIMUW)
Optimizing Nested Recursive Queries (Optimizing Nested Recursive Queries)
Podczas referatu przybliżę temat programów w Datalogu oraz programów T-warstwowych z negacją i rekurencją. Omówię użyte przez autorów optymalizacje - subsumpcję i eliminację zmiennych temporalnych. Przedstawię wyniki porównania ze state-of-the-art systemami Datalogu (Soufflé) oraz in-memory …
-
29 kwietnia 2025 10:15
Marta Jadwiga Burzańska (UMK)
Heuristic algorithm for periodic patterns discovery in a database workload reconstruction (Heuristic algorithm for periodic patterns discovery in a database workload reconstruction)
Information about the existence of periodic patterns in a database workload can play a big part in the process of database tuning. However, full analysis of audit trails can be cumbersome and time-consuming. This talk …
-
15 kwietnia 2025 10:15
Jakub Kłos (MIMUW)
Differentially Private Data Release over Multiple Tables (Differentially Private Data Release over Multiple Tables)
Niektóre zbiory danych wymagają zachowania wysokiego poziomu prywatności, dlatego na początku przybliżę pojęcie prywatności różnicowej. Następnie omówię wcześniejsze prace podejmujące to zagadnienie. Potem przedstawię algorytm generowania danych syntetycznych, który umożliwia udzielanie odpowiedzi na wiele zapytań …
-
8 kwietnia 2025 10:15
Katarzyna Mielnik (MIMUW)
Efficiently Processing Joins and Grouped Aggregations on GPUs (Efficiently Processing Joins and Grouped Aggregations on GPUs)
Potencjał GPU w operacjach na bazach danych nie jest obecnie w pełni wykorzystywany. W referacie omówię, w jaki sposób autorzy pracy zoptymalizowali operacje grupowania i złączenia, ograniczyli dostępy swobodne do pamięci, a także jaką wydajność …
-
25 marca 2025 10:15
Marcin Mordecki (MIMUW)
Analiza wpływu wykorzystania instrukcji SIMD na wydajność przetwarzania
-
18 marca 2025 10:15
Michał J. Gajda (Well. co)
Zamienianie tabel w strumienie zdarzeń przyrostowych i odwrotnie
-
4 marca 2025 10:15
Krzysztof Żyndul (MIMUW)
ALEX: An Updatable Adaptive Learned Index (ALEX: An Updatable Adaptive Learned Index)
W moim referacie przedstawię koncepcję indeksów uczonych, opierając się na pracach "The Case for Learned Index Structures" oraz "ALEX: An Updatable Adaptive Learned Index". Omówię nowatorskie podejście wykorzystujące uczenie maszynowe do indeksowania danych. Szczególną uwagę …
-
25 lutego 2025 10:15
Alexandra Rogova (MIMUW)
Dangers of List Processing in Querying Property Graphs (Dangers of List Processing in Querying Property Graphs)
The focus of graph databases is graph-like data, i.e. data that represents heavily-linked information where the topology is an important aspect. The workhorse of graph query languages is pattern matching. The result of pattern matching …
-
21 stycznia 2025 10:15
Damian Werpachowski (MIMUW)
Implementation of UDP network stack for Java using ef_vi (Implementation of UDP network stack for Java using ef_vi)
We współczesnych serwerowniach istnieje potrzeba bardzo szybkiej komunikacji sieciowej między komputerami. Jednym z takich zastosowań jest zautomatyzowany handel instrumentami finansowymi (takimi jak opcje czy akcje) na giełdzie, gdzie kluczowe jest szybkie reagowanie na dynamicznie zmieniające …
-
14 stycznia 2025 10:15
Michał Molas (MIMUW)
LadderFilter: Filtrowanie rzadkich elementów przy niewielkim zużyciu pamięci i czasu (LadderFilter: Filtering Infrequent Items with Small Memory and Time Overhead)
Algorytmy przetwarzające strumienie danych często skupiają się na identyfikacji i analizie elementów o wysokiej częstotliwości występowania. Filtrowanie rzadkich elementów pozwala zminimalizować zużycie pamięci i ograniczyć czas przetwarzania. W pracy "LadderFilter: Filtering Infrequent Items with Small …
-
7 stycznia 2025 10:15
Katarzyna Mielnik (MIMUW)
Lemo: A Cache-Enhanced Learned Optimizer for Concurrent Queries (Lemo: A Cache-Enhanced Learned Optimizer for Concurrent Queries)