Tematyka seminarium obejmuje teorię i praktykę przetwarzania danych i reprezentacji wiedzy. Interesują nas wyzwania związane z przetwarzaniem danych, zapytań i metadanych (schematów, więzów, zależności, ontologii) - od projektowania i analizy abstrakcyjnych formalizmów aż po architekturę systemów i rozpraszanie obliczeń na dużych danych. Rozważamy różne rodzaje danych: nie tylko dane relacyjne, ale również semistrukturalne (XML, JSON), grafowe (RDF, LPG), obiektowe, tekstowe, temporalne, strumieniowe, aż po systemy informacji geograficznej (GIS).
Podejmujemy zarówno zagadnienia teoretyczne, wykorzystujące warsztat algorytmiki, kombinatoryki, logiki (np. teorii modeli skończonych) i teorii automatów, jak i praktyczne, opierające się na narzędziach inżynierii oprogramowania i wiedzy o systemach. Prace magisterskie powstające w ramach seminarium mogą badać rozstrzygalność i złożoność abstrakcyjnych problemów decyzyjnych, projektować algorytmy i heurystyki, implementować i testować istniejące rozwiązania teoretyczne, czy też analizować, porównywać i rozszerzać istniejące systemy.
Spotykamy się również i dyskutujemy z badaczami z innych dziedzin, którzy czasami dostarczają nam pomysłów na tematy prac magisterskich. Współpracowaliśmy już lub nadal współpracujemy z astronomami, chemikami, geografami. Jesteśmy nadal otwarci na inne obszary zastosowań.
Referaty seminaryjne są zwykle wygłaszane na podstawie wybranych prac z głównych międzynarodowych konferencji poświęconych bazom danych i reprezentacji wiedzy, takich jak VLDB, PODS, SIGMOD i KR.
Przykładowe zagadnienia:
* Data models, semantics, query languages
* Data provenance
* Databases for emerging hardware
* Distributed and parallel databases
* Graph data management, RDF, social networks, Semantic Web
* Knowledge discovery, clustering, data mining
* Machine learning for data management and vice versa
* Model theory, logics, algebras, computational complexity
* Ontology-based data access, data integration and exchange, metadata management
* Ontology formalisms and models, description logics
* Privacy, security, ethics
* Query processing and optimization
* Scientific databases
* Semi-structured data
* Small data, end-user programming
* Storage, indexing, and physical database design
* Streams, sensor networks, complex event processing
* Transaction processing
* Uncertainty, incompleteness, and inconsistency in data management
Organizatorzy
- dr hab. Filip Murlak, prof. ucz.
- dr Jacek Sroka
- prof. dr hab. Krzysztof Stencel
- prof. dr hab. Jerzy Tyszkiewicz
Informacje
wtorki, 10:15 , sala: 4060Strona domowa
https://sites.google.com/view/sembdmimuw?pli=1&authuser=1Dziedziny badań
Lista referatów
-
21 stycznia 2025 10:15
Damian Werpachowski (MIMUW)
Implementation of UDP network stack for Java using ef_vi (Implementation of UDP network stack for Java using ef_vi)
We współczesnych serwerowniach istnieje potrzeba bardzo szybkiej komunikacji sieciowej między komputerami. Jednym z takich zastosowań jest zautomatyzowany handel instrumentami finansowymi (takimi jak opcje czy akcje) na giełdzie, gdzie kluczowe jest szybkie reagowanie na dynamicznie zmieniające …
-
14 stycznia 2025 10:15
Michał Molas (MIMUW)
LadderFilter: Filtrowanie rzadkich elementów przy niewielkim zużyciu pamięci i czasu (LadderFilter: Filtering Infrequent Items with Small Memory and Time Overhead)
Algorytmy przetwarzające strumienie danych często skupiają się na identyfikacji i analizie elementów o wysokiej częstotliwości występowania. Filtrowanie rzadkich elementów pozwala zminimalizować zużycie pamięci i ograniczyć czas przetwarzania. W pracy "LadderFilter: Filtering Infrequent Items with Small …
-
7 stycznia 2025 10:15
Katarzyna Mielnik (MIMUW)
Lemo: A Cache-Enhanced Learned Optimizer for Concurrent Queries (Lemo: A Cache-Enhanced Learned Optimizer for Concurrent Queries)
-
17 grudnia 2024 10:15
Zuzanna Surowiec (MIMUW)
Low-Latency Adaptive Distributed Stream Join System Based on a Flexible Join Model
-
10 grudnia 2024 10:15
Agata Bielenica (MIMUW)
Obliczanie wartości Shapleya faktów w odpowiadaniu na zapytania (Computing the Shapley Value of Facts in Query Answering)
-
3 grudnia 2024 10:15
Jakub Kłos (MIMUW)
Szybkie ciągłe dopasowywanie podgrafów w strumieniowych grafach za pomocą redukcji cofania
Plan referatu: Wstęp - przedstawienie problemu, opowiedzenie, czym są grafy strumieniowe i na czym polega dopasowywanie podgrafów. Przedstawienie istniejących metod: TurboFlux i SymBi. Omówienie wad powyższych rozwiązań. Prezentacja nowatorskiego rozwiązania stosującego nową strukturę danych CaLiG. …
-
26 listopada 2024 10:15
Michał Garbacz (MIMUW)
Continual release of differentially private synthetic data (Continual release of differentially private synthetic data)
W trakcie referatu odpowiem na następujące pytania: Po co nam generacja sztucznych danych z prawdziwych danych? Na czym polega cecha "differentially private"? Jak wygenerujemy nasze dane, zarówno do analizy krótszych okien czasowych, i wieloletnich? Jak …
-
12 listopada 2024 10:15
Maciej Herdon (MIMUW)
Supporting Descendants in SIMD-Accelerated JSONPath
JSON to format wybierany zarówno do współczesnej komunikacji sieciowej jak i do zbiorów danych. Wciąż jednak szybkie przetwarzanie dokumentów w formacie JSON jest istotnym wyzwanie. Jak niedawno zaprezentowali Langdale i Lemire ("Parsing Gigabytes of JSON …
-
5 listopada 2024 10:15
Marcin Mordecki (MIMUW)
Wstęp do analizy wpływu wykorzystania instrukcji SIMD na wydajność przetwarzania danych
Przetwarzanie danych można usprawniać na wielu poziomach - począwszy od rozważnego konstruowania algorytmów, przechodząc przez wybór odpowiednich narzędzi, aż do niskopoziomowych optymalizacji. Skupimy się na ostatnim z tych aspektów, przyglądając się dokładnie czym jest architektura …
-
29 października 2024 10:15
Łukasz Orawiec (MIMUW)
A JSONPath query compiler targeting JSON parsers APIs
Istnieje wiele implementacji parserów danych w formacie JSON, oferujących różne rodzaje API, takie jak interfejsy DOM-like, w których dokument jest dostępny jako zmaterializowane w pamięci drzewo, lub SAX-like, w których parser emituje zdarzenie dla każdego …
-
22 października 2024 10:15
Piotr Ulanowski (MIMUW)
PathFinder: Algorytmy ewaluacji zapytań w bazach grafowych
Zapytania ścieżkowe są kluczową funkcjonalnością współczesnych języków zapytań grafowych, takich jak Cypher, SQL/PGQ i GQL. Te języki oferują bogaty zestaw funkcji do dopasowywania ścieżek, takich jak ograniczanie do określonych trybów ścieżek (shortest, simple, trail) oraz …
-
15 października 2024 11:00
Krzysztof Stencel (MIMUW)
Jak przestałem się martwić i pokochałem ChatGPT (How I Learned to Stop Worrying and Love ChatGPT)
-
15 października 2024 10:15
Michał Jadwiszczak (MIMUW)
Rozproszone agregaty w rozproszonej szerokokolumnowej bazie danych (Distributed aggregation in a distributed wide-column database)
Rozproszone bazy danych, w porównaniu do baz jednoserwerowych, otwierają szerokie pole nowych możliwości. Choć istnieje potencjał zwiększenia przepustowości, skrócenia czasu wykonywania zapytań oraz bardziej efektywnego wykorzystania maszyn, istnieje również ryzyko stworzenia wąskiego gardła dla całego …
-
6 czerwca 2024 12:15
Grzegorz Bogusław Zaleski (MIMUW)
Porównanie miar oprogramowania z subiektywną oceną jakości (A comparison of software measures with a subjective assessment of quality)
W swojej prezentacji opowiem o mojej pracy magisterskiej - The comparison of software measures with a subjective assessment of quality - gdzie poruszam tematy pisania dobrego kodu źródłowego a nie tylko działającej aplikacji. Opowiem o …
-
23 maja 2024 12:15
Jacek Ciszewski (MIMUW)
PG schema validation
W ostatnich latach można zaobserwować wzrost popularności i popytu na grafowe bazy danych. Ponieważ duży nacisk w tej dziedzinie położono na języki zapytań grafowych, rozmaite istniejące schematy grafów różnią się znacznie pod względem możliwości i …