Nie jesteś zalogowany | zaloguj się

Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego

  • Skala szarości
  • Wysoki kontrast
  • Negatyw
  • Podkreślenie linków
  • Reset

Aktualności — Wydarzenia

Seminarium badawcze Zakładu Logiki: Wnioskowania aproksymacyjne w eksploracji danych

 

UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction


Prelegent: Mateusz Przyborowski

2020-04-17 14:15

Algorytm UMAP to nieliniowa metoda redukcji wymiaru, oparta o techniki topologicznej analizy danych, która może być wykorzystana do wizualizacji wysokowymiarowych danych w sposób podobny do znanego np. z algorytmu t-SNE. Zakładamy, że dane są jednostajnie rozmieszczone na lokalnie spójnej rozmaitości riemannowskiej oraz że metryka riemannowska jest na niej (w przybliżeniu) lokalnie stała. Wówczas UMAP wykorzystuje przybliżenia lokalnych rozmaitości by połączyć ich reprezentacje rozmytych zbiorów symplicjalnych do utworzenia topologicznej reprezentacji wysokowymiarowych danych. Mając niskowymiarowe reprezentacje danych możemy również analogicznie spróbować zbudować równoważną topologiczną reprezentację. UMAP stara się zminimalizować entropię krzyżową pomiędzy tak uzyskanymi topologicznymi reprezentacjami, a więc szuka niskowymiarowej reprezentacji która w możliwie dobry sposób odzwierciedla topologiczną strukturę oryginalnych (wysokowymiarowych) danych.
Obecnie jednym z najpowszechniej używanych algorytmów nieliniowej redukcji wymiaru jest t-SNE. UMAP produkuje podobne lub lepsze reprezentacje, jako że zachowuje więcej globalnych cech danych, a sam wynik działania algorytmu, mierzony miarą Prokrusta, jest stabilniejszy. Ponadto UMAP, zarówno pod względem wymiarowości jak i rozmiaru danych, jest wydajniejszy od t-SNE.
W trakcie swojego referatu pragnę omówić sposób działania algorytmu UMAP oraz porównać uzyskane reprezentacje z wynikami najpopularniejszych algorytmów redukcji wymiaru.