Łukasz Kaiser z zespołu Google Brain wraz z Henrykiem Michalewskim, Piotrem Miłosiem i Błażejem Osińskim z MIM UW przeprowadzają wspólny eksperyment z zakresu uczenia ze wzmocnieniem. Rozwijany na naszym Wydziale system sztucznej inteligencji zapamiętuje swoje doświadczenia w grafie obliczeń. Graf ten definiuje sposób przetwarzania bodźców, tak aby system się uczył i mógł reagować na sygnały (nagrody i kary) pochodzące ze środowiska.
Jednym z etapów eksperymentu jest re-implementacja algorytmu Proximal Policy Optimization (PPO) zaproponowanego w 2017 roku przez zespół OpenAI z udziałem Filipa Wolskiego, absolwenta MIM i zwycięzcy zawodów ACM ICPC z roku 2007 (zespół Warsaw Eagles, w którym byli również Marek Cygan i Marcin Pilipczuk – wówczas studenci JSIM). Algorytm PPO posłużył OpenAI do skonstruowania zwycięskiego bota w grze Dota 2. Nowość podejścia zespołu MIM-Brain polega na tym, że wszystkie operacje wykonywane przez algorytm są realizowane w grafie obliczeń, bez użycia centralnej jednostki obliczeniowej komputera.
Dzięki takiej architekturze algorytm może być w całości wykonywany przy użyciu nowego procesora Tensor Processing Unit (TPU) skonstruowanego przez Google. Pojedynczy TPU jest wielokrotnie szybszy, niż zwykłe procesory, dzięki czemu implementacja algorytmu PPO będzie istotnie szybsza, przy założeniu że symulator środowiska może być reprezentowany jako sieć neuronowa. Wytrenowanie i użycie tego typu sieci jest jednym z głównych celów zespołu MIM-Brain.
Powyższe badania są częścią długoterminowej inwestycji deepsense.ai w uczenie ze wzmocnieniem. Google Brain udostępnił zespołowi MIM-Brain szereg TPU, które łącznie stanowią jeden z największych superkomputerów na świecie. Eksperyment wspiera także warszawski oddział Google, który pomaga przenieść eksperymenty na platformę Google Cloud.
Dołącz do nas, jeśli chciałbyś skorzystać z TPU i pracować z nami nad podobnymi projektami. Studentów, doktorantów i postdoków zachęcamy do aplikowania o stypendia w grancie Sonata Bis kierowanym przez Piotra Miłosia. Zespół deepsense.ai zatrudni inżynierów i naukowców zainteresowanych podobnymi projektami badawczymi.