Na dzisiejszych zajęciach zapoznamy się ze środowiskiem Rstudio oraz przygotujemy nasz pierwszy raport statystyczny z użyciem pakietu Rmarkdown.

Rstudio

Uruchom program Rstudio. Jeśli korzystasz z własnego komputera, zainstaluj Rstudio korzystając z linka podanego powyżej. Na komputerach w laboratorium jest już zainstalowny.

Rstudio jest zintegrowanym środowiskiem programistycznym (integrated development environment, IDE) służącym do przeprowadzania analiz statystycznych i tworzenia grafiki naukowej przy pomocy pakietu R.

Okno Rstudio

Okno Rstudio

Środowisko Rstudio składa się z następujących paneli:

W zakładkach znajdują się dodatkowe okna, m.in. historia wywołanych poleceń i dokumentacja funkcji i pakietów.

Zadanie 1. Utwórz nowy skrypt (File -> New File -> R Script) i zapisz go w wybranym katalogu. Następnie wklej do niego wymienione poniżej komendy (każdą w osobnej linijce), wywołaj je po kolei i przyjrzyj się wynikom. Pojedynczą linijkę skryptu możesz wywołać w konsoli wciskając Ctrl+Enter, a cały skrypt klikajac przycisk Source w prawym górnym rogu okna edytora. Dokładne działanie poszczególnych komend zostanie opisane w dalszej części kursu.

Teraz wywołaj w konsoli komendę install.packages('tidyverse'), która zainstaluje pakiet o nazwie tidyverse, rozszerzający podstawową funkcjonalność R. Instalacja może trochę potrwać. W tym czasie możesz przeczytać poniższą czytankę.

Co to R i po co to?

R jest jednym z najpopularniejszych programów do analizy danych (obok SAS, Microsoft Excel i języka Python). Jego główną zaletą jest to, że jest mocno przystosowany do szybkiego przeprowadzania prostych analiz z użyciem gotowych pakietów.

Przystosowanie do konkretnego zadania oznacza jednocześnie, że R idzie na przekór większości konwencji spotykanych w innych językach programowania. Z tego powodu, o ile R jest bardzo wygodnym narzędziem do przeprowadzania rutynowych analiz, to implementowanie własnych algorytmów w R jest bardzo uciążliwe i mało wydajne obliczeniowo. Na kursie Statystycznej Analizy Danych nie będziemy prawie nigdy pisać własnych programów - niemal wszystkie zadania da się rozwiązać korzystając z gotowych funkcji i pakietów, które na ogół są napisane w językach FORTRAN lub C.

Głównym konkurentem R jest język Python. Oba narzędzia oferują komplementarne możliwości. O ile R jest wyspecjalizowanym pakietem statystycznym, to język Python jest językiem ogólnego zastosowania. Z tego powodu dużo lepiej nadaje się do implementowania własnych, niestandardowych rozwiązań. Jest również dużo bardziej wydajny obliczeniowo - kod napisany w tym języku wywołuje się kilku(dziesięcio)krotnie szybciej niż analogiczny kod napisany w R. Z drugiej strony, przeprowadzenie typowej analizy i przygotowanie raportu statystycznego zajmuje w nim kilku(dziesięcio)krotnie więcej czasu.

Zarówno R jak i Python są powszechnie używane w analizie danych i każdy, kto planuje w przyszłości pracować z danymi, powinien poznać oba te narzędzia przynajmniej w podstawowym stopniu i wiedzieć, kiedy stosować każde z nich.

Raporty statystyczne w Rmarkdown

Rmarkdown Notebook służy do łączenia kodu w R z tekstem w języku naturalnym oraz wzorami w języku \(\LaTeX\).