Na dzisiejszych zajęciach zapoznamy się ze ƛrodowiskiem Rstudio oraz przygotujemy nasz pierwszy raport statystyczny z uĆŒyciem pakietu Rmarkdown.

Rstudio

Uruchom program Rstudio. Jeƛli korzystasz z wƂasnego komputera, zainstaluj Rstudio korzystając z linka podanego powyĆŒej. Na komputerach w laboratorium jest juĆŒ zainstalowny.

Rstudio jest zintegrowanym ƛrodowiskiem programistycznym (integrated development environment, IDE) sƂuĆŒÄ…cym do przeprowadzania analiz statystycznych i tworzenia grafiki naukowej przy pomocy pakietu R.

Okno Rstudio

Okno Rstudio

ƚrodowisko Rstudio skƂada się z następujących paneli:

W zakƂadkach znajdują się dodatkowe okna, m.in. historia wywoƂanych poleceƄ i dokumentacja funkcji i pakietów.

Zadanie 1. UtwĂłrz nowy skrypt (File -> New File -> R Script) i zapisz go w wybranym katalogu. Następnie wklej do niego wymienione poniĆŒej komendy (kaĆŒdą w osobnej linijce), wywoƂaj je po kolei i przyjrzyj się wynikom. Pojedynczą linijkę skryptu moĆŒesz wywoƂać w konsoli wciskając Ctrl+Enter, a caƂy skrypt klikajac przycisk Source w prawym gĂłrnym rogu okna edytora. DokƂadne dziaƂanie poszczegĂłlnych komend zostanie opisane w dalszej częƛci kursu.

Teraz wywoƂaj w konsoli komendę install.packages('tidyverse'), ktĂłra zainstaluje pakiet o nazwie tidyverse, rozszerzający podstawową funkcjonalnoƛć R. Instalacja moĆŒe trochę potrwać. W tym czasie moĆŒesz przeczytać poniĆŒszą czytankę.

Co to R i po co to?

R jest jednym z najpopularniejszych programĂłw do analizy danych (obok SAS, Microsoft Excel i języka Python). Jego gƂówną zaletą jest to, ĆŒe jest mocno przystosowany do szybkiego przeprowadzania prostych analiz z uĆŒyciem gotowych pakietĂłw.

Przystosowanie do konkretnego zadania oznacza jednoczeƛnie, ĆŒe R idzie na przekĂłr większoƛci konwencji spotykanych w innych językach programowania. Z tego powodu, o ile R jest bardzo wygodnym narzędziem do przeprowadzania rutynowych analiz, to implementowanie wƂasnych algorytmĂłw w R jest bardzo uciÄ…ĆŒliwe i maƂo wydajne obliczeniowo. Na kursie Statystycznej Analizy Danych nie będziemy prawie nigdy pisać wƂasnych programĂłw - niemal wszystkie zadania da się rozwiązać korzystając z gotowych funkcji i pakietĂłw, ktĂłre na ogóƂ są napisane w językach FORTRAN lub C.

GƂównym konkurentem R jest język Python. Oba narzędzia oferują komplementarne moĆŒliwoƛci. O ile R jest wyspecjalizowanym pakietem statystycznym, to język Python jest językiem ogĂłlnego zastosowania. Z tego powodu duĆŒo lepiej nadaje się do implementowania wƂasnych, niestandardowych rozwiązaƄ. Jest rĂłwnieĆŒ duĆŒo bardziej wydajny obliczeniowo - kod napisany w tym języku wywoƂuje się kilku(dziesięcio)krotnie szybciej niĆŒ analogiczny kod napisany w R. Z drugiej strony, przeprowadzenie typowej analizy i przygotowanie raportu statystycznego zajmuje w nim kilku(dziesięcio)krotnie więcej czasu.

ZarĂłwno R jak i Python są powszechnie uĆŒywane w analizie danych i kaĆŒdy, kto planuje w przyszƂoƛci pracować z danymi, powinien poznać oba te narzędzia przynajmniej w podstawowym stopniu i wiedzieć, kiedy stosować kaĆŒde z nich.

Raporty statystyczne w Rmarkdown

Rmarkdown Notebook sƂuĆŒy do Ƃączenia kodu w R z tekstem w języku naturalnym oraz wzorami w języku \(\LaTeX\).