Na dzisiejszych zajÄciach zapoznamy siÄ ze Ćrodowiskiem Rstudio oraz przygotujemy nasz pierwszy raport statystyczny z uĆŒyciem pakietu Rmarkdown.
Uruchom program Rstudio. JeĆli korzystasz z wĆasnego komputera, zainstaluj Rstudio korzystajÄ c z linka podanego powyĆŒej. Na komputerach w laboratorium jest juĆŒ zainstalowny.
Rstudio jest zintegrowanym Ćrodowiskiem programistycznym (integrated development environment, IDE) sĆuĆŒÄ cym do przeprowadzania analiz statystycznych i tworzenia grafiki naukowej przy pomocy pakietu R.
Okno Rstudio
Ćrodowisko Rstudio skĆada siÄ z nastÄpujÄ cych paneli:
W zakĆadkach znajdujÄ siÄ dodatkowe okna, m.in. historia wywoĆanych poleceĆ i dokumentacja funkcji i pakietĂłw.
Zadanie 1. UtwĂłrz nowy skrypt (File -> New File -> R Script) i zapisz go w wybranym katalogu. NastÄpnie wklej do niego wymienione poniĆŒej komendy (kaĆŒdÄ
w osobnej linijce), wywoĆaj je po kolei i przyjrzyj siÄ wynikom. PojedynczÄ
linijkÄ skryptu moĆŒesz wywoĆaÄ w konsoli wciskajÄ
c Ctrl+Enter
, a caĆy skrypt klikajac przycisk Source
w prawym gĂłrnym rogu okna edytora. DokĆadne dziaĆanie poszczegĂłlnych komend zostanie opisane w dalszej czÄĆci kursu.
data(iris)
, Ćaduje do pamiÄci dane o nazwie iris
. Jest to jeden ze zbiorĂłw danych ktĂłre sÄ
doĆÄ
czone do pakietu R. Zawiera pomiary kwiatĂłw naleĆŒÄ
cych do trzech gatunkĂłw rodzaju Iris (pol. irys).help(iris)
, wyĆwietla informacje na temat danych iris
.View(iris)
, wyĆwietla dane w oknie edytora.plot(iris$Sepal.Length, iris$Sepal.Width, pch=19, col=iris$Species)
, wykreĆla zaleĆŒnoĆÄ szerokoĆci od dĆugoĆci pĆatkĂłw irysa i koloruje punkty w zaleĆŒnoĆci od gatunku roĆliny.legend('topright', legend=levels(iris$Species), fill=1:3)
, dodaje legendÄ do wykresu.help(mean)
, wyĆwietla dokumentacjÄ funkcji mean
.tapply(iris$Sepal.Length, iris$Species, mean)
, oblicza ĆredniÄ
dĆugoĆÄ pĆatka dla kaĆŒdego gatunku. Na razie nie musicie przejmowaÄ siÄ tym, jak dokĆadnie dziaĆa komenda tapply()
- zostanie to wyjaĆnione w przyszĆym tygodniu. OgĂłlnie rzecz biorÄ
c sĆuĆŒy ona do przyĆoĆŒenia jakiejĆ funkcji, na przykĆad mean()
, do kilku grup obserwacji jednoczeĆnie.Teraz wywoĆaj w konsoli komendÄ install.packages('tidyverse')
, ktĂłra zainstaluje pakiet o nazwie tidyverse
, rozszerzajÄ
cy podstawowÄ
funkcjonalnoĆÄ R. Instalacja moĆŒe trochÄ potrwaÄ. W tym czasie moĆŒesz przeczytaÄ poniĆŒszÄ
czytankÄ.
R jest jednym z najpopularniejszych programĂłw do analizy danych (obok SAS, Microsoft Excel i jÄzyka Python). Jego gĆĂłwnÄ zaletÄ jest to, ĆŒe jest mocno przystosowany do szybkiego przeprowadzania prostych analiz z uĆŒyciem gotowych pakietĂłw.
Przystosowanie do konkretnego zadania oznacza jednoczeĆnie, ĆŒe R idzie na przekĂłr wiÄkszoĆci konwencji spotykanych w innych jÄzykach programowania. Z tego powodu, o ile R jest bardzo wygodnym narzÄdziem do przeprowadzania rutynowych analiz, to implementowanie wĆasnych algorytmĂłw w R jest bardzo uciÄ ĆŒliwe i maĆo wydajne obliczeniowo. Na kursie Statystycznej Analizy Danych nie bÄdziemy prawie nigdy pisaÄ wĆasnych programĂłw - niemal wszystkie zadania da siÄ rozwiÄ zaÄ korzystajÄ c z gotowych funkcji i pakietĂłw, ktĂłre na ogĂłĆ sÄ napisane w jÄzykach FORTRAN lub C.
GĆĂłwnym konkurentem R jest jÄzyk Python. Oba narzÄdzia oferujÄ komplementarne moĆŒliwoĆci. O ile R jest wyspecjalizowanym pakietem statystycznym, to jÄzyk Python jest jÄzykiem ogĂłlnego zastosowania. Z tego powodu duĆŒo lepiej nadaje siÄ do implementowania wĆasnych, niestandardowych rozwiÄ zaĆ. Jest rĂłwnieĆŒ duĆŒo bardziej wydajny obliczeniowo - kod napisany w tym jÄzyku wywoĆuje siÄ kilku(dziesiÄcio)krotnie szybciej niĆŒ analogiczny kod napisany w R. Z drugiej strony, przeprowadzenie typowej analizy i przygotowanie raportu statystycznego zajmuje w nim kilku(dziesiÄcio)krotnie wiÄcej czasu.
ZarĂłwno R jak i Python sÄ powszechnie uĆŒywane w analizie danych i kaĆŒdy, kto planuje w przyszĆoĆci pracowaÄ z danymi, powinien poznaÄ oba te narzÄdzia przynajmniej w podstawowym stopniu i wiedzieÄ, kiedy stosowaÄ kaĆŒde z nich.
Rmarkdown Notebook sĆuĆŒy do ĆÄ czenia kodu w R z tekstem w jÄzyku naturalnym oraz wzorami w jÄzyku \(\LaTeX\).