• 15.09.06 godz 8.20. SPOTKAJMY SIE DZISIAJ. Bede na wydziale od 18tej do 21-22giej.


  • ____________________________________________________________________
  • 14.09.06 godz 8.30. Niestety, ze wzgledu na klopoty ze zdrowiem ODWOLUJE DZISIEJSZE SPOTKANIE. Moze spotkamy sie jutro. Informacja w tej sprawie bedzie jutro rano na tej stronie.


  • ____________________________________________________________________
  • 11.09.06 godz 8.30. Zagadnienia do egz Pis sie nie zmieniaja. Jesli chodzi o Komp, to prosze: (i) pocwiczyc obliczanie miar zaleznosci opartych na gestosciach. (przyda sie funkcja table, density); (ii) przypomniec sobie analize wariancji i porownania wielokrotne; (iii) prosze sprawdzic jak sie liczy odleglosci nieeuklidesowe za pomoca dist (rezultat mozna wykorzystac do hclust). Reszta bez zmian.

  • 8.09.06. Witam Panstwa po wakacjach i zapraszam chetnych na konsultacje w pn w godz 18-21. Chcialbym, zeby egz poprawkowy byl "izomorficzny" z poprzednim. W niedziele uzupelnie wczesniejszy opis zadan - prosze zwrocic uwage na tematy, ktore tam sie pojawily, ale nie zostaly wykorzystane na egz...


  • ____________________________________________________________________
  • 29.06.06. Przypominam, ze zaliczenie egzaminow Komp i Pis jest niezalezne: osoby, ktore nie zaliczyly tylko jednego egzaminu, powinny poprawic tylko ten egzamin.

    29.06.06. godz. 11.45. W pliku EgzPisemny2106.txt sa wyniki egz pisemnego.

  • 28.06.06. godz. 21.00. Wyniki egz pisemnego opublikuje jutro przed poludniem. - Uwzglednilem wiele reklamacji i chcialbym jeszcze raz przeczytac wszystkie prace.

    28.06.06. godz. 18.00. W pliku EgzPis210606punktacja.pdf sa zasady punktacji na egz. pis.

    28.06.06. godz. 10.00. Bede na wydziale od ok 16.30 do 22giej (przynajmniej). Zapraszam na konsultacje, reklamacje i po wpisy. Im pozniej, tym lepiej (chlodniej).

  • 27.06.06. godz. 18.45. Maraton sprawdzania egz komp zakonczony. W archiwum Wyniki2106.zip sa dwa pliki: w ".pdf" sa zbiorcze wyniki i zasady punktacji, natomiast w ".txt" jest lista z wynikami w formacie: numer indeksu, pesel, ocena.
    Potrzebuje jeszcze ok 4-5 godz na sprawdzenie egz pisemnych. Jutro po poludniu bede czekal na Panstwa.

  • 26.06.06. Poprawilem komentarz w 1szej czesci Cars93.R, bo byl niezgodny z wynikiem obliczen. Powinno byc: obs 34 i 37 sa odstajace.

    Przepraszam Panstwa, bo spozniam sie z rozwiazaniami. Mam nadzieje do wieczora skonczyc sprawdzanie egz komp a jutro do poludnia egz pis. O postepach bede informowal w tym miejscu.
    W tym katalogu, pliku Egz2106.zip sa teksty egz komp i rozwiazania zadan z regresja wielu zmiennych.


  • ____________________________________________________________________
  • 20.06.06. (drobna korekta o godz 22.20)

    ____________________________________________________________________

    EGZAMIN KOMPUTEROWY (napisane o godz 20.00)
    Ogolny opis zadan - rezerwuje sobie prawo do 15 % niespodzianki z programowania raczej niz ze statystyki.

    1.- 2. Eksploracja.
    (i) Wczytac dane.
    (ii) Narysowac plaszczyzne dwoch glownych skladowych i policzyc udzial ich wariancji w calkowitej wariancji danych.
    (iii) Sprawdzic za pomoca boxplot.stats i boxplot, czy sa obs odstajace.
    (iv) Poklasteryzowac dane.
    (v) Narysowac estymatory gestosci w klastrach.

    3. Oszacowac efektywnosc (wg innej miary zaleznosci niz p-stwo popr. predykcji...) klasyfikacji w eksperymencie kroswalidacji dla lda, qda, nnet i regresji logistycznej zaimplementowanej w multinom z library(nnet).

    4. Zbudowac model regresji lin wielu zmiennych. Mozna wykorzystac moje skrypty samochodyNowe.R i bodyfat.R.

    5. Zbudowac model lin dla danych nieliczbowych lub mieszanych. Wykonac selekcje cech za pomoca stepAIC i porownania wielokrotne za pomoca TukeyHSD (mozna wykorzystac analiy z cwiczen na danych quine i immer).

    ____________________________________________________________________

    EGZAMIN PISEMNY (napisane o godz 17.30)
    Podaje wiekszy zbior zadan - nie wszystkie sa precyzyjnie sformulowane, te, ktore sa - moga byc troszke zmienione.

    1. PCA (albo LDA): wyprowadz wzor na pierwsza skladowa glowna (zmienna kanoniczna).

    2. Najwazniejsze wlasnosci korelacji, odleglosci Kullbacka-Leiblera lub wspolnej informacji.

    3. Rozklad (ko)wariancji.

    4. Sformuluj alg k-srednich i udowodnij, ze separowalnosc sep(k) jest funkcja niemalejaca w przedziale [0,1].

    5. Sformuluj alg. klasteryzacji aglomeracyjnej "complete linkage".

    6. Podaj wzor na optymalna regule decyzyjna z funkcja straty 1(d(x)!=k)/pi(k), gdzie pi jest rozkladem a-priori.

    7. Sformuluj wzory na klasyfikator otrzymany metodami LDA, QDA, dyskryminacja logistyczna (LOGISTIC), siecia neuronowa (NN). Podaj kryterium optymalizacyjne dla wyznaczania parametrow. Podaj liczbe parametrow kazdej metody zakladajac, ze klasyfikujemy n -obs p -wymiarowych do K -klas.
    Wskazowka: klasyfikatory sa postaci d(x) = argmax_k f(k,W,x), gdzie k=1,...,K, W - parametry, x-obs. Funkcje f nazywamy funkcjami klasyfikacyjnymi. Dla LDA i LOGISTIC f sa liniowe od x, dla QDA mamy f-cje kwadratowa.

    8. Zalozmy, ze S2 jest probkowa wariancja w modelu normalnym N(0,si^2). Policz rozklad n*S2/si^2.

    9. Niech X bedzie macierza danych oraz H = X %*% solve(t(X)%*%X) %*% t(X). Udowodnij, ze (i) 0<= H[i,i] <=1; (ii) H[i,i] = cor(y[i],yPred[i])^2.

    ____________________________________________________________

    ODPOWIEDZI NA CZESTE PYTANIA (skonczone o godz 17.50).

    7. Mamy model logitowy logit(p(awaria[i]|x[i])) = t(c(1,x[i]))%*%beta, i=1,...,n.
    W zadaniu regresji logistycznej chodzi o estymacje p(awaria|x), w dyskryminacji - o interpretacje wspolczynnikow beta, w klasyfikacji - o decyzje d(x) = ifelse( p(awaria|x)>.5, 1, 0).

    6. Roznica miedzy dyskryminacja a klasyfikacja (predykcja do skon liczby klas) wynika z interpretacji zadania matem. Mowimy o dyskryminacji irysow, bo celem Fishera byl opis odmian tej rosliny za pomoca prostych mierzalnych cech. Powiemy o klasyfikacji kobiet Pima, bo dane te moga sluzyc do budowy taniego testu na obecnosc cukrzycy.

    5. Na cwiczeniach na ogol "wkladalismy" do lm wektor y i macierz X. Jest tak chyba prosciej na poczatku nauki R lub w sytuacji, gdy wszystkie zmienne sa liczbowe i jest ich duzo. Ogolniej, czyli dla modeli liniowych mieszanych (cechy liczbowe i nominalne) lub dla regresji logistycznej (glm) trzeba uzywac formul zawierajacych nazwy zmiennych, ktore sa kolumnami tabeli (data.frame). Np lm(fat~bmi+tri,data=data.frame(X)). Kiedy zmiennych wyjasniajacych jest duzo, to taki zapis jest niewygodny, wiec uzywa sie aliasu (skrotu) ".", ktory w lm lub glm oznacza "wszystkie cechy procz wyjasnianej". Np m1=lm(Paliwo~.,data=Auta) oznacza regresje zuzycia paliwa za pomoca pozostalych cech w tabeli Auta (tabela utworzona z danych samochody.dat).

    4. Funkcja update sluzy do wygodnego zapisu i rozwiazania modelu zmodyfikowanego, jesli mamy model wczesniejszy, tutaj m1. Zapis update(m1,.~.-Szer) oznacza nowa regresje zmiennej Paliwo za pomoca wszystkich pozostalych cech z wyjatkiem Szer. W zapisie ".~." pierwsza kropka oznacza lewa strone formuly z m1, druga kropka - prawa strone. Pierwsza kropke mozna pominac, ale wole tego nie robic! Podobna konwencja obowiazuje w stepAIC.

    3. Kryteria informacyjne minimalizowane w procedurach automatycznego wyboru modelu maja czesto postac:
    - logWiarygodnosc + wielkosc_modelu
    Pierwszy czlon oznacza blad w dopasowaniu modelu do danych uczacych; drugi czlon - kare za wielkosc modelu. Popularne sa dwa kryteria: AIC (Akaike Informacion Criterion) i BIC (Bayes Information Criterion).
    AIC = -logWiarygodnosc + 2*p
    BIC = -logWiarygodnosc +log(n)*p,
    gdzie p - wymiar wektora cech obserwowanych, n - liczba obserwacji.
    Widac, ze jedyna roznica miedzy AIC i BIC jest czynnik "k" stojacy przy p. Dlatego oba kryteria mozna optymalizowac jedna funkcja stepAIC, przestawiajac ewentualnie k. Domyslnie jest k=2, zgodnie z nazwa funckji.

    2. Zauwazacie Panstwo arbitralnosc wyboru koncowego modelu (dla bodyfat czy samochodow) i zastanawiacie sie, jak bede ocenial! - Chcialbym, zeby modele byly:

    (A) Otrzymane w oparciu o uniwersalne zasady:
    (i) Np procedure Bonferroniego + testy t-studenta oparte na residuach dla identyfikacji obserwacji odstajacych.
    (ii) Obserwacje rozkladow brzegowych (+ ew przeksztalenie log x-ow) oraz przeksztalcenia logtrans i boxcox zmiennej zaleznej y.
    (iii) Testy istotnosci wspolczynnikow + stepAIC + dropterm (ew addterm) dla selekcji cech.

    (B) Aby koncowy model byl "dopuszczalny", nie dal sie "jednostanie", czyli pod kazdym wzgledem, poprawic. Modele, ktore otrzymalem dla bodyfat i samochodow takie sa. Np dla samochodow model m4, czyli logPaliwo ~ logPojemn daje cor=.92 podczas, gdy modele wieksze m2 i m3 daja .93. W tym przypadku model m3 rowniez uwazam za dopuszczalny.

    Jestem pod wrazeniem ksiazki J. Farawaya i chcialbym zacytowac Panstwu fragment ze str 134/135:
    In comparing the competing analyses of two statisticians, it may sometimes be possible to determine that one analysis is clearly superior. However, in most cases, particularly when the analysts are experienced and professionally trained, a universally acceptable judgments of superiority will not be possible.

    1. Planuje na egz komp zadanie z klasyfikacji lub regresji za pomoca sieci neuronowej. W pliku NOWE/CrossValKlasCrabs.R jest porownanie qda i nnet w kroswalidacji pieciokrotnej na danych crabs. Prosze zwrocic uwage na parametry nnet:

    (i) Nastawilem softmax=T, bo klasyfikuje do wiecej niz dwoch klas (patrz help). Kryterium softmax to optymalizacja wiarygodnosci danych w modelu bardzo bliskim dyskryminacji logistycznej. Zaklada sie, ze log(p[k|x]) = f(k,W,x), gdzie k=1,...,K oznacza klase, x - obserwacje, W - wagi (parametry) sieci oraz f jest funkcja klasyfikacyjna sieci neuronowej (na wykladzie oznaczalem ja "y z daszkiem"). Regula klasyfikacyjna jest postaci d(x) = argmax_k f(k,W,x).

    (ii) Latwo zauwazyc, ze siec neuronowa z kryterium softmax ma (p+1+K)*size + K parametrow, gdzie p jest wymiarem wektora x oraz size oznacza liczbe wezlow warstwy ukrytej. Nastawilem size=16, bo wtedy siec ma 164 parametry, przy 160 obserwacjach uczacych, wiec mozna ja uwazac za metode nieparametryczna (dla porownania qda ma 80 parametrow). Ogolnie, przyrownujac liczbe parametrow do liczby obserwacji n, otrzymujemy wzor:
    size = ceiling( (n-K)/(p+1+K) ).

    _____________________________________________________________________

  • 19.06.06. Planuje na egz komp zadanie wymagajace budowy modelu regresji lin wielu zmiennych. Wczoraj podalem przyklad budowy modelu dla danych bodyfat. Teraz wykonalem podobne obliczenia dla danych samochody (NOWE/samochodyNowe.R), ktore dobrze znamy z cwiczen. Zaskoczylo mnie jak bardzo wynik rozni sie od modelu z ksiazki J. Koronackiego i J. Mielniczuka!

    Poprawilem nastepujace bledy:
    (i) w zad.4 w NOWE/EgzKomp060606.pdf zamiast "klasteryzacji" powinno byc "klasyfikacji";
    (ii) zamienilem wariant zadan komp w EGZAMINY/Kol1606.pdf aby pasowal do odpowiedzi w EGZAMINY/Kol1606.R.
    (iii) w rozwiazaniu zad 3. (wykresy gestosci 2d) w pliku EGZAMINY/Kol1606.R niepotrzebnie uzylem funkcji rev. Obecnie dodalem w komentarzu krotki programik wyjasniajacy jak R przechowuje i rysuje macierze. Blad zauwazyl p Pawel Idzikowski - dziekuje.

  • 18.06.06. Bede jutro w pracy od ok 12tej do wieczora.

    Uzupelnilem regresje wielu zmiennych dla danych "bodyfat": W katalogu NOWE jest opis danych w "bodyfat.pdf" a w archiwum "bodyfat2.zip" sa dane, rozwiazanie Tracy Bergemann oraz moj programik.

  • 16.06.06. W katalogu NOWE sa przykladowe zad egzaminacyjne i nowe materialy.

  • 12.06.06. Robie porzadek na tej stronie! Bede na wydziale jutro, tj we wtorek 13.06 od ok 10tej do wieczora. Zapraszam na konsultacje.