14.09.10 godz 14.40. Wstawilem oceny i zatwierdzilem protokol. Pozytywna ocena koncowa jest zaokraglona w gore srednia z ocen z egz pis i komp. "NK" dostaly osoby, ktore na zadnym egz nie oddaly rozwiazan.

____________________________________________________________________

9.09.10 godz 13.40. W katalogu http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2010/terminII/ sa wyniki egz komp. Reklamacje prosze zglaszac emalka Panu Michalowi Lisowi. Prace pisemne sprawdzam.

____________________________________________________________________

6.09.10 godz 14.15. Na egz pis planuje 5 zad, w tym 3-4 zad zamierzam wybrac z podanej ponizej (7.06.10) listy. Jedno zad bedzie wariantem nastepujacego: wyprowadz wzory na wspolczynniki regresji logistycznej y na podstawie jednowymiarowego, binarnego x.

_____________________________________________________________________

17.06.10 godz 19.30. Wstawilem oceny do USOSa. W pn zamierzam zatwierdzic protokol. Jesli ktos zamierza reklamowac ocene, to prosze dac znac emalka.

17.06.10 godz 11.40. Wyniki egz pis sa w
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2010/EgzPis2010.1.txt
Zaraz bedzie opis punktacji. Bede na wydziale od 13tej do wieczora. Zapraszam.

16.06.10 godz 22.30. Przepraszam, nie zdaze z wynikami do polnocy. Beda jutro przed poludniem. Od poludnia zapraszam na reklamacje i wystawienie ocen.

15.06.10 godz 20.15. W katalogu http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2010/ sa wyniki i opis egz komp. Poniewaz tylko dwie osoby dostaly punkty za p-wartosc testu ilorazu wiarygodnosci w modelu logistycznym, wiec to zadanie potraktowalem jako dodatkowe, nie wplywajace na zaliczenie. A nalezalo zrobic - np dla danych X=na.omit(urine)
d1=glm(r~.,data=X,family=binomial)$dev
d0=glm(r~.,data=X[,1:5],family=binomial)$dev
1-pchisq(d0-d1,2) #1E-5

Wyniki egz pisemnego beda jutro.

_____________________________________________________________________

9.06.10 godz 14.45. W zad 8 powinno byc: "Wyprowadz wzory na estymator b wspolczynnikow modelu lin beta (z zadania najmniejszych kwadratow oraz z zasady najwiekszej wiarygodnosci)..."

8.06.10 godz 20.10. Bardzo Panstwa przepraszam -- nie moge spotkac sie z Panstwem jutro rano. Ide z dzieckiem do lekarza. Bede w pracy od ok 14tej do poznego wieczora. Zapraszam.

______________________________________________________________________

7.06.10 godz 12.00. Ocena koncowa z przedmiotu jest zaokraglona srednia z pozytywnych ocen z egz komp i teor. Egz poprawkowy zdaje sie tylko z tej czesci, ktorej sie nie zaliczylo w 1szym terminie.

Na egz teor wybiore 5 - 6 zadan (byc moze troszeczke zmodyfikowanych) z ponizszej listy.

1. Za pomoca rozkladu spektralnego var(X) podaj wzor na drugi kierunek glowny i druga skladowa glowna X. Z definicji 1szy kierunek glowny, to unormowany wektor t maksymalizujacy var(t'X), a 2gi kierunek glowny, to unormowany wektor w ortogonalny do t maksymalizujacy var(w'X).

2. Podaj najwazniejsze wlasnosci korelacji, entropii, odleglosci Kullbacka-Leiblera lub wspolnej informacji (wzory, relacje wzajemne, zakres).

3. Udowodnij rozklad macierzy kowariancji dla modelu liniowego: var(y) = var(y-y_pred) + var(y_pred).

4. Sformuluj alg k-srednich i udowodnij, ze separowalnosc sep(k) jest funkcja niemalejaca o wartosciach w przedziale [0,1]. Separowalnosc dla metody k-srednich liczy sie nastepujaco. Dla macierzy danych X mamy rozklad: (*) tr(cov(X)) = tr(cov(W)) + tr(cov(B)). Lewa strona (*) nie zalezy od podzialu ani od liczby klastrow. Alg. k-srednich minimalizuje tr(cov(W)) po podzialach na k czesci. Jego wynik oznaczany dalej w_k zalezy tylko od k. Z (*) wynika, ze t = w_k + b_k. Separowalnosc to z def sep(k) = b_k/t = 1 - w_k/t, k=1,...,nrow(X).

5. Sformuluj alg. klasteryzacji aglomeracyjnej "complete linkage".

6. Podaj wzor na optymalna regule decyzyjna z funkcja straty 1(d(x)!=k)/pi(k), gdzie pi jest rozkladem a-priori.

7. Sformuluj wzory na klasyfikator otrzymany metodami LDA, QDA, oraz z regresji logistycznej. Podaj kryterium optymalizacyjne dla wyznaczania parametrow. Podaj liczbe parametrow kazdej metody zakladajac, ze klasyfikujemy n -obs p -wymiarowych do K -klas.
Wskazowka: klasyfikatory sa postaci d(x) = argmax_k f(k,W,x), gdzie k=1,...,K, W - parametry, x-obs. Funkcje f nazywamy funkcjami klasyfikacyjnymi. Dla LDA i regresji logistycznej f sa liniowe od x, dla QDA mamy f-cje kwadratowa.

8. Wyprowadz wzory na estymator b wspolczynnikow modelu lin beta (z zadania najmniejszych kwadratow oraz z zasady najwiekszej wiarygodnosci) oraz estymator nieobciazony wariancji S2. Podaj, przy zalozeniu normalnosci bledow (epsilon), rozklad b oraz S2. Udowodnij, ze b i S2 sa niezalezne.

9. Niech H bedzie macierza kapeluszowa (hat matrix) dla X takiego, ze 1 nalezy do przestrzeni lin rozpietej przez kolumny X. Udowodnij, ze:
(i) 1/n <= H[i,i] <=1;
(ii) sum(diag(H)) = p;
(iii) H[i,i] = cor(y[i],yPred[i])^2.

10. Niech (X,Y) ma 2-wym rozklad normalny z wektorem srednich (mX,mY), wariancjami rozkladow brzegowych s2X i s2Y oraz wspolczynnikiem korelacji ro. Podaj wzor na wspolna informacje zawarta w X i Y.

11. Niech X bedzie wielowymiarowym wektorem los, EX=0 oraz a[1],...,a[k] jest ukladem ortonorm. Udowodnij, ze minimum E || X - (a[1]'X*a[1]+...+a[k]'X*a[k]) ||^2 jest osiaganie dla pierwszych k-kierunkow glownych.

12. Wyprowadz wzory na estymatory najwiekszej wiarygodnosci dla parametrow wielowymiarowego rozkladu normalnego.

13. Udowodnij, ze rozklad rownomierny (p[i]=1/n) maksymalizuje entropie wsrod wszystkich rozkladow na 1,...,n.

14. Niech X bedzie macierza danych, C podzialem obserwacji na k-czesci. Udowodnij, ze T = W_C + B_C, gdzie T, W_C i B_C sa odpowiednio macierza calkowitej kowariancji X, macierza kowariancji wewnatrz grup i macierza kowariancji pomiedzy grupami.

15. Wyprowadz ze wzoru na test ilorazu wiarygodnosci wzor na statystyke testowa F dla hipotezy liniowej
Hip: beta[q+1]=...=beta[p]=0
w modelu liniowym y = X %*% c(beta[1],...,beta[p]) + epsilon.

16. Udowodnij, ze pierwsze k-kierunki glowne tworza rzut ortogonalny macierzy danych, ktory minimalizuje roznice miedzy suma oryginalnych i zrzutowanych kwadratow odleglosci euklidesowych.

17. Podaj wzor na macierz k-glownych skladowych wykorzystujac rozklad SVD ( SVD pozwala liczyc skladowe glowne bez wykonywania rozkladu spektralnego var(X) ).

18. (a) Podaj algorytm na etymator bledu predykcji metoda kroswalidacji k-krotnej. (b) Na przykladzie modelu liniowego Uzasadnij, ze warto estymowac parametry metody predykcji (trenowac) i estymowac jej blad predykcji (w skryptach mean(ppp)) na innych zbiorach danych.

19. Niech R^2 bedzie wspolczynnikiem dopasowania (kwadrat korelacji probkowej cor(y,y_pred)) w modelu liniowym y = X %*% beta + epsilon, gdzie epsilon ~ N(0,si2), X - macierz nx(p+1), n>p, rank(X)=p+1 oraz X[,1]=1. Udowodnij, ze:
(i) test R^2 >c jest rownowazny testowi ilorazu wiarygodnosci;
(ii) R^2 ma rozklad beta(p/2,(n-p-1)/2).
Wskazowka do (ii): rozklad wariancji probkowej y daje R^2=1-RSS/TSS, dalej korzystamy ze zwiazkow miedzy rozkladami chi-kwadrat a gammma oraz miedzy gamma a beta.

20. Niech dany bedzie waski rozklad X=QR dla modelu lin z zad 19. Podaj algorytm obliczajacy estymator nieobciazony wariancji y kosztem O(n*p) dzialan arytmetycznych.

21. Udowodnij, ze w modelu lin z zad 20 statystyka F hipotezy lin: A %*% beta = 0 ma rozklad F(p,n-p-1).

22. Podaj gorne oszacownie postaci 0(a(n,p)) na koszt jednej iteracji algorytmu k-srednich i algorytmu k-medoidow (analogiczna minimalizacja "odleglosci" innej niz euklid).

23. Udowodnij Stw 1. lub Stw 2. z
http://www.mimuw.edu.pl/~pokar/StatystykaII/KSIAZKI/pokarHabModelSelect.pdf

____________________________________________________________