Index of /~pokar/StatystykaII
Name Last modified Size Description
Parent Directory -
DANE/ 10-May-2011 12:08 -
EGZAMINY/ 20-Jun-2011 11:07 -
EKSPLORACJA/ 09-Sep-2009 17:30 -
KSIAZKI/ 01-Jun-2010 10:03 -
PREDYKCJA/ 12-May-2008 12:15 -
StatII_Syllabus07.pdf 01-Feb-2008 09:32 106K
wyklad.pdf 02-Mar-2012 12:58 709K
8.09.11 godz 13.00. Wstawilem oceny do protokolu - prosze sprawdzic. Zatwierdze jutro.
Zapraszam na reklamacje do 14tej.
Opis punktacji zadan z pis egz poprawkowego oraz oceny sa w
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2011/termin2/
5.09.11 godz 10.30. Oceny z poprawkowego egz komp oraz opis punktacji sa w
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2011/termin2/
Zapraszam do s 5050 na reklamacje.
4.09.11 godz 20.40. Oceny z poprawkowego egz komp wystawie do godz 10tej dnia jutrzejszego.
Zapraszam Panstwa na reklamacje w godz 11-13.
__________________________________________________________________________
22.06 godz 10.10. Wpisalem oceny do USOSa. Prosze sprawdzic, czy wszystko
sie zgadza. Jutro zatwierdze protokol.
21.06 godz 11.20. Zasady punktacji egz komp sa w
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2011/EgzKomp2011.1.punktacja.pdf
Prace jeszcze sprawdzam i wyniki sukcesywnie wpisuje do:
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2011/EgzPis2011.1.wyniki.txt
21.06.godz 8.20. Przepraszam Panstwa, spozniam sie z rozwiazaniami. Mam nadzieje, se
skoncze do godz 12tej. Bede w pracy do 21szej - zapraszam na kon>rsultacje.
20.06.11 godz 12.15. Wyniki egz pis oraz zasady oceniania sa w:
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2011/
Do nocy skoncze sprawdzac egz komp. Zapraszam jutro na reklamacje w godz 9.00-14.30.
__________________________________________________________________________
9.06.11 godz 15.30. Odpowiadam na czeste pytania i podaje wskazowki.
1. Egz komp mozna pisac na swoim laptopie. Jedyne graniczenia: nie wolno sie porozumiewac
(bezposrednio lub przez siec) i nie wolno miec pomocy papierowych przy sobie. Wszystkie
sciagi maja byc na kompie.
2. Moze sie przydac:
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2010/terminI/EgzKomp100612a.pdf
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2010/terminI/wskazowki.txt
__________________________________________________________________________
6.06.11 godz 12.00. Ocena koncowa z przedmiotu bedzie zaokraglona srednia
z pozytywnych ocen z egz komp i teor. Egz poprawkowy zdaje sie tylko z tej czesci,
ktorej sie nie zaliczylo w 1szym terminie.
Na egz teor bedzie 6 zadan: jedno o estymacji parametrow uogolnionego modelu lin
oraz 5 zadan (byc moze troszeczke zmodyfikowanych) z ponizszej listy.
1. Za pomoca rozkladu spektralnego var(X) podaj wzor na drugi kierunek
glowny i druga skladowa glowna X. Z definicji 1szy kierunek glowny, to unormowany
wektor t maksymalizujacy var(t'X), a 2gi kierunek glowny, to unormowany wektor w
ortogonalny do t maksymalizujacy var(w'X).
2. Podaj najwazniejsze wlasnosci korelacji, entropii, odleglosci
Kullbacka-Leiblera lub wspolnej informacji (wzory, relacje wzajemne, zakres).
3. Udowodnij rozklad macierzy kowariancji dla modelu
liniowego: var(y) = var(y-y_pred) + var(y_pred).
4. Sformuluj alg k-srednich i udowodnij, ze separowalnosc sep(k)
jest funkcja niemalejaca o wartosciach w przedziale [0,1].
Separowalnosc dla metody k-srednich liczy sie nastepujaco. Dla macierzy
danych X mamy rozklad: (*) tr(cov(X)) = tr(cov(W)) + tr(cov(B)).
Lewa strona (*) nie zalezy od podzialu ani od liczby klastrow. Alg. k-srednich
minimalizuje tr(cov(W)) po podzialach na k czesci. Jego wynik oznaczany
dalej w_k zalezy tylko od k. Z (*) wynika, ze t = w_k + b_k.
Separowalnosc to z def sep(k) = b_k/t = 1 - w_k/t, k=1,...,nrow(X).
5. Sformuluj alg. klasteryzacji aglomeracyjnej "complete linkage".
6. Podaj wzor na optymalna regule decyzyjna z funkcja straty
1(d(x)!=k)/pi(k), gdzie pi jest rozkladem a-priori.
7. Sformuluj wzory na klasyfikator otrzymany metodami LDA i QDA oraz
porownaj z klasyfikatorem opartym na regresji logistycznej: ifelse( X %*% beta > 0, 1, 0).
Podaj kryterium optymalizacyjne dla wyznaczania parametrow LDA i QDA oraz
liczbe parametrow kazdej metody zakladajac, ze klasyfikujemy n -obs p -wymiarowych do K -klas.
Wskazowka: klasyfikatory sa postaci d(x) = argmax_k f(k,W,x),
gdzie k=1,...,K, W - parametry, x-obs. Funkcje f nazywamy funkcjami
klasyfikacyjnymi. Dla LDA i regresji logistycznej f sa liniowe od x,
dla QDA mamy f-cje kwadratowa.
8. Wyprowadz wzory na estymator b wspolczynnikow modelu lin beta
(z zadania najmniejszych kwadratow oraz z zasady najwiekszej wiarygodnosci)
oraz estymator nieobciazony wariancji S2.
Podaj, przy zalozeniu normalnosci bledow (epsilon), rozklad b oraz S2.
Udowodnij, ze b i S2 sa niezalezne.
9. Niech H bedzie macierza daszkowa (hat matrix) dla X takiego,
ze 1 nalezy do przestrzeni lin rozpietej przez kolumny X.
Udowodnij, ze:
(i) 1/n <= H[i,i] <=1;
(ii) sum(diag(H)) = p;
(iii) H[i,i] = cor(y[i],yPred[i])^2.
10. Niech (X,Y) ma 2-wym rozklad normalny z wektorem srednich (mX,mY),
wariancjami rozkladow brzegowych s2X i s2Y oraz wspolczynnikiem korelacji ro.
Podaj wzor na wspolna informacje zawarta w X i Y.
11. Niech X bedzie wielowymiarowym wektorem los, EX=0 oraz
a[1],...,a[k] jest ukladem ortonorm. Udowodnij, ze minimum
E || X - (a[1]'X*a[1]+...+a[k]'X*a[k]) ||^2 jest osiaganie dla
pierwszych k-kierunkow glownych.
12. Wyprowadz wzory na estymatory najwiekszej wiarygodnosci
dla parametrow wielowymiarowego rozkladu normalnego.
13. Udowodnij, ze rozklad rownomierny (p[i]=1/n) maksymalizuje
entropie wsrod wszystkich rozkladow na 1,...,n.
14. Niech X bedzie macierza danych, C podzialem obserwacji na k-czesci.
Udowodnij, ze T = W_C + B_C, gdzie T, W_C i B_C sa odpowiednio macierza
calkowitej kowariancji X, macierza kowariancji wewnatrz grup i macierza kowariancji
pomiedzy grupami.
15. Wyprowadz ze wzoru na test ilorazu wiarygodnosci wzor na statystyke
testowa F dla hipotezy liniowej
Hip: beta[q+1]=...=beta[p]=0
w modelu liniowym y = X %*% c(beta[1],...,beta[p]) + epsilon.
16. Udowodnij, ze pierwsze k-kierunki glowne tworza rzut ortogonalny
macierzy danych, ktory minimalizuje roznice miedzy suma oryginalnych i zrzutowanych
kwadratow odleglosci euklidesowych.
17. Podaj wzor na macierz k-glownych skladowych wykorzystujac rozklad SVD
( SVD pozwala liczyc skladowe glowne bez wykonywania rozkladu spektralnego var(X) ).
18. (a) Podaj algorytm na etymator bledu predykcji metoda kroswalidacji k-krotnej.
(b) Na przykladzie modelu liniowego uzasadnij, ze warto estymowac parametry metody predykcji
(trenowac) i estymowac jej blad predykcji (w skryptach mean(ppp)) na innych zbiorach danych
- wystarczy udowodnic Stw 1. lub Stw 2. z:
http://www.mimuw.edu.pl/~pokar/StatystykaII/KSIAZKI/pokarHabModelSelect.pdf
19. Niech R^2 bedzie wspolczynnikiem dopasowania (kwadrat korelacji probkowej cor(y,y_pred))
w modelu liniowym y = X %*% beta + epsilon, gdzie epsilon ~ N(0,si2), X - macierz nx(p+1), n>p, rank(X)=p+1 oraz X[,1]=1.
Udowodnij, ze:
(i) test R^2 >c jest rownowazny testowi ilorazu wiarygodnosci;
(ii) R^2 ma rozklad beta(p/2,(n-p-1)/2).
Wskazowka do (ii): rozklad wariancji probkowej y daje R^2=1-RSS/TSS, dalej korzystamy ze zwiazkow
miedzy rozkladami chi-kwadrat a gammma oraz miedzy gamma a beta.
20. Niech dany bedzie waski rozklad X=QR dla modelu lin z zad 19. Podaj algorytm
obliczajacy estymator nieobciazony wariancji y kosztem O(n*p) dzialan arytmetycznych.
21. Udowodnij, ze w modelu lin z zad 20 statystyka F hipotezy lin: A %*% beta = 0 ma rozklad
F(p,n-p-1).
22. Podaj gorne oszacownie postaci 0(a(n,p)) na koszt jednej iteracji algorytmu k-srednich i
algorytmu k-medoidow (analogiczna minimalizacja "odleglosci" innej niz euklid).
____________________________________________________________