Lab 14 (śr.: 05.06.2013, czw.:06.06.2013 )

Róźne zadania

w szczególności można przejrzeć skrypt ze statystyki w R i zrobić zadanie 1.10. oraz przejrzeć rozdział 2 (o wizualizacji) i przerobić przykłady

Lab 13 (śr.: 29.05.2013, czw.:23.05.2013 )

Łańcuch Markowa, prezentacja zadania zaliczeniowego

model Ehrenfestów - implementacja zad. 9

Lab 12 (śr.: 15.05.2013, czw.:16.05.2013 )

Ukryte modele Markowa - ciąg dalszy

pakiet HMM

Ćwiczenie (bonus 2 pkt.; termin do końca maja): na podstawie pliku z sekwencjami wysp CpG u myszy ( link ) oraz pliku z sekwencjami referencyjnymi ( link ) proszę:

zbudować macierze przejścia/emisji, a następnie przewidzieć występowanie wysp CpG na dowolnym ludzkim autosomie (używając algorytmu Viterbiego)
spróbować poprawić model z poprzedniego punktu za pomocą algorytmu Bauma-Welcha (i porównać wyniki)

Wynik proszę przedstawić w raporcie.

ciekawy link nt. tego, czym różnią się poszczególne algorytmy

Lab 11 (śr.: 08.05.2013, czw.:09.05.2013 )

Ukryte modele Markowa

łańcuch Markowa, macierz przejścia, macierz emisji
algorytm Viterbiego
miara accuracy

przydatne materiały i skrypt Krijnena

Lab 10 (śr.: 24.04.2013, czw.:25.04.2013 )

Metoda największej wiarygodności, multiulinowienie, pliki fasta

pakiet phangorn: pml, optim.pml
pakiet ape: read.dna z argumentem format, write.nexus, read.nexus
pakiet seqinr: read.fasta
multiuliiowienie, program clustal (po zainstalowaniu lokalnie programu clustaw można użyć funkcji clustal z pakietu ape)

Przydatne linki: clustal online , clustal.org .

Zadanie zaliczeniowe nr 3

Termin: gr środowa: 20.05. godz. 23:59, gr. czwartkowa: 21.05., godz.23:59; rozwiązanie proszę przesłać mailem o tytule “[WBO-zad.3]” (adres jest po prawej stronie)

wygeneruj sekwencję DNA długości x >= 102 (wartość należy wybrać samemu, mając na uwadze np. atrakcyjność wyników i czas obliczeń), przy czym x jest podzielne przez 3
zaproponuj algorytm symulujący: a) mutacje pojedynczych nukleotydów z prawdopodobieństwem p (na jeden z trzech pozostałych nukleotydów); oraz b) delecje pojedynczych nukleotydów z prawdopodobieństwem q (ew. uzupełniając na końcu uzupełnić losowymi nukleotydami, aby długość była podzielna przez 3) oraz c) translokacji pojedynczych nukleotydów w inne miejsce na podstawie wybranego rozkładu dyskretnego
zasymuluj powstanie zbioru y >= 12 sekwencji (uwzględniając zdarzenia specjacji, czyli "rozdzielenia gatunków") i narysuj (może być ręcznie) drzewo filogenetyczne odwzorowujące powstanie tego ciągu; drzewo to ma mieć w szczególności y liści i być binarne; wewnętrzne gałęzie mogą mieć wybraną przez Państwa długość odpowiadającą scenariuszowi ich wygenerowania
porównaj (zaproponowaną przez siebie metodą) otrzymane sekwencje DNA budując drzewo filogenetyczne:
- wybraną metodą wykorzystującą macierz odległości, gdzie odległość jest liczona wg własnego modelu ewolucji (UWAGA: Nie trzeba tu implementować modelu ewolucji, tylko wystarczy zaimplementować metodę liczenia odległości uwzględniającą mechanizm ewolucji sekwencji przedstawiony w zadaniu. W szczególności można przyjąć, że parametry tego modelu są znane. )
- optymalne drzewo metodą maksymalnej wiarygodności (uwaga: należy opisać, jaki model ewolucji sekwencji stosujemy, i którko scharakteryzować w raporcie i uzasadnić jego użycie; nie musi być to model z wykładu)
przetłumacz sekwencje DNA na sekwencje aminokwasów (pomiń kodon startu/stopu na początku lub końcu, jeśli któraś trójka nukleotydów w otrzymanym ciągu koduje start lub stop można ją pominąć) -- w tym kroku można zaimplementować własną metodę lub użyć już istniejącą (wtedy należy o tym wyraźnie napisać w rozwiązaniu)
powtórz analizę z punktu 4 dla sekwencji aminokwasów (model ewolucji można zmienić tak, by działał dla aminokwasów) i porównaj wyniki z punktów 4 i 6 między sobą oraz z oczekiwanymi (rysunek z punktu 3) wynikami; zaproponuj metodę porównywania drzew (także w przypadku użycia istniejącej metody należy ją krótko opisać)
całe doświadczenie powtórz dla (co najmniej) 4 wybranych par wartości p i q; porównaj wyniki
rozwiązanie składa się z raportu (zawierającego czytelne i estetyczne rysunki oraz opis rozwiązania wraz z nazwami użytych funkcji i wnioski z przeprowadzonej analizy) i dołączonego kodu

Implementacja powinna być w R i dać się uruchomić na students.

Uwagi techniczne: Domyślnie zadanie należy robić indywidualnie. Jeśli ktoś chciałby robić je w zespole dwuosobowym, powinien to wcześniej ustalić ze mną (wtedy nalkeży zaproponować pewne urozmaicenie rozwiązania).

W przypadku wątpliwości proszę o kontakt.

Treść dużego zadania zaliczeniowego znajduje się na stronie wykładu

Ogłoszenie: konsultacje 18 i 25 kwietnia są w godz. 12.15-13.45; s. 5810)

Lab 9 (śr.: 17.04.2013, czw.:18.04.2013 )

Drzewa ...

pakiet ape: read.GenBank, nj
pakiet phangorn: upgma, NJ. parsimony, optim.parsimony

sekwencje z GenBanku (wpisujemy odpowiedni numer, np. U15717)
analiza drzew w R
phangorn: można np. przejrzeć vignettes
analiza drzew w R - prezentacja
wykład (Wessel van Wieringen)

powtórzyć analizę (budowa drzewa metodą UPGMA, NJ, drzewa parsymonii, różne modele ewolucji plus krótki raport z wnioskami omawiającymi analizę i rysunkami) na zbiorze wczytanym za pomocą polecenia: data(Laurasiatherian) - bonus do 3 pkt., termin do końca maja
zmienić model liczenia odległości w funkcji dist.dna

Lab 8 (śr.: 10.04.2013, czw.:18.04.2013 godz. 14-15.30)

Duże zadanie zaliczeniowe, w grupie czwartkowej może coś jeszcze.

Ogłoszenie: konsultacje z 11 kwietnia są przełożone na 9 kwietnia (godz. 12.45-14.15; s. 5810)

Zadanie zaliczeniowe nr 2

Termin: gr środowa: 29.04. godz. 23:59, gr. czwartkowa: 30.04., godz.23:59; rozwiązanie proszę przesłać mailem o tytule “[WBO-zad.2]” (adres jest po prawej stronie)

Polecenie: Zaimplementuj algorytm liczenia zagregowanych obwiedni izotopowych oraz średnich mas dla cząsteczek chemicznych złożonych z pewnej (być może zerowej) liczby atomów węgla, wodoru, tlenu, azotu i siarki. Rozwiązanie ma udostępniać funkcje:

liczące średnią masę całej cząsteczki oraz masę monoizotopową
liczącą zagregowaną obwiednię izotopową oraz średnie masy dla pewnej (np. zadanej w parametrze) liczby wiariantów począwszy od wariantu monoizotopowego
rysującą zagregowaną obwiednię izotopową wyliczoną w poprzednim punkcie

Ponadto należy przeprowadzić badanie szybkości działania algorytmu i umieścić je wraz z krótkim przykładem użycia zaimplementowanych funkcji w dołączonym raporcie. Implementacja może być wykonana w R lub C++, ale musi dać się uruchomić na students. Rozwiązanie powinno wykorzystywać algorytm FFT/szybkiej transformaty Fouriera (nie trzeba go implementować) do potęgowania wielomianów.

materiały z wykładu (na 4.tym slajdzie we wzorze na M powinna być suma, nie iloczyn, w razie wątpliwości proszę pytać, niedługo powinna pojawić się poprawiona wersja)
mnożenie wielomianów/FFT (po polsku: STF)
jeszcze o FFT

W przypadku wątpliwości proszę o kontakt.

Lab 7 (śr.: 03.04.2013, czw.:04.04.2013 )

Ogłoszenie drugiego zadania zaliczeniowego, sprawdzanie pierwszego zadania

Trochę o generowaniu wykresów - lattice, trellis

Lab 6 (śr.: 27.03.2013, czw.: ?)

P-wartości oraz sliding window

Lab 5 (śr.: 20.03.2013, czw.: 21.03.2013)

Uliniowienia.

algorytm Needlemana-Wunscha - implementacja
s2c (biblioteka seqinr)
funkcje pairwiseAlignment, pid (biblioteka Biostrings)
wczytywanie sekwencji - biblioteka BSgenome.Hsapiens.UCSC.hg19
pobieranie sekwencji z UCSC
BLAST2 (narzędzie do lokalnego uliniowienienia dwóch sekwencji)
funkcja getSeq(Hsapiens,chrom ,start, end, as.character=TRUE)
macierz substytucji (BLOSUM50)

rozdział 9.5 ze skryptu Krijnena
rozdział z książki internetowej

Ćwiczenie (bonus 2 pkt.; termin do końca maja): ściągnąć track SegmentalDups (hg19; UCSC), rozważamy tylko pary zgodnie zorientowane (wartość pola strand: +). Uliniowić dwie sekwencje (globalnie, ale można też poeksperymentować z lokalnym uliniowieniem) i porównać wartość pid uliniwienia (dla różnych wartości argumentu type: “PID1”, “PID2”, “PID3”, “PID4”) z wartościami fractMatch i fractMatchWithIndels. Wynik proszę przedstawić w czytelnej postaci (np. wykresy).

Dla osób zainteresowanych danymi Goluba umieszczam poniżej kilka linków z nimi związanych:
Praca Goluba z Science, Praca o przetwarzaniu danych , Prezentacja o mikromacierzach

Ogłoszenie: za przesłanie rozwiązania zadania na IRanges (o statystykach dla wylosowanych przedziałów z przedziału 1-100; proszę dopytać mnie, jeśli ktoś nie pamięta treści) można dostać bonus do 2 punktów z labu (termin: do końca maja).

BSgenome.Hsapiens.UCSC.hg19

Lab 4 (śr.: 13.03.2013, czw.: 14.03.2013)

Odwołany w związku z zamknięciem laboratorium.

Zadanie zaliczeniowe nr 1

termin oddania: gr. śr.: 25.03.2013 (pon.) godz.20; gr. czw.: 26.03.2013 (wt.) godz.20; rozwiązanie przesyłamy do mnie mailem o tytule "WBO-Zad.1" (adres jest po prawej stronie)

Polecenie: Zbadać rozłożenie genów na ludzkich chromosomach.

Uwagi techniczne: Rozwiązanie proszę przedstawić w postaci raportu (długość do 4 stron A4; przekroczenie tej objętości będzie traktowane jako wada) plus kodu dołączonego osobno (jeśli ktoś nie ustali ze mną inaczej, proszę o kod w R). Zadanie można robić w zespołach do 2 osób, ale każda z nich musi być w stanie zreferować rozwiązanie.

Uwagi dodatkowe: Jak widać zadanie ma charakter otwarty, więc liczy się pomysłowość. Można wybrać jakiś (ciekawy, co proszę uargumentować, ale wybór też będzie podlegał ocenie) podzbiór zbioru danych. Warto, aby w raporcie znalazł się opis danych i opis biologiczny (ale nie chodzi tu o przeklejenie odpowiedniej części wikipedii). Ponieważ czasu na zadanie jest sporo, zachęcam, żeby poeksperymentować z danymi i zastanowić się, co ciekawego chcemy zaprezentować w rozwiązaniu (można np. znaleźć w literaturze lub wymyślić jakąś hipotezę, a później ją zweryfikować).

W przypadku wątpliwości proszę o kontakt.

Lab 3 (śr.: 6.03.2013, czw.: 7.03.2013)

Operacje na przedziałach, poznajemy ludzki genom, ogłoszenie pierwszego zadania zaliczeniowego.

Biblioteka rtracklayer i dokumentacja.

UCSC (i później Genome Browser)

plotRanges

ćwiczenie: częstość par sąsiadujących nukleotydów w zadanej sekwencji z bazy danych genBank
findOverlaps, countOverlaps
(gr. środowa) intersect, union, setdiff na wektorach
intersect, pintersect itp. na IRanges
zadanie o generowaniach róznych statystyk dla przedziałów
UCSC - przeglądarka genomów
GenomicData
ćwiczenie: wczytanie tracku z UCSC i stworzenie zmiennej GenomicData

Lab 2 (śr.: 27.02.2013, czw.: 28.02.2013)

Ćwiczenia z R ciąg dalszy, będziemy używać skryptu Krijnena (link - lab.1)

Biblioteka IRanges i dokumentacja.

(gr. czwartkowa) histogram, rozkład normalny
zbiór danych golub, geny o najwiekszej średniej ekspresji
factor, rownames, table, paste
(gr. czwartkowa) intersect, union, setdiff
install.packages, library
wczytywanie sekwencji z bazy danych genBank
wykres kołowy, ustawianie etykietek
round, ceiling, floor, wspominałem też o funkcji format
wykres pudełkowy, funkcja layout umożliwiająca rysowanie kliku wykresów obok siebie
(gr. środowa) wprowadzenie do biblioteki IRanges

Lab 1 (śr.: 20.02.2013, czw.: 21.02.2013)

Ćwiczenia z R

Skrypt (Krijnen)

zmienne (liczby, napisy, wartości logiczne), przypisanie elementów)
wektory i macierze (odwoływanie się do elementów)
ramki danych (data.frame)
czytanie i zapisywanie do pliku, pliki .csv
ćwiczenie: wypisać imię najwyższej osoby
rozkład jednostajny
(gr. środowa) podstawowe wykresy (histogram); próby z rozkładu normalnego

Wstęp do biologii obliczeniowej strona przedmiotu

Lab 3043

Konsultacje:

Lab 14 (śr.: 05.06.2013, czw.:06.06.2013 )

Lab 13 (śr.: 29.05.2013, czw.:23.05.2013 )

Lab 12 (śr.: 15.05.2013, czw.:16.05.2013 )

Lab 11 (śr.: 08.05.2013, czw.:09.05.2013 )

Lab 10 (śr.: 24.04.2013, czw.:25.04.2013 )

Zadanie zaliczeniowe nr 3

Treść dużego zadania zaliczeniowego znajduje się na stronie wykładu

Ogłoszenie: konsultacje 18 i 25 kwietnia są w godz. 12.15-13.45; s. 5810)

Lab 9 (śr.: 17.04.2013, czw.:18.04.2013 )

Lab 8 (śr.: 10.04.2013, czw.:18.04.2013 godz. 14-15.30)

Ogłoszenie: konsultacje z 11 kwietnia są przełożone na 9 kwietnia (godz. 12.45-14.15; s. 5810)

Zadanie zaliczeniowe nr 2

Lab 7 (śr.: 03.04.2013, czw.:04.04.2013 )

Lab 6 (śr.: 27.03.2013, czw.: ?)

Lab 5 (śr.: 20.03.2013, czw.: 21.03.2013)

Lab 4 (śr.: 13.03.2013, czw.: 14.03.2013)

Zadanie zaliczeniowe nr 1

Lab 3 (śr.: 6.03.2013, czw.: 7.03.2013)

Lab 2 (śr.: 27.02.2013, czw.: 28.02.2013)

Lab 1 (śr.: 20.02.2013, czw.: 21.02.2013)